【百度搜索研发部】基于主特征空间相似度计算的切分算法及切分框架 【百度搜索研发部】

【百度搜索研发部】基于主特征空间相似度计算的切分算法及切分框架

我们为什么要切分? 说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的...
阅读全文
【百度搜索研发部】搜索背后的奥秘–浅谈语义主题计算 【百度搜索研发部】

【百度搜索研发部】搜索背后的奥秘–浅谈语义主题计算

摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档...
阅读全文