【百度搜索研发部】基于主特征空间相似度计算的切分算法及切分框架 【百度搜索研发部】

【百度搜索研发部】基于主特征空间相似度计算的切分算法及切分框架

我们为什么要切分? 说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的...
阅读全文
【百度搜索研发部】搜索背后的奥秘–浅谈语义主题计算 【百度搜索研发部】

【百度搜索研发部】搜索背后的奥秘–浅谈语义主题计算

摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档...
阅读全文
【百度搜索研发部】以求医为例谈搜索引擎排序算法的基础原理 【百度搜索研发部】

【百度搜索研发部】以求医为例谈搜索引擎排序算法的基础原理

我们向搜索引擎网站提交处理一个查问,搜索引擎网站会从先到后列出数量多的最后结果,这些个最后结果排序的标准是啥子呢?这个看似简单的问题,却是信息检索资深专家们研讨的中心困难的问题之一。 为理解释明白这个问题,我们来研讨一个比搜索引擎网站更加古...
阅读全文