shell学习笔记cygwin下用Python+jieba给文本分词并提取高频词 今晚小折腾了一下在cygwin下用Python和jieba分词(结巴分词)组件给文本分词并提取高频词,过程记录如下: 目的 分析某行业中,用户最关心的一些需求,再根据这一需求去调整站内TDK,以及一些频道、内容的规划 过程 1、下载安装cy... 05月30日 9,789 9 阅读全文
【百度搜索研发部】【百度搜索研发部】基于主特征空间相似度计算的切分算法及切分框架 我们为什么要切分? 说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的... 12月22日 2,467 发表评论 阅读全文