其他杂项[python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像 – Eastmount的专栏 – 博客频道 – CSDN.NET 0 前言 本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中... 06月14日 3,481 发表评论 阅读全文
其他杂项[python] 基于k-means和tfidf的文本聚类代码简单实现 – Eastmount的专栏 – 博客频道 – CSDN.NET 俗话说“外行看热闹,内行看门道“,作为一个机器学习的门外汉,刚研究python机器学习scikit-learn两周时间,虽然下面这段程序可能对于那些专研算法或机器学习的人来说非常简单,但对于一些入门的... 06月14日 2,725 发表评论 阅读全文
其他杂项[python] 使用Jieba工具中文分词及文本聚类概念 – Eastmount的专栏 – 博客频道 – CSDN.NET 前面讲述了很多关于Python爬取本体Ontology、消息盒InfoBox、虎扑图片等例子,同时讲述了VSM向量空间模型的应用。但是由于InfoBox没有前后文和语义概念,所以效果不是很好,这篇文章... 06月14日 1,115 发表评论 阅读全文
其他杂项Python简单实现基于VSM的余弦相似度计算 – Eastmount的专栏 – 博客频道 – CSDN.NET 在知识图谱构建阶段的实体对齐和属性值决策、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知... 06月14日 1,052 发表评论 阅读全文
其他杂项1.3.3 理解随机性_机器学习算法原理与编程实践_红黑联盟读书频道 让我们改变一下视角,从整体上观察矩阵(集合)中的对象分布与矩阵整体的关系。这需要引入一个新的概念:概率论。概率论是整个数学大厦中比较难理解的一门学科。这多少与直觉有点差异,人们常把概率简单理解为事件发... 06月14日 470 发表评论 阅读全文
其他杂项1.3.5 多元统计基础_机器学习算法原理与编程实践_红黑联盟读书频道 理解了随机性和概率基础,下一步我们与之前介绍的矩阵结合起来,将它扩展到多维的情况。 06月14日 227 发表评论 阅读全文
其他杂项1.3.4 回顾概率论_机器学习算法原理与编程实践_红黑联盟读书频道 对事物运动这种不确定性(随机性)的度量就是概率论,接下来我们考察一下概率的基本概念。衡量事物运动的随机性,必须从整体而不是局部来认知事物, 因为从每个局部,事物可能看起来都是不同的(或相同的)。不像其... 06月14日 264 发表评论 阅读全文
其他杂项相似度算法_木木彡_新浪博客 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分 类和聚类算法,如K最近邻(KNN)和K均值(K-Means)... 06月14日 306 发表评论 阅读全文
其他杂项文本相似度计算-JaccardSimilarity和哈希签名函数 – 笑笑的程序人生 – 博客频道 – CSDN.NET 在目前这个信息过载的星球上,文本的相似度计算应用前景还是比较广泛的,他可以让人们过滤掉很多相似的新闻,比如在搜索引擎上,相似度太高的页面,只需要展示一个就行了,还有就是,考试的时候,可以用这个来防作弊... 06月14日 2,153 发表评论 阅读全文