- A+
(搬自之前自己的博客)
其中的内容,对于SEO学习初期,尤其需要先形象了解中文分词、倒排索引与TF-IDF三者之间的逻辑关系,很好的代表了从用户搜索一个词,到搜索引擎返回搜索结果的大致实现机制。可以先排除掉大多数SEO新手对于“关键词”的误解。
但同时,毕竟此书本身是搜索引擎领域的书籍,很多比例的内容对于SEO的作用也不大。因此我之前整理了其中的SEO重点章节,页数对应的是《走进搜索引擎》的第二版。第一版的话,只能去对下章节名了,其中多数章节应该是类似的。
下载系统
Page 6 搜索引擎的体系结构
Page 12 万维网的直径
Page 16 宽度优先策略
Page 19 不重复抓取策略
Page 25 网页抓取优先策略
Page 26 网页重访策略
Page 31 其他应该主要注意的礼貌性问题
分析系统
Page 46 网页结构化的目标
Page 52 通过投票方法得到正文
Page 56 网页查重
Page 61 中文分词
Page 68 PageRank的基本想法
索引系统
Page 87 倒排索引
查询系统
Page 113 什么是信息熵
Page 115 检索词和查询词的区别
Page 116 自动文本摘要
Page 122 关键词权重的量化方法TF-IDF
Page 137 中文自动摘要
Page 145 推测用户查询意图
排序学习
Page 186 查询相关/无关的排序模型
Page 217 排序特征
作者:zero 来源:zero博客
来自外部的引用: 1