SEO好文章搜索引擎原理:网络爬虫 通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。 1. 网络爬虫本质就是浏览器http请求。 浏览... 04月26日 1,138 发表评论 阅读全文
SEO好文章搜索引擎原理:Trie树:应用于统计和排序 1. 什么是trie树 1.Trie树 (特例结构树) Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统... 04月26日 648 发表评论 阅读全文
SEO好文章搜索引擎原理:搜索引擎的技术架构 1. 搜索引擎的分类 搜索引擎按其工作方式主要可分为三种: 分别是全文搜索引擎(Full Text Search Engine) 目录索引类搜索引擎(Search Index/Directory) 元搜索引擎(Meta Search Eng... 04月26日 615 发表评论 阅读全文
SEO好文章搜索引擎原理:链接分析算法之:HillTop算法 Hilltop算法是由Krishna Baharat 在2000年左右研究的,于2001年申请专利,但是有很多人以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师,然后授... 04月26日 623 发表评论 阅读全文
SEO好文章搜索引擎原理:搜索引擎相关资源 1. 开源项目 1.Lucene全文检索系统 http://lucene.apache.org和 http://www.lucene.com.cn/ Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码... 04月26日 518 发表评论 阅读全文
SEO好文章搜索引擎原理:链接分析算法之:SALSA算法 SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景。由此可见,SALSA算法融合了PageRank... 04月26日 553 1 阅读全文
SEO好文章搜索引擎原理:链接分析算法之:HITS算法 HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研... 04月26日 549 发表评论 阅读全文
SEO好文章搜索引擎原理:链接分析算法之:主题敏感PageRank 前面的讨论提到。PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别。例如,当搜索“苹果”时,一个数码爱好者可能是想要看iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋... 04月26日 762 1 阅读全文
SEO好文章搜索引擎原理:PageRank算法 1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空... 04月26日 510 1 阅读全文
SEO好文章搜索引擎原理:搜索引起的链接分析-计算网页的重要性 1. 链接分析 搜索引擎在查找能够满足用户请求的网页时,主要考虑两方面的因素: 网页和查询的相关性:是用户发出的查询与网页内容的内容相似性得分。 网页的重要性:通过链接分析方法计算获得的得分。 搜索引擎融合两者,共同拟合出相似性评分函数,来... 04月26日 575 发表评论 阅读全文
SEO好文章搜索引擎原理:倒排索引-搜索引擎的基石 1.概述 在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引起,他它并不能满足其特殊要求: 1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量 ,面对如此海量数据 ... 04月26日 623 1 阅读全文
SEO好文章搜索引擎原理:处理查询 我们从用户的角度来看,用户不关心什么索引结构是倒排还是签名文件,也不需要知道相关排序算法。用户提交了查询,就需要获取满意的搜索结果。这个搜索结果就是搜索引擎是否提供有效的服务。 1.查询流程 查询流程图: 1)用户提交查询 2)分析查询 查... 04月21日 530 2 阅读全文