- A+
在6月15的《谷歌中文网站管理员博客》中,出现了一篇介绍“丰富网页摘要”的文章。
看到这篇博客,我就知道3年前对google的预测,现在终于变成现实了。不过没想到在众多网站还没普及这些新技术的情况下,google这么快就开始应用了。
关于“丰富网页摘要”的详细介绍,大家可以点上面的链接去了解。“丰富网页摘要”,用一句话说明一下就是:你给你的网站的某些内容,用特定的格式标注一下,就可以让你的网页在google的搜索结果中,显示更多的结构化的信息。比如那个博客上的截图:
丰富网页摘要
当用户搜索“drooling dog”,用户能在搜索结果页直接看到网页上的产品有多少人评论以及价格范围。
这些信息是在原网页中本来就有的:http://www.yelp.com/biz/drooling-dog-bar-b-q-colfax
如果你的网站也能这样呈现搜索结果给用户,有什么好处自然是不用说的。接下来要讲的是google为什么会采用“丰富网页摘要”。下面给大家呈现一下以前我的分析过程。这样你也能预测搜索引擎以后会做些什么了。
我们如果站在搜索引擎的角度去看,就发现作为一个通用搜索引擎,其实是非常不容易的。搜索引擎面对的是上百亿的网页,先不说分词、索引、以及抓取和排序等等的技术。先来看搜索引擎如何判断网页上有什么内容,就发现是件很复杂的事情。
互联网上可以说什么样的网站都有,体现在网页的代码里,什么样的HTML写法都有的。 在具体的网页设计上,有些网站用模版做网站,可能仅仅只有一个区域内的内容是有效的;而有些不用模版,网页上从头到尾都是有价值的内容;每个网站的代码都是如此不相同而且混乱,但是搜索引擎还要通过这些HTML代码来判断你的重点内容。搜素引擎要从这么多繁杂的网页里提炼有价值的内容给用户,那个过程非常的痛苦。
我曾经和前yahoo中国的工程师一起做过一些事情,发现这样的互联网现状太考验一个公司的技术水平了。到如今,像google这样的公司,在处理网页噪音的时候都还遇到很多困难的。 所以,如果有一种统一的格式和标准,让大家来遵守,大家把网站里的内容都用这个标准把信息结构化的话,那对搜索引擎来说是一件非常幸福的事情。
现在博客搜索里,google已经开始应用一些现成的标准了。如:
在google的博客搜索里搜索“SEM一家之言”,出现这样的搜索结果:
google博客搜索
大家看这个搜索结果,已经把博客发布的时间和作者给列出来了的。但是可以看到,这两个页面的排版和页面代码都是不一样的。那搜索引擎是怎么准确的知道这两个信息的呢? 特别是第二个结果,google列出的那个时间的格式和我博客上的格式是不一样的。
原因倒非常简单。因为这两个博客都提供了RSS供稿,在RSS文件里,都用一个标准的格式写明了时间和作者这些信息的。
RRS文件
google通过读取这个标准化的RSS文件准确的抓取到了这些信息。
除了应用RSS这个通用的标准,google还试图创立一个自己的标准来规范化很多信息。像google base就是其中的一个实验的项目。google base 这个项目以后会有专门的介绍。它试图把很多的信息都规范化,如你卖的东西的价格和产地,是否提供运输等等;你的房屋租售价格和位置;甚至一个学校的课程表,都可以用特定的格式标准化。
google base还在不断的发展和完善中,在目前的应用中,凡是google base 里的信息,都有可能在相关的搜索结果中排在靠前的位置。
比起自己去创立和推广一个标准来,应用现成的标准无疑是最省事的。“微格式”和 “RDFa”就是一个这样的现成的标准。具体的应用在《谷歌中文网站管理员博客》的那篇文章中已经说明了。
这些标准的应用起来效果是非常好的。
还是同一个词语“drooling dog”, 用美国IP,在英文版的google上搜索,在第2个搜索结果中,还是出现那那家“Bar B Q”,而且有个地图标明了地址,地图旁边还有地址和电话。
单独的地图和地址电话信息
这个搜索结果不是那个“本地商家”的搜索结果。因为这个结果只显示这一家店的地址,而且特别标注了这家店的地址和电话。
这幅地图和地址信息在那个网页上本来就有的,只是这个网站把它们用特定的标准标注了才有了这种效果。
我的这个分析方式,就是站在搜索引擎的角度,来考虑如何提供更好的搜索结果给用户。这是一种很好的SEO方法。以后大家也可以从这个角度来考虑SEO。
顺便说一下的是,上面那个博客搜索里的时间都比RSS文件里的时间慢一天的,这是因为google服务器所在的时区比中国时间慢的缘故。当然谷歌是不会处理这些小细节的,包括最近谷歌的首页上找不到登陆的地方也是。