【BaiduSpider3.0升级介绍】2016.6.16百度站长平台深圳沙龙PPT节选

BaiduSpider3.0 升级介绍 

百度Spider高级工程师 吕明

背景

上一次spider2.0重构的历史

  • 2010年之后,中国互联网资源量迅速扩张
  • spider系统重构,从单机互联,转变为分布式计算系统
  • 对全量规模的资源,进行链接的质量筛选,延时为10天左右。离线挖掘调度的系统,除了时效性通道外,链接发现,抓取调度,页面更新的延时比较严重。

BaiduSpider3.0

重构

  • BaiduSpider3.0是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统
  • 万亿规模的数据,进行实时读写
  • 90%的网页收录,速度提升80%

链接发现

技术线条

  • 加快索引页调度,快速发现新链接
  • 站长平台提交,高效贡献链接

效果

  • 90%的新链接,能在一天内被发现
  • 主动提交链接,良好的索引页布局及新链接更新,以达到更好更及时的收录效果

链接抓取

策略提升

  • 开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序
  • 对有价值链接的召回率提高95%

架构提升

  • 计算性能的强劲提升,对每天新增的海量规模的链接,完成实时计算,延时不到1秒
  • 开发了更强大的存储系统,面对万亿规模的数据做到实时读写

抓取模型的侧重点

  • 网站更新频率:经常定时更新高价值的站点,优先抓
  • 受欢迎程度:用户体验好的站点,越优先抓
  • 优质入口:优质站点follow出的链接,优先抓取
  • 历史的抓取效果越好,越优先处理
  • 服务器稳定,优先抓取
  • 安全记录优异站点,优先抓取

打压的类型

  • 恶意站群、恶劣泛域
  • 售卖的医疗目录,站点受连带责任
  • 无法打开、打开速度缓慢等不稳定站点,控制展现
  • 采集站重复站等,下调评价(站点评价外界不可查)

效果

  • 90%的新发布有价值资源,能实时地进行质量预测,一天完成抓取。

内容上带有时效性的页面

技术线条

  • 时效性资源,从原来的优先对新浪、网易等大新闻站为主进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能及时收录
  • 打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取

效果

  • 每天收录的时效性资源规模,扩大到原来的3倍

死链加速

技术线条

  • 全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页
  • 实时死链系统,加快死链从发现,到生效到百度检索结果的过程
  • 死链提交:无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程

效果

  • 百度检索结果中死链点击率,下降90%

进入索引库(建库)

技术线条

  • 基于网页库,增量计算,得到局部最优索引。
  • 滚动建库,每次建全量索引库的1/N
  • 建库周期更灵活,更迅速,大家看到的收录内容每天都不一样。

效果

  • 索引展现时效性提升,提升40%~80%不等

下面是一些PPT截图

需要完整版【2016.6.16百度站长平台深圳沙龙PPT】的朋友,请点击链接加群【北京SEO俱乐部】,在群共享。群号:211438410

需要完整版【2016.6.16百度站长平台深圳沙龙PPT】的朋友,请点击链接加群【北京SEO俱乐部】,在群共享。群号:211438410

文章来源:2016.6.16百度站长平台深圳沙龙PPT节选

旧文推荐:【百度站长平台】百度搜索Spider3.0升级对站点有什么好处?

  • 版权声明:除非注明,本博客均为北京SEO方法的原创文章,转载或引用请以超链接形式标明本文地址,否则会在SEO圈内公开此种不尊重版权的行为,谢谢合作!本文地址:https://seofangfa.com/baidu-webmastertools/baiduspider3-0.html
    本文信息:于11个月前,由方法SEO发表,共 1281字。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: