- A+
所属分类:【百度站长平台】
BaiduSpider3.0 升级介绍
百度Spider高级工程师 吕明
背景
上一次spider2.0重构的历史
- 2010年之后,中国互联网资源量迅速扩张
- spider系统重构,从单机互联,转变为分布式计算系统
- 对全量规模的资源,进行链接的质量筛选,延时为10天左右。离线挖掘调度的系统,除了时效性通道外,链接发现,抓取调度,页面更新的延时比较严重。
BaiduSpider3.0
重构
- BaiduSpider3.0是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统
- 万亿规模的数据,进行实时读写
- 90%的网页收录,速度提升80%
链接发现
技术线条
- 加快索引页调度,快速发现新链接
- 站长平台提交,高效贡献链接
效果
- 90%的新链接,能在一天内被发现
- 主动提交链接,良好的索引页布局及新链接更新,以达到更好更及时的收录效果
链接抓取
策略提升
- 开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序
- 对有价值链接的召回率提高95%
架构提升
- 计算性能的强劲提升,对每天新增的海量规模的链接,完成实时计算,延时不到1秒
- 开发了更强大的存储系统,面对万亿规模的数据做到实时读写
抓取模型的侧重点
- 网站更新频率:经常定时更新高价值的站点,优先抓
- 受欢迎程度:用户体验好的站点,越优先抓
- 优质入口:优质站点follow出的链接,优先抓取
- 历史的抓取效果越好,越优先处理
- 服务器稳定,优先抓取
- 安全记录优异站点,优先抓取
打压的类型
- 恶意站群、恶劣泛域
- 售卖的医疗目录,站点受连带责任
- 无法打开、打开速度缓慢等不稳定站点,控制展现
- 采集站重复站等,下调评价(站点评价外界不可查)
效果
- 90%的新发布有价值资源,能实时地进行质量预测,一天完成抓取。
内容上带有时效性的页面
技术线条
- 时效性资源,从原来的优先对新浪、网易等大新闻站为主进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能及时收录
- 打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取
效果
- 每天收录的时效性资源规模,扩大到原来的3倍
死链加速
技术线条
- 全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页
- 实时死链系统,加快死链从发现,到生效到百度检索结果的过程
- 死链提交:无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程
效果
- 百度检索结果中死链点击率,下降90%
进入索引库(建库)
技术线条
- 基于网页库,增量计算,得到局部最优索引。
- 滚动建库,每次建全量索引库的1/N
- 建库周期更灵活,更迅速,大家看到的收录内容每天都不一样。
效果
- 索引展现时效性提升,提升40%~80%不等
下面是一些PPT截图
需要完整版【2016.6.16百度站长平台深圳沙龙PPT】的朋友,请点击链接加群【北京SEO俱乐部】,在群共享。群号:211438410
需要完整版【2016.6.16百度站长平台深圳沙龙PPT】的朋友,请点击链接加群【北京SEO俱乐部】,在群共享。群号:211438410
文章来源:2016.6.16百度站长平台深圳沙龙PPT节选