- A+
所属分类:SEO好文章
用了几天时间重做了数据监控系统的核心部分。
https://github.com/a631381602/ceshi
https://github.com/a631381602/ceshi_include
更改点:
1、全部采用Scrapy作为数据抓取工具,原来是pycurl + beautifulsoup。
2、代理来源为scrapinghub + 自建http代理服务器,一块使用
3、一台阿里云服务器做数据抓取,另配置一台阿里云RDS做数据存储,存放抓取结果、JS报表数据、url和关键词
4、djanjo做前端页面,展示目前监控的进度
监控周期由原先的5~7天缩减到1天,目前每天全站,排名抽查关键词样本量24万,收录抽查样本量20万。
后续有时间搞下集群,可能的话争取搞个查询速度不逊于奏鸣的系统~前提是公司给我报销的情况下~~
截图
抓取数据:
分析数据:
图表: