- A+
刚才@行书QQ上问我有没有可以批量提取百度前76页搜索结果URL的shell或者python,刚好之前有写过这样一个shell小脚本,现分享出来。
看完下面的代码,你可能会说,这不是跟刚才那篇《网站竞争对手分析教程(1):用shell快速挖掘同行网站》代码一样吗?哈哈,的确差不多,只不过刚才那篇教程里只获取百度前5页搜索结果,而这篇是获取百度76页结果的,用处还是不一样的!
用法
1、切换工作路径,注意cd命令后面有空格(所有的命令跟参数之前都有空格!)
cd /cygdrive/c/Users/fang/Desktop/新建文件夹
2、运行程序,加一个time命令查看最后完成任务用时多少。bash -x表示显示程序执行过程。
time bash -x baidu76.sh
baidu76.sh的源代码如下,大家可以直接粘贴到记事本里,把扩展名改为.sh就可以用了,当然,你要是懒得动手的话,文章底部可以下载原文件。
源代码
#!bin/bash #############本工具由【方法SEO博客http://seofangfa.com】提供,欢迎反馈问题~~~############# #############2015年8月14日############# #############作用################ #用shell批量提取76页百度搜索结果url #############用法################ #1、安装cygwin,【高清视频!】win7系统Cygwin安装教程及常用工具安装使用教程:http://seofangfa.com/shell/cygwin-setup.html #2、cd 命令切换到工作目录; #3、输入time bash -x baidu76.sh #4、等运行完毕,查看结果,结果存在ok.txt文件中。 #############注意事项############# #1、kws.txt:关键词列表,一行一个,UTF-8编码 #2、ok.txt:百度搜索结果76页的URL集合 #3、关键词越多,结果越准确,所以,第一步你得挖掘足够多、足够精准的行业关键词,教程看下面: ##1、【超级简单好用!】批量采集百度相关搜索关键词:http://seofangfa.com/seo-tool/baidu-related.html ##2、【亲测好用!】shell批量采集百度下拉框关键词:http://seofangfa.com/seo-tool/shell-baidu-xiala.html ##3、shell快速批量获取百度商情关键词【带指数】:http://seofangfa.com/shell/baidukeyword-shangqing.html #批量提取76页百度搜索结果url a=0 cat kws.txt|while read line;do let a+=1 echo $a echo $line for i in `seq 0 10 750`;do curl -s "http://www.baidu.com/s?wd=$line&pn=$i" | grep -o "http://www.baidu.com/link\?[^\"|\']*"|xargs curl -s -i|grep "Location"|sed 's/Location://g'; done >>ok.txt done
效果见下图:
由于shell是单线程工作,效率相对比较低,基本上获取一个词的百度76页结果需要1分钟左右,不过相对于我们手动来查找的,效率还是非常可以的,毕竟可以挂服务器上让它自动去工作~~
shell批量提取76页百度搜索结果url程序下载
点击下载:shell批量提取76页百度搜索结果url程序下载
有问题在下面留言框给我反馈~~~
2015-09-22 下午5:51
这个是为啥啊
2015-09-22 下午5:24
$ time bash -x baidu76.sh
+ a=0
+ cat k***s.txt
+ read line
real 0m0.073s
user 0m0.015s
sys 0m0.045s
ok.txt 没有数据