python笔记python下载文件的几种常用方法 python中下载文件常用的几个模块有urllib,urllib2,requests,方法也很简单,代码如下: 10月18日 1,090 发表评论 阅读全文
python笔记【Python笔记】Python网页正文抽取工具 PS:你知道weibo问答的力量有多么的强大了吧??? == @西瓜大丸子汤 总结我用过的网页正文抽取工具: decruft http://t.cn/S7bVEC python-readabilityhttp://t.cn/zYeoZ8b ... 05月20日 1,258 1 阅读全文
python笔记【Python】提取网页正文内容的相关模块与技术 1、正文抽取地址 https://github.com/buriy/python-readability 【安装】 pip install readability-lxml 【测试】 python -m readability.readab... 05月20日 2,460 发表评论 阅读全文
python笔记叶思明:【python】挖出同行的网站,跟踪同行网站 有时候我们在做站的时候希望能够找出同行的网站做为参考,或者找出同行做得好的网站,也就是竞争对手的网站。 如果只是简单的人工百度,也能够查找出来一些,但是我们又如何能够确定,哪个网站做得好,哪个网站做得差呢? 我是这样子操作的: 比如我想做一... 05月03日 1,053 发表评论 阅读全文
python笔记Python进行URL解码 Python进行URL解码 import urllib rawurl=xxx url=urllib.unquote(rawurl) 所用模块:urllib 所用函数:urllib.unquote() 案例 import urllib raw... 03月24日 998 1 阅读全文
python笔记sitemap生成器:python生成百万级URL的sitemap文件 手里有一批百万级别的URL没有收录,想做成sitemap提交一下,跟python大神@赵彦刚同学提了这个需求,在我的“变态”要求之下,这个程序近乎完美,无论你给定多少URL,程序会自动判断,按最多50000条URL成生多个sitemap.x... 03月21日 2,945 2 阅读全文
python笔记python调用Shell脚本:os.system(cmd)或os.popen(cmd) python调用Shell脚本,有两种方法:os.system(cmd)或os.popen(cmd),前者返回值是脚本的退出状态码,后者的返回值是脚本执行过程中的输出内容。实际使用时视需求情况而选择。 现假定有一个shell脚本test.s... 03月15日 2,336 发表评论 阅读全文
SEO好文章【张亚楠】Python你必须知道的十个库【翻】 整理我用过的最好的十个库 Python是优雅的,使用这些库可以使你的代码更简洁,并保持持久性。欢迎各位补充,并提出意见! Docopt。抛弃optparse和argparse吧,使用docstrings来构建优雅的,可读性强的,并且复杂(如... 11月18日 1,109 发表评论 阅读全文
SEO好文章【张亚楠】Python在我SEO工作中的应用(1) 1. 本系列前言 一直想写Python与SEO的系列文章,因为随着SEO工作的开展,以及自身Python水平的提高,Python在SEO中的应用越来越多,使用的范畴也越来越广。 本系列暂时计划分为几个主题,将在近几周完成: 数据采集 关键词... 11月18日 1,413 发表评论 阅读全文
SEO好文章【张亚楠】Python读取大文件 1. 前言 前几天在做日志分析系统,需要处理几十G的文件,我尝试用原来的for line in open(filepath).readlines()处理,但停顿好久也没变化,可见占用不小的内存。在网上搜索了下,找到了两种方法来读取大文件。 ... 11月18日 942 1 阅读全文