python笔记【亲测好用!】python实现批量百度云批量转存工具 【亲测好用!】python实现批量百度云批量转存工具 前面介绍了一款百度云批量转存工具(见《【亲测好用!】最新百度网盘批量转存助手,百度云批量转存工具》),因为涉及到软件获取cookies,而一旦cookies泄漏,将会造成个人隐私泄漏,于... 08月17日 2,832 发表评论 阅读全文
python笔记【Python笔记】Python网页正文抽取工具 PS:你知道weibo问答的力量有多么的强大了吧??? == @西瓜大丸子汤 总结我用过的网页正文抽取工具: decruft http://t.cn/S7bVEC python-readabilityhttp://t.cn/zYeoZ8b ... 05月20日 1,244 1 阅读全文
python笔记【Python】提取网页正文内容的相关模块与技术 1、正文抽取地址 https://github.com/buriy/python-readability 【安装】 pip install readability-lxml 【测试】 python -m readability.readab... 05月20日 2,453 发表评论 阅读全文
python笔记叶思明:【python】挖出同行的网站,跟踪同行网站 有时候我们在做站的时候希望能够找出同行的网站做为参考,或者找出同行做得好的网站,也就是竞争对手的网站。 如果只是简单的人工百度,也能够查找出来一些,但是我们又如何能够确定,哪个网站做得好,哪个网站做得差呢? 我是这样子操作的: 比如我想做一... 05月03日 1,046 发表评论 阅读全文
python笔记Python进行URL解码 Python进行URL解码 import urllib rawurl=xxx url=urllib.unquote(rawurl) 所用模块:urllib 所用函数:urllib.unquote() 案例 import urllib raw... 03月24日 987 1 阅读全文
python笔记sitemap生成器:python生成百万级URL的sitemap文件 手里有一批百万级别的URL没有收录,想做成sitemap提交一下,跟python大神@赵彦刚同学提了这个需求,在我的“变态”要求之下,这个程序近乎完美,无论你给定多少URL,程序会自动判断,按最多50000条URL成生多个sitemap.x... 03月21日 2,923 2 阅读全文
python笔记【已解决】error:command ‘gcc’ failed with exit status 1 1.error: command 'gcc' failed with exit status 1 的解决办法 yum install gcc python-devel 2.error: command 'gcc' failed with e... 03月16日 7,806 1 阅读全文
python笔记python调用Shell脚本:os.system(cmd)或os.popen(cmd) python调用Shell脚本,有两种方法:os.system(cmd)或os.popen(cmd),前者返回值是脚本的退出状态码,后者的返回值是脚本执行过程中的输出内容。实际使用时视需求情况而选择。 现假定有一个shell脚本test.s... 03月15日 2,333 发表评论 阅读全文
python笔记分享自用小工具:TF-IDF计算文档相似性的python实现 首先感谢方法共享平台,哈哈。 先来说说实现思路 1、我从我的数据库中获取了一些文章的title 2、将title用jieba分词进行分词 3、使用一些第三方库计算出词频向量(其中计算方法不明) 4、根据每两篇文档的词频向量计算其余弦相似性,... 03月11日 3,698 5 阅读全文
python笔记搭建或者升级Python环境笔记,吐血记录! 搭建或者升级Python环境笔记,吐血记录! 每次在新的Centos上折腾Python时,在参考之前的两篇文章(见本文结尾文章推荐)之后,总是会遇到这样那样的问题,原来是一些Python所依赖的包没有安装好,导致又得重新make&m... 10月03日 1,188 2 阅读全文