python笔记【Python工具】ASO100导出竞争对手的所有关键词数据 ASO100非VIP账户的话,每天只有5次导出竞争对手的所有关键词数据的机会。于是自己写了个Python脚本来实现了批量导出功能,突破限制。共享出来,或者能帮助到一些做ASO的朋友。 效果 效果如下图,关键词、排名、指数、结果数 源代码 源... 10月13日 893 发表评论 阅读全文
python笔记【亲测好用!】python实现批量百度云批量转存工具 【亲测好用!】python实现批量百度云批量转存工具 前面介绍了一款百度云批量转存工具(见《【亲测好用!】最新百度网盘批量转存助手,百度云批量转存工具》),因为涉及到软件获取cookies,而一旦cookies泄漏,将会造成个人隐私泄漏,于... 08月17日 2,855 发表评论 阅读全文
python笔记【Python笔记】Python网页正文抽取工具 PS:你知道weibo问答的力量有多么的强大了吧??? == @西瓜大丸子汤 总结我用过的网页正文抽取工具: decruft http://t.cn/S7bVEC python-readabilityhttp://t.cn/zYeoZ8b ... 05月20日 1,256 1 阅读全文
python笔记【Python】提取网页正文内容的相关模块与技术 1、正文抽取地址 https://github.com/buriy/python-readability 【安装】 pip install readability-lxml 【测试】 python -m readability.readab... 05月20日 2,457 发表评论 阅读全文
python笔记叶思明:【python】挖出同行的网站,跟踪同行网站 有时候我们在做站的时候希望能够找出同行的网站做为参考,或者找出同行做得好的网站,也就是竞争对手的网站。 如果只是简单的人工百度,也能够查找出来一些,但是我们又如何能够确定,哪个网站做得好,哪个网站做得差呢? 我是这样子操作的: 比如我想做一... 05月03日 1,052 发表评论 阅读全文
python笔记Python进行URL解码 Python进行URL解码 import urllib rawurl=xxx url=urllib.unquote(rawurl) 所用模块:urllib 所用函数:urllib.unquote() 案例 import urllib raw... 03月24日 995 1 阅读全文
python笔记sitemap生成器:python生成百万级URL的sitemap文件 手里有一批百万级别的URL没有收录,想做成sitemap提交一下,跟python大神@赵彦刚同学提了这个需求,在我的“变态”要求之下,这个程序近乎完美,无论你给定多少URL,程序会自动判断,按最多50000条URL成生多个sitemap.x... 03月21日 2,941 2 阅读全文
python笔记【已解决】error:command ‘gcc’ failed with exit status 1 1.error: command 'gcc' failed with exit status 1 的解决办法 yum install gcc python-devel 2.error: command 'gcc' failed with e... 03月16日 7,818 1 阅读全文
python笔记python调用Shell脚本:os.system(cmd)或os.popen(cmd) python调用Shell脚本,有两种方法:os.system(cmd)或os.popen(cmd),前者返回值是脚本的退出状态码,后者的返回值是脚本执行过程中的输出内容。实际使用时视需求情况而选择。 现假定有一个shell脚本test.s... 03月15日 2,335 发表评论 阅读全文
python笔记分享自用小工具:TF-IDF计算文档相似性的python实现 首先感谢方法共享平台,哈哈。 先来说说实现思路 1、我从我的数据库中获取了一些文章的title 2、将title用jieba分词进行分词 3、使用一些第三方库计算出词频向量(其中计算方法不明) 4、根据每两篇文档的词频向量计算其余弦相似性,... 03月11日 3,710 5 阅读全文