其他杂项centos7无GUI情况安装Xvfb、selenium、chrome 最近需要用到selenium浏览器抓取,在windows下对照chrome浏览器开发的代码,在linux服务器上换成phantomjs驱动后,却不能运行了,通过截图发现phantomjs渲染效果和ch... 04月11日 425 发表评论 阅读全文
其他杂项selenium+python配置chrome浏览器的选项_Python_Kosmoo的博客-CSDN博客 1. 背景 在使用selenium浏览器渲染技术,爬取网站信息时,默认情况下就是一个普通的纯净的chrome浏览器,而我们平时在使用浏览器时,经常就添加一些插件,扩展,代理之类的应用。相对应的,当我们... 03月20日 452 发表评论 阅读全文
其他杂项Python3+Selenium 配置Chrome选项_Python_花小田的魔法屋-CSDN博客 一、chromeOptions相关配置 chromeOptions 是一个配置 chrome 启动是属性的类。通过这个类,我们可以为chrome配置如下参数(这个部分可以通过selenium源... 03月20日 326 发表评论 阅读全文
其他杂项【已解决】记录一次神奇的Proxifier引起的断网问题 症状:QQ能上,所有网页都打不开,谷歌浏览器提示DNS问题,PING百度都不通。 按以前的经验,确实是换个DNS就能解决,于是我依次换了114、阿里、360、百度、谷歌的公共DNS,均不能解决问题,用360的断网急救箱也不行: 所有能想到的... 02月25日 1,964 发表评论 阅读全文
其他杂项【小技巧】如何在上万的文件中搜索特定的【文件内容】 Windows自备一个Linux命令模拟器,如Cygin,git bash等,然后运行如下命令: grep -nr 'find something' * 01月09日 190 发表评论 阅读全文
其他杂项Tesseract-OCR-04-使用 jTessBoxEditor 提高文字识别准确率 – 肖朋伟 – CSDN博客 本篇是关于 jTessBoxEditor 进行训练,使 Tesseract-OCR 文字识别准确率得到极大的提高,本篇完善了很多细节,初学者也可以看懂,一起学习吧! 09月23日 717 发表评论 阅读全文
其他杂项图像文字识别(三):Tesseract4.0训练字库,提高正确识别率 – a745233700的博客 – CSDN博客 由于tesseract的中文语言包“chi_sim”对中文手写字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库。 09月23日 410 发表评论 阅读全文
其他杂项【转】小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome 各位小伙伴儿的采集日常是不是被JavaScript的各种点击事件折腾的欲仙欲死啊?好不容易找到个Selenium+Chrome可以解决问题! 09月07日 201 发表评论 阅读全文