【Python笔记】Python网页正文抽取工具

PS:你知道weibo问答的力量有多么的强大了吧???

==

@西瓜大丸子汤

总结我用过的网页正文抽取工具: decruft http://t.cn/S7bVEC python-readabilityhttp://t.cn/zYeoZ8b boilerpipe http://t.cn/h41EEs python-boilerpipehttp://t.cn/zYeoyPw pismo http://t.cn/zYeoyP2 Goose http://t.cn/zYeoZ8G Python Goose http://t.cn/zYeoZ8q

@丕子:有个测试链接:http://jimplush.com/blog/goose 测试了个链接,goose没提出来,cx-ectractor提出来了;不过goose的metadata以及image等不错;谁有空写个吧,两者优点结合一下。

@52nlp: 转cx-ectractor(http://t.cn/hDO2xf )的维护者 @陈鑫Shin @王利锋Fandy //@陈阿荣: cx-extractor //@马少平THU: 这个确实有难度,我们也没有什么好方法@王利锋Fandy: 在我的硕士论文中给出了形式化数学表示,详细请见:http://t.cn/zYeAJSc,希望对大家有帮助

木子海波:自吹自擂一下。http://blog.csdn.net/marising/article/details/6101101

开源中国:可看看这个开源项目 http://t.cn/zYeL9Jn

数据挖掘研究院:h2w.iask.cn

licstar:NReadability http://t.cn/zYewPMn

我不是勒瑟:搜一下这篇论文:DOM Based Content Extraction via Text Density

@梁斌 推一下,各大公司都有做这个的,搜狗这个叫PA,page analysis,我也短期维护过,目前是某哥们再搞

最后:http://tomazkovacic.com/blog/56/list-of-resources-article-text-extraction-from-html-documents/

@KissDev

正文抽取的开源代码,基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet: http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper:http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法


原文地址:http://www.zhizhihu.com/html/y2013/4202.html

  • 版权声明:除非注明,本博客均为北京SEO方法的原创文章,转载或引用请以超链接形式标明本文地址,否则会在SEO圈内公开此种不尊重版权的行为,谢谢合作!本文地址:https://seofangfa.com/python-note/contentextractor.html
    本文信息:于1年前,由方法SEO发表,共 1153字。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:1   其中:访客  1   博主  0

  1. avatar 软膜天花

    夏天的风