【Python】提取网页正文内容的相关模块与技术

  • A+
所属分类:python笔记
本文信息本文由方法SEO顾问发表于2016-05-2018:48:21,共 4780 字,转载请注明:【Python】提取网页正文内容的相关模块与技术_【方法SEO顾问】

1、正文抽取地址

https://github.com/buriy/python-readability

【安装】

pip install readability-lxml

【测试】

python -m readability.readability -u

http://www.douban.com/note/320982627/

【PATH依赖】

export PYTHONPATH=/usr/local/lib/python2.7/site-packages

必须是2.7的PYTHON,所以必须这么搞,还得看看怎么让PYTHON2.7和PYTHON3.3共存

=============================================================================

2、官方例子

from readability.readability import Document
import urllib
html = urllib.urlopen(url).read()
readable_article = Document(html).summary()
readable_title = Document(html).short_title()

==============================================================================

3、清理HTML

项目地址

https://github.com/aaronsw/html2text

【安装】

pip install html2text

【代码】

# -*- coding: utf-8 -*-
import html2text
print html2text.html2text(u'<html><body><div><div class="note" id="link-report"><p>(1)网页去噪</p><p>网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。</p><p>因为项目的需要,也需要对网页进行去噪,留下有用的内容。所以在网上找了相关的网页去噪的开源项目。</p><p>(2)参考链接</p><p>主要参考的链接是这篇“网页正文抽取工具”, 应该是抓取的新浪weibo上的相关的微博内容。里面介绍了给出了项目的地址,有Java、C++、C#、Perl、Python的。</p><p>因为项目是Python写的,所以初步选定使用 Decruft , Python readability , Python boilerpipe ,Pyhon Goose这几种。</p><p>(3)实践操作</p><p>Python readability的使用:</p><p>from readability.readability import Document</p><p>import urllib</p><p>html = urllib.urlopen(url).read()</p><p>readable_article = Document(html).summary()</p><p>readable_title = Document(html).short_title()</p><p>最后抽取出来的readable_article是带HTML标签的文本。还需要进行clean html操作。如果需要得到纯文本内容,还需要做其他工作</p><p>“decruft is a fork of python-readability to make it faster. It also has some logic corrections and improvements along the way.” (引自:</p><a rel="nofollow" href="http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/" target="_blank">http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/</a><p>)</p><p>decruft是Python readability的fork版本,其主要提高了readability的速度。decruft的源码是放在Goolge上的,发现他只有0.1版本,而且是10年9月的,但是Python-readability一直在更新的,其核心的readability.py是7个月前更新的,所以不能保证decruft的性能要比现在的readability好,我没有下载decruft进行试验,有兴趣可以自己试验一下。</p><p>Python-boilerpipe:是Boilerpipe的Python版本的Warpper,在使用的时候需要依赖jpype, chardet. 在构造Extractor的时候可以定制自己需要的抽取器,具体有:</p><p>DefaultExtractor</p><p>ArticleExtractor</p><p>ArticleSentencesExtractor</p><p>KeepEverythingExtractor</p><p>KeepEverythingWithMinKWordsExtractor</p><p>LargestContentExtractor</p><p>NumWordsRulesExtractor</p><p>CanolaExtractor</p><p>这个项目可以自己选择抽取出的正文内容格式:可以是纯文本的,也可以是携带HTML的。</p><p>Python-Goose:</p><p>经过试验,决定使用Goose,可以在这个网址上测试 </p><a rel="nofollow" href="http://jimplush.com/blog/goose" target="_blank">
http://jimplush.com/blog/goose</a><p> Goose的抽取效果。Goose还能够获得Meta description。</p><p>Goose最后可以获得抽取后的纯文本。</p></div></div></body></html>')

==============================================================================

4、优化抓取

http://www.python-requests.org/en/latest/

【安装】

pip install requests

【使用】

import requests

r = requests.get('

https://github.com/timeline.json')

还可以发起其它几种的req

>>> r = requests.put("

http://httpbin.org/put")

>>> r = requests.delete("

http://httpbin.org/delete")

>>> r = requests.head("

http://httpbin.org/get")

>>> r = requests.options("

http://httpbin.org/get")

r.text

u'[{"repository":{"open_issues":0,"url":"

https://github.com/...

【POST请求】

>>> payload = {'key1': 'value1', 'key2': 'value2'}

>>> r = requests.post("

http://httpbin.org/post", data=payload)

>>> print r.text

{

...

"form": {

"key2": "value2",

"key1": "value1"

},

...

}

==============================================================================

5、PYTHON3.3和PYTHON2.7的共存?

export PYTHONPATH=/usr/local/lib/python3.3/site-packages

==============================================================================

6、关键词提取

【项目地址】

https://github.com/isnowfy/snownlp

【安装】

pip install snownlp

【使用】

from snownlp import SnowNLP

text = u'''

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。

它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法

自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,

所以它与语言学的研究有着密切的联系,但又有重要的区别。

自然语言处理并不是一般地研究自然语言,

而在于研制能有效地实现自然语言通信的计算机系统,

特别是其中的软件系统。因而它是计算机科学的一部分。

'''

s = SnowNLP(text)

s.keywords(3) # [u'语言', u'自然', u'计算机']

==============================================================================

7、包装成HTTP服务

2、代码

# -*- coding: utf-8 -*-

import tornado.ioloop

import tornado.web

import json

import html2text

import requests

from readability.readability import Document

from snownlp import SnowNLP

class MainHandler(tornado.web.RequestHandler):

def get(self):

url = self.get_argument('url')

html = requests.get(url).content

summary = Document(html).summary()

text = html2text.html2text(summary);

s = SnowNLP(text)

keywords = s.keywords(3)

self.write(json.dumps(keywords,ensure_ascii=False))

application = tornado.web.Application([

(r"/", MainHandler),

])

if __name__ == "__main__":

application.listen(8888)

tornado.ioloop.IOLoop.instance().start()

==================================

3、客户端测试用代码:

代开console

var xhr = new XMLHttpRequest();

var fd = new FormData();

fd.append('text', "我们都在不断赶路");

xhr.open('POST', '

http://localhost:8888', true);

xhr.send(fd);

原文地址:https://www.douban.com/note/320990848/

  • 版权声明:除非注明,本博客均为北京SEO方法的原创文章,转载或引用请以超链接形式标明本文地址,否则会在SEO圈内公开此种不尊重版权的行为,谢谢合作!本文地址:https://seofangfa.com/python-note/content-keywords.html
  • 转载请注明:【Python】提取网页正文内容的相关模块与技术_ 【方法SEO顾问】

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: