python爬取所有类型新闻包newspaper提取正文和标题

之前在爬取百度新闻的时候遇到了一个问题,就是百度新闻的种类太多了,没有办法统一的提取,而且每个网站的请求方式都不太一样,一个一个的写有太麻烦,所有就就找了下有没有通用的包,结果还真的有,而且十份强大。使用后发现,整正确提取出绝大部分新闻的正文,有需要的可以尝试下。

Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。

作者从requests库的简洁与强大得到灵感,使用python开发的可用于提取文章内容的程序。

支持10多种语言并且所有的都是unicode编码。

>>> import newspaper
>>> newspaper.languages()
 
Your available langauges are:
input code      full name
 
  ar              Arabic
  ru              Russian
  nl              Dutch
  de              German
  en              English
  es              Spanish
  fr              French
  it              Italian
  ko              Korean
  no              Norwegian
  pt              Portuguese
  sv              Swedish
  hu              Hungarian
  fi              Finnish
  da              Danish
  zh              Chinese
以下是简单的使用示例:
>>> import newspaper
 
>>> cnn_paper = newspaper.build('http://cnn.com')
 
>>> for article in cnn_paper.articles:
>>>     print article.url
u'http://www.cnn.com/2013/11/27/justice/tucson-arizona-captive-girls/'
u'http://www.cnn.com/2013/12/11/us/texas-teen-dwi-wreck/index.html'
...
 
>>> for category in cnn_paper.category_urls():
>>>     print category
 
u'http://lifestyle.cnn.com'
u'http://cnn.com/world'
u'http://tech.cnn.com'
...  
 
>>> article = cnn_paper.articles[0]
>>> article.download()
 
>>> article.html
u'

你可能感兴趣的:(python爬取所有类型新闻包newspaper提取正文和标题)