newspaper3k
库 使用以下命令在命令行中安装 newspaper3k
库:
plaintextCopy code
pip install newspaper3k
使用 newspaper
模块爬取新闻
from newspaper import Article
url = 'http://www.asies.org.gt/el-indicador-de-deuda-publica-de-guatemala-llega-casi-al-25-por-ciento-del-pib/'
article = Article(url, language='es') # 创建 Article 对象,指定新闻网站语言为西班牙语
article.download() # 下载新闻网页
article.parse() # 解析新闻网页
print(article.title) # 输出新闻标题
print(article.authors) # 输出新闻作者
print(article.publish_date) # 输出新闻发布时间
print(article.text) # 输出新闻正文
print(article.keywords) # 输出新闻关键词
在上述代码中,我们首先创建了一个 Article
对象,指定要爬取的新闻网址和语言。然后,我们使用 download()
方法下载新闻网页,并使用 parse()
方法解析网页内容。接着,我们可以通过 title
、authors
、publish_date
、text
和 keywords
等属性获取新闻的标题、作者、发布时间、正文和关键词等信息。 3. 使用 newspaper
模块爬取新闻列表 如果需要爬取某个新闻网站的新闻列表,可以使用 newspaper
模块的 build()
方法来创建一个 Source
对象,并使用 articles
属性获取新闻列表。以下是相应的代码示例:
from newspaper import build
url = 'http://www.asies.org.gt/'
source = build(url, language='es') # 创建 Source 对象,指定新闻网站语言为西班牙语
articles = source.articles # 获取新闻列表
for article in articles:
article.download() # 下载新闻网页
article.parse() # 解析新闻网页
print(article.title) # 输出新闻标题
print(article.authors) # 输出新闻作者
print(article.publish_date) # 输出新闻发布时间
print(article.text) # 输出新闻正文
print(article.keywords) # 输出新闻关键词
在上述代码中,我们首先使用 build()
方法创建了一个 Source
对象,指定要爬取的新闻网址和语言。然后,我们使用 articles
属性获取新闻列表,并遍历每个新闻。对于每个新闻,我们使用 download()
方法下载新闻网页,并使用 parse()
方法解析网页内容。接着,我们可以通过 title
、authors
、publish_date
、text
和 keywords
等属性获取新闻的标题、作者、发布时间、正文和关键词等信息。