python爬虫的newspaper3k库用法

  1. 安装 newspaper3k 库 使用以下命令在命令行中安装 newspaper3k 库:

plaintextCopy code

pip install newspaper3k

第一种用法:

使用 newspaper 模块爬取新闻

from newspaper import Article
url = 'http://www.asies.org.gt/el-indicador-de-deuda-publica-de-guatemala-llega-casi-al-25-por-ciento-del-pib/'
article = Article(url, language='es')  # 创建 Article 对象,指定新闻网站语言为西班牙语
article.download()  # 下载新闻网页
article.parse()  # 解析新闻网页
print(article.title)  # 输出新闻标题
print(article.authors)  # 输出新闻作者
print(article.publish_date)  # 输出新闻发布时间
print(article.text)  # 输出新闻正文
print(article.keywords)  # 输出新闻关键词

在上述代码中,我们首先创建了一个 Article 对象,指定要爬取的新闻网址和语言。然后,我们使用 download() 方法下载新闻网页,并使用 parse() 方法解析网页内容。接着,我们可以通过 titleauthorspublish_datetextkeywords 等属性获取新闻的标题、作者、发布时间、正文和关键词等信息。 3. 使用 newspaper 模块爬取新闻列表 如果需要爬取某个新闻网站的新闻列表,可以使用 newspaper 模块的 build() 方法来创建一个 Source 对象,并使用 articles 属性获取新闻列表。以下是相应的代码示例:

第二种用法:

from newspaper import build
url = 'http://www.asies.org.gt/'
source = build(url, language='es')  # 创建 Source 对象,指定新闻网站语言为西班牙语
articles = source.articles  # 获取新闻列表
for article in articles:
    article.download()  # 下载新闻网页
    article.parse()  # 解析新闻网页
    print(article.title)  # 输出新闻标题
    print(article.authors)  # 输出新闻作者
    print(article.publish_date)  # 输出新闻发布时间
    print(article.text)  # 输出新闻正文
    print(article.keywords)  # 输出新闻关键词

在上述代码中,我们首先使用 build() 方法创建了一个 Source 对象,指定要爬取的新闻网址和语言。然后,我们使用 articles 属性获取新闻列表,并遍历每个新闻。对于每个新闻,我们使用 download() 方法下载新闻网页,并使用 parse() 方法解析网页内容。接着,我们可以通过 titleauthorspublish_datetextkeywords 等属性获取新闻的标题、作者、发布时间、正文和关键词等信息。

你可能感兴趣的:(python,爬虫,scrapy)