新闻网站正文抽取库:GeneralNewsExtractor

GeneralNewsExtractor(GNE)是一个通用新闻网站正文抽取模块,会输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、新浪,腾讯新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。

安装

pip install --upgrade gne

使用

import requests
from gne import GeneralNewsExtractor

url = "新闻链接"

payload={}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
}

response = requests.request("GET", url, headers=headers, data=payload)

# print(response.text)
extractor = GeneralNewsExtractor()
article_content = extractor.extract(response.text)
print(article_content)

结果

{'title': '天星数科亮相服贸会 携手北京文投服务产业实体', 'author': '', 'publish_time': '2021.9.10', 'content': '在刚刚落幕的2021年中国国际服务贸易交易会(简称服贸会)上,天星数科与北京文投集团北京北文资产管理有限公司正式达成了战略合作。根据协议,双方将通过资源共享、优势互补、模式创新等形式,共同推进供应链金融合作,服务产业实体。\n在文化供应链金融、文化贸易、文化项目投融资及孵化等领域,天星数科将以SaaS保理云平台等为基础,助力北京北文资产管理有限公司,帮其供应链上下游客户实现在线融资、降低融资成本、提高融资效率、加速资金周转,构建良好的供应链生态圈。据了解,双方合作搭建的文化产业供应链综合服务平台已上线运行,该平台已在一些细分领域展开业务合作。\n北京北文资产管理有限公司旨在打造“北京文化产业供应链综合服务平台”,实现文化产业信息流、资金流高效运作,为文创企业提供全方位文化产业供应链平台服务,促进首都地区文化产业与文化企业持续健康发展。\n而扎根于产业的天星数科,运用数字科技帮助产业中的实体实现数字化升级,致力于深耕实体企业的金融需求。通过持续探索科技创新服务实体经济,天星数科一方面帮助实体企业降本增效,另一方面帮银行等金融机构更全面地识读产业和企业、更准确地评估风险,从而让银行等金融机构更好地为产业链、供应链中的实体企业提供信贷支持和金融服务。\n截至目前,天星数科已经帮助超过5000家实体企业获得了累计超过1000亿元的信贷资金,为这些实体企业平均降低了2个点左右的融资成本。其中,有150多家企业是通过天星数科的产业数字化和供应链金融服务,拿到了历史上首笔生产经营性贷款,天星数科真正引入金融活水,对产业中的实体企业进行精准滴灌。', 'images': ['//i1.go2yd.com/image.php?url=0XMfhDXAdt']}

你可能感兴趣的:(新闻网站正文抽取库:GeneralNewsExtractor)