Python爬虫 抓取“中国银行监督委员会”统计信息报告

本文仅用于学习参考:

项目下载链接:

  • 下载方式一:腾讯微云【密码:54250p】
  • 下载方式二:github

初始url,即如下所示页面Python爬虫 抓取“中国银行监督委员会”统计信息报告_第1张图片
目的:抓取网页中所有的文档标题以及doc,pdf下载链接,以及发布时间,发布日期等信息。

分析流程:
【1】初始页面抓包得返回信息得json请求地址
【2】对数据进行提取过滤
【3】信息整合,构造下一页url,继续重复前三个步骤

本项目简单实现,就不多说了,可以拿去练手。

主要逻辑代码如下图所示:Python爬虫 抓取“中国银行监督委员会”统计信息报告_第2张图片
piplines:Python爬虫 抓取“中国银行监督委员会”统计信息报告_第3张图片
运行截图:Python爬虫 抓取“中国银行监督委员会”统计信息报告_第4张图片
可以看到,速度还是不错的,大约13秒,抓取了55页信息,总计976条数据,并且看到信息也听纯净的。
嗯。。。。。虽然今天过的不太快乐,在不知道导员身份的情况下骂了他的,故做了个简单的数据爬取平静一下心情

你可能感兴趣的:(Python爬虫)