Python系列爬虫之Scrapy实战 | 中国地震台网爬虫

Python系列爬虫之Scrapy实战 | 中国地震台网爬虫_第1张图片

前言

总感觉最近好多地震的新闻,就想着爬一波地震相关的数据来看看。

开发工具

Python 版本:3.6.4
相关模块:

scrapy模块;

jieba模块;

pyecharts模块;

folium模块;

wordcloud模块;

fake_useragent模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

数据爬取

首先新建一个project:

然后打开中国地震台网:

http://news.ceic.ac.cn/index.html

发现使用网站自带的查询功能就可以查询到指定时间和经纬度范围的地震数据:

Python系列爬虫之Scrapy实战 | 中国地震台网爬虫_第2张图片

OK,那就开始写代码吧~

先在items.py文件内定义我们要爬取的数据:

class EarthquakeItem(scrapy.Item):

在spiders文件夹下新建main.py函数写我们爬虫主程序,这里我们爬取的是从2000年1月1日开始至今网站上所有有记录的地震数据(事实上,跑完代码发现网站里只有从2012年开始的地震数据T_T):

'''main'''

OK,大功告成了,在第一个earthquake文件夹下运行如下命令就行了:

scrapy crawl earthquake -o eqdata.json -t json

爬取的数据将保存在eqdata.json文件内。

看完篇文章喜欢的朋友点个爱心支持一下,关注我每天分享Python数据爬虫案例,下个视频分享Python抓取并分析天气数据及中国地震网数据可视化

All done,,完整源代码详见个人简介或者私信获取相关文件。

你可能感兴趣的:(Python系列爬虫之Scrapy实战 | 中国地震台网爬虫)