python爬虫入门,获取全国气象站24小时整点气象数据(一)

python爬虫入门,获取全国气象站24小时整点气象数据(一)
python爬虫入门,获取全国气象站24小时整点气象数据(二)
中国天气网(http://www.weather.com.cn/)有全国各地气象站点的24小时整点数据。
天气网的页面,以武汉市为例:

python爬虫入门,获取全国气象站24小时整点气象数据(一)_第1张图片

需要记录的数据在这里,包括温度、降水量、相对湿度、风力风向。
python爬虫入门,获取全国气象站24小时整点气象数据(一)_第2张图片

但是网页上只会显示从当前时间开始前溯24小时的整点数据。那么,如果需要历史数据,则只有手动的每天记录,很麻烦,这次的目标是使用python写一个爬虫程序,实现自动化的数据记录。
注意,代码基于python3实现。

1.爬虫需要用到的库

使用python爬取网页数据,常用的库包括:
urllib:发送网络请求
BeautifulSoup:解析网页

2.发送请求与网页解析

以武汉市为例,在中国天气网中搜索武汉,发现浏览器的url是http://www.weather.com.cn/weather1d/101200101.shtml#input
经验证最后的#input是可选参数,可以去掉。所以我们请求http://www.weather.com.cn/weather1d/101200101.shtml就可以获取武汉的网页了。代码如下

url = 'http://www.weather.com.cn/weather1d/101200101.shtml'
html = urllib.request.urlopen(url).read()

接下来要解析网页,获取数据。我们发现中国天气网直接将24小时的天气数据以json格式写在网页中了,那解析就简单了,哈哈。
python爬虫入门,获取全国气象站24小时整点气象数据(一)_第3张图片

这个json在页面中第5个

你可能感兴趣的:(python爬虫入门,获取全国气象站24小时整点气象数据(一))