可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?...

1.数据获取

请求网站链接

  • 首先查看中国天气网的网址:http://www.weather.com.cn/weather/101280701.shtml这里就访问本地的天气网址,如果想爬取不同的地区只需修改最后的101280701地区编号即可,前面的weather代表是7天的网页,weather1d代表当天,weather15d代表未来14天。这里就主要访问7天和14天的中国天气网。采用requests.get()方法,请求网页,如果成功访问,则得到的是网页的所有字符串文本。这就是请求过程。

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第1张图片

提取有用信息

  • 这里采用BeautifulSoup库对刚刚获取的字符串进行数据提取,首先对网页进行检查,找到需要获取数据的标签:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第2张图片

  • 可以发现7天的数据信息在div标签中并且id=“7d”,并且日期、天气、温度、风级等信息都在ul和li标签中,所以我们可以使用BeautifulSoup对获取的网页文本进行查找div标签id=“7d”,找出

    包含的所有的ul和li标签,之后提取标签中相应的数据值,保存到对应列表中。这里要注意一个细节就是有时日期没有最高气温,对于没有数据的情况要进行判断和处理。另外对于一些数据保存的格式也要提前进行处理,比如温度后面的摄氏度符号,日期数字的提取,和

    风级

    文字的提取,这需要用到字符查找及字符串切片处理。

def get_content(html):

"""处理得到有用信息保存数据文件"""

final = []   # 初始化一个列表保存数据

bs = BeautifulSoup(html, "html.parser")  # 创建BeautifulSoup对象

body = bs.body

data = body.find('div', {'id': '7d'})    # 找到div标签且id = 7d

# 下面爬取当天的数据

data2 = body.find_all('div',{'class':'left-div'})

text = data2[2].find('script').string

text = text[text.index('=')+1 :-2] # 移除改var data=将其变为json数据

jd = json.loads(text)

dayone = jd['od']['od2'] # 找到当天的数据

final_day = []     # 存放当天的数据

count = 0

for i in dayone:

temp = []

if count <=23:

temp.append(i['od21']) # 添加时间

temp.append(i['od22']) # 添加当前时刻温度

temp.append(i['od24']) # 添加当前时刻风力方向

temp.append(i['od25']) # 添加当前时刻风级

temp.append(i['od26']) # 添加当前时刻降水量

temp.append(i['od27']) # 添加当前时刻相对湿度

temp.append(i['od28']) # 添加当前时刻控制质量

#print(temp)

final_day.append(temp)

count = count +1

# 下面爬取7天的数据

ul = data.find('ul') # 找到所有的ul标签

li = ul.find_all('li') # 找到左右的li标签

i = 0   # 控制爬取的天数

for day in li:   # 遍历找到的每一个li

if i < 7 and i > 0:

temp = []   # 临时存放每天的数据

date = day.find('h1').string   # 得到日期

date = date[0:date.index('日')]   # 取出日期号

temp.append(date)        

inf = day.find_all('p')   # 找出li下面的p标签,提取第一个p标签的值,即天气

temp.append(inf[0].string)

tem_low = inf[1].find('i').string   # 找到最低气温

if inf[1].find('span') is None:   # 天气预报可能没有最高气温

tem_high = None

else:

tem_high = inf[1].find('span').string  # 找到最高气温

temp.append(tem_low[:-1])

if tem_high[-1] == '℃':

        temp.append(tem_high[:-1])

else:

        temp.append(tem_high)

wind = inf[2].find_all('span') # 找到风向

for j in wind:

        temp.append(j['title'])

wind_scale = inf[2].find('i').string # 找到风级

index1 = wind_scale.index('级')

      temp.append(int(wind_scale[index1-1:index1]))

final.append(temp)

i = i + 1

return final_day,final

  • 同样对于/weather15d:15天的信息,也做同样的处理,这里经过查看后发现他的15天网页中只有8-14天,前面的1-7天在/weather中,这里就分别访问两个网页将爬取得到的数据进行合并得到最终14天的数据。

  • 前面是未来14天的数据爬取过程,对于当天24小时的天气信息数据,经过查找发现

    是一个json数据,可以通过json.loads()方法获取当天的数据,进而对当天的天气信息进行提取。

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第3张图片

保存csv文件

  • 前面将爬取的数据添加到列表中,这里引入csv库,利用f_csv.writerow(header)和f_csv.writerows(data)方法,分别写入表头和每一行的数据,这里将1天和未来14天的数据分开存储,分别保存为weather1.csv和weather14.csv,下面是他们保存的表格图:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第4张图片

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第5张图片

2.可视化分析

当天温度变化曲线图

  • 采用matplotlib中plt.plot()方法绘制出一天24小时的温度变化曲线,并用plt.text()方法点出最高温和最低温,并画出平均温度线,下图为温度变化曲线图:(代码见附录)

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第6张图片

分析可以发现这一天最高温度为33℃,最低温度为28℃,并且平均温度在20.4℃左右,通过对时间分析,发现昼夜温差5℃,低温分布在凌晨,高温分布在中午到下午的时间段。

当天相对湿度变化曲线图

  • 采用matplotlib中plt.plot()方法绘制出一天24小时的湿度变化曲线,并画出平均相对湿度线,下图为湿度变化曲线图:(代码见附录)

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第7张图片

分析可以发现这一天最高相对湿度为86%,最低相对湿度为58℃,并且平均相对湿度在75%左右,通过对时间分析,清晨的湿度比较大,而下午至黄昏湿度较小。

温湿度相关性分析图

  • 经过前面两个图的分析我们可以感觉到温度和湿度之间是有关系的,为了更加清楚直观地感受这种关系,使用plt.scatter()方法将温度为横坐标、湿度为纵坐标,每个时刻的点在图中点出来,并且计算相关系数,下图为结果图:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第8张图片

  • 分析可以发现一天的温度和湿度具有强烈的相关性,他们呈负相关,这就说明他们时间是负相关关系,并且进一步分析,当温度较低时,空气中水分含量较多,湿度自然较高,而温度较高时,水分蒸发,空气就比较干燥,湿度较低,符合平时气候现象。

空气质量指数柱状图

  • 空气质量指数AQI是定量描述空气质量状况的指数,其数值越大说明空气污染状况越重,对人体健康的危害也就越大。一般将空气质量指数分为6个等级,等级越高说明污染越严重,下面使用plt.bar方法对一天24小时的空气质量进行了柱状图绘制,并且根据6个等级的不同,相应的柱状图的颜色也从浅到深,也表明污染逐步加重,更直观的显示污染情况,并且也将最高和最低的空气质量指数标出,用虚线画出平均的空气质量指数,下图是绘制结果图:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第9张图片

  • 上面这张是南方珠海的

    控制

    质量图,可以看出空气质量指数最大也是在健康范围,说明珠海空气非常好,分析可以发现这一天最高空气质量指数达到了35,最低则只有14,并且平均在25左右,通过时间也可以发现,基本在清晨的时候是空气最好的时候(4-9点),在下午是空气污染最严重的时候,所以清晨一般可以去外面呼吸新鲜的空气,那时污染最小。

  • 而下面这个空气质量图是选取的北方的一个城市,可以看到这里的环境远远比不上珠海。

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第10张图片

风向风级雷达图

  • 统计一天的风力和风向,由于风力风向使用极坐标的方式展现较好,所以这里采用的是极坐标的方式展现一天的风力风向图,将圆分为8份,每一份代表一个风向,半径代表平均风力,并且随着风级增高,蓝色加深,最后结果如下所示:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第11张图片

  • 分析可以发现这一天西南风最多,平均风级达到了1.75级,东北风也有小部分1.0级,其余空白方向无来风。

未来14天高低温变化曲线图

  • 统计未来14天的高低温度变化,并绘制出他们的变化曲线图,分别用虚线将他们的平均气温线绘制出来,最后结果如下所示:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第12张图片

  • 分析可以发现未来14天高温平均气温为30.5℃,温度还是比较高,但是未来的第8天有降温,需要做好降温准备,低温

    前面

    处于平稳趋势,等到第8天开始下降,伴随着高温也下降,整体温度下降,低温平均在27℃左右。

未来14天风向风级雷达图

  • 统计未来14天的风向和平均风力,并和前面一样采用极坐标形式,将圆周分为8个部分,代表8个方向,颜色越深代表风级越高,最后结果如下所示:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第13张图片

  • 分析可以发现未来14天东南风、西南风所占主要风向,风级最高达到了5级,最低的西风平均风级也有3级。

未来14天气候分布饼图

  • 统计未来14天的气候,并求每个气候的总天数,最后将各个气候的饼图绘制出来,结果如下所示:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第14张图片

  • 分析可以发现未来14天气候基本是“雨”、“阴转雨”和“阵雨”,下雨的天数较多,结合前面的气温分布图可以看出在第8-9天气温高温下降,可以推测当天下雨,导致气温下降。

3.结论

  • 1.首先根据爬取的温湿度数据进行的分析,温度从早上低到中午高再到晚上低,湿度和温度的趋势相反,通过相关系数发现温度和湿度有强烈的负相关关系,经查阅资料发现因为随着温度升高水蒸汽蒸发加剧,空气中水分降低湿度降低。当然,湿度同时受气压和雨水的影响,下雨湿度会明显增高。

  • 2.经查阅资料空气质量不仅跟工厂、汽车等排放的烟气、废气等有关,更为重要的是与气象因素有关。由于昼夜温差明显变化,当地面温度高于高空温度时,空气上升,污染物易被带到高空扩散;当地面温度低于一定高度的温度时,天空形成逆温层,它像一个大盖子一样压在地面上空,使地表空气中各种污染物不易扩散。一般在晚间和清晨影响较大,而当太阳出来后,地面迅速升温,逆温层就会逐渐消散,于是污染空气也就扩散了。

  • 3.风是由气压在水平方向分布的不均匀导致的。风受大气环流、地形、水域等不同因素的综合影响,表现形式多种多样,如季风、地方性的海陆风、山谷风等,一天的风向也有不同的变化,根据未来14天的风向雷达图可以发现未来所有风向基本都有涉及,并且没有特别的某个风向,原因可能是近期没有降水和

    气文

    变化不大,导致风向也没有太大的变化规律。

  • 4.天气是指某一个地区距离地表较近的大气层在短时间内的具体状态。跟某瞬时内大气中各种气象要素分布的综合表现。根据未来14天的天气和温度变化可以大致推断出某个时间的气候,天气和温度之间也是有联系的,

4.代码框架

  • 代码主要分为weather.py:对中国天气网进行爬取天气数据并保存csv文件;data1_analysis.py:对当天的天气信息进行可视化处理;data14_analysis.py:对未来14天的天气信息进行可视化处理。下面是代码的结构图:

可以爬取wind数据库吗_Python爬取天气数据及可视化分析!这是秋天该有的气温?..._第15张图片

附源代码

由于篇幅出错  代码给上来就乱码  完整代码获取加群:1136192749

原作者:DID 迪 

如有侵权联系小编删除:

你可能感兴趣的:(可以爬取wind数据库吗)