中国五城市六年PM2.5数据挖掘

Kaggle中国五城市六年PM2.5数据挖掘

数据来源于kaggle平台,本文对中国五城市(北京、上海、成都、广州、沈阳)六年PM2.5数据,进行分析,为了更加直观,我采用倒叙的方式,先展示成果,再展示数据预处理部分。

文章目录

  • Kaggle中国五城市六年PM2.5数据挖掘
  • 3. 数据可视化
    • 3.1 PM2.5平均分布情况
    • 3.2 时间关系
      • 3.2.1 各季节变化情况
      • 3.2.2 逐年、季度、月、日变化趋势
    • 3.3 风速的关系
      • 3.3.1 PM2.5与各城市风速关系
      • 3.3.2 北京PM2.5与风速关系图
      • 3.3.3 除了北京外地区
    • 3.4 降水量的关系
      • 3.4.1 上海小时降水量
      • 3.4.2 累计降水量
    • 3.5 温度关系
    • 3.6 相对湿度关系
    • 3.7 大气压强关系
    • 3.8 温度差关系
  • 1. Excel数据预处理
    • 1.1 数据探索
    • 1.2 数据预处理
  • 2. Python合并多个工作表

3. 数据可视化

3.1 PM2.5平均分布情况

中国五城市六年PM2.5数据挖掘_第1张图片
北京空气质量最差,广州和上海空气质量最好。成都因地处四川盆地,工业污染难以被风吹散,空气质量较其它南方城市较差。

3.2 时间关系

3.2.1 各季节变化情况

中国五城市六年PM2.5数据挖掘_第2张图片
五个城市连续六年PM2.5大小在一年四季的分布,广州和上海的空气质量比较适宜

3.2.2 逐年、季度、月、日变化趋势

中国五城市六年PM2.5数据挖掘_第3张图片

  1. 可以看到,PM2.5总体是逐年下降的
  2. 观察每天各个时段的PM2.5分布更有意义可以看到各此视下午2点的PM2.5平均值最低

3.3 风速的关系

3.3.1 PM2.5与各城市风速关系

中国五城市六年PM2.5数据挖掘_第4张图片
PM2.5与风速的关系,点击查看单个城市的情况。风速越大,PM2.5越低。

3.3.2 北京PM2.5与风速关系图

中国五城市六年PM2.5数据挖掘_第5张图片
PM2.5与风速的关系,仅显示北京。刮大风总是会刮西北风。

3.3.3 除了北京外地区

中国五城市六年PM2.5数据挖掘_第6张图片
可以看出成都的刮风是非常小的,广州次之

3.4 降水量的关系

PM2.5大小与降水量的关系(默认只显示上海)。

3.4.1 上海小时降水量

中国五城市六年PM2.5数据挖掘_第7张图片降水量越大的时候,PM2.5越低。

可以看到,2013-9-13日的降水量特别大,上海发生了大暴雨
中国五城市六年PM2.5数据挖掘_第8张图片

3.4.2 累计降水量

中国五城市六年PM2.5数据挖掘_第9张图片PM2.5大小与累计降水量的关系。累计降水量越大,PM2.5越低。

3.5 温度关系

中国五城市六年PM2.5数据挖掘_第10张图片
由于北京的散点图掩盖了其他城市,所以我们用筛选器取出了北京,可以看到,成都是比较热的,上海温差较大,沈阳最冷

3.6 相对湿度关系

中国五城市六年PM2.5数据挖掘_第11张图片PM2.5大小与相对湿度的关系(默认不显示北京广州),当相对湿度较高时,成都、上海、沈阳数据都出现了断续,并且大致符合:相对湿度越高、PM2.5的平均值越高的分布情况

  • 原因解释:
    中国五城市六年PM2.5数据挖掘_第12张图片

3.7 大气压强关系

中国五城市六年PM2.5数据挖掘_第13张图片感觉没有太大关系

3.8 温度差关系

露点温度指空气在水汽含量和气bai压都不改变的条件下,冷却到饱和时的温度。

形象地说,就是空气中的水蒸气变为露珠时候的温度叫露点温度。露点温度本是个温度值,可为什么用它来表示湿度呢?这是因为,当空气中水汽已达到饱和时,气温与露点温度相同;当水汽未达到饱和时,气温一定高于露点温度。所以露点与气温的差值可以表示空气中的水汽距离饱和的程度。气温降到露点以下是水汽凝结的必要条件
中国五城市六年PM2.5数据挖掘_第14张图片

1. Excel数据预处理

首先要对原始数据进行数据处理,主要时替换操作,Excel的vlookup函数就够了,当然也可以利用pandas中的映射关系来做,就有点大材小用了。

1.1 数据探索

数据字段
中国五城市六年PM2.5数据挖掘_第15张图片
字段含义

  • No: row number 行号
  • year: year of data in this row 该行中数据的年份
  • month: month of data in this row 该行中数据的月份
  • day: day of data in this row 该行中数据的日期
  • hour: hour of data in this row 该行中的小时数据
  • season: season of data in this row 此行中的数据季节
  • PM: PM2.5 concentration (ug/m^3) PM2.5浓度(ug / m ^ 3)
  • DEWP: Dew Point (Celsius Degree) 露点(摄氏温度)
  • TEMP: Temperature (Celsius Degree) 温度(摄氏温度)
  • HUMI: Humidity (%) 湿度(%)
  • PRES: Pressure (hPa) 压力(hPa)
  • cbwd: Combined wind direction 组合风向
  • Iws: Cumulated wind speed (m/s) 累积风速(m / s)
  • precipitation: hourly precipitation (mm) 每小时降水量(毫米)
  • Iprec: Cumulated precipitation (mm) 累积降水量(毫米)

数据结构
中国五城市六年PM2.5数据挖掘_第16张图片
数据展示
中国五城市六年PM2.5数据挖掘_第17张图片

1.2 数据预处理

  • 季节替换
    中国五城市六年PM2.5数据挖掘_第18张图片
  • 风向替换

中国五城市六年PM2.5数据挖掘_第19张图片

  • PM2.5数据处理
    中国五城市六年PM2.5数据挖掘_第20张图片
  • 时间转换

中国五城市六年PM2.5数据挖掘_第21张图片

处理完5个EXCEL表格数据后,就要合并多个工作表,Python比较在行

2. Python合并多个工作表

# -*- coding:utf-8 -*-
# @Author : https://blog.csdn.net/qq_45176548 
# @Time : 2021/2/4 0:25
import pandas as pd
import os
os.chdir(r"E:\Python\五省PM2.5")
path = "./archive/"
dfs,index = [],0
for i in os.listdir(path):
    dfs.append(pd.read_csv(os.path.join(path,i)))
    print(f"正在合并{index+1}工作表")
    index += 1
df = pd.concat(dfs)
df.to_csv("./archive/北上广成沈五城市六年PM2.5数据汇总.csv",index=False)

推荐阅读


1.Tableau数据分析-Chapter01条形图、堆积图、直方图
2.Tableau数据分析-Chapter02数据预处理、折线图、饼图
3.Tableau数据分析-Chapter03基本表、树状图、气泡图、词云
4.Tableau数据分析-Chapter04标靶图、甘特图、瀑布图
5.Tableau数据分析-Chapter05数据集合并、符号地图
6. Tableau数据分析-Chapter06填充地图、多维地图、混合地图
7. Tableau数据分析-Chapter07多边形地图和背景地图
8. Tableau数据分析-Chapter08数据分层、数据分组、数据集


到这里就结束了,如果对你有帮助,欢迎点赞关注,你的点赞对我很重要

你可能感兴趣的:(Tableau,python,数据分析,数据可视化)