空气质量指数数据分析可视化

目录

1 数据描述

2 数据预处理

应用日期计算函数

应用匹配查找函数

逻辑判断函数

Python缺失值处理

3 数据分析及可视化

3.1描述统计

3.2 热力图


一、待分析的大数据描述

  本例选取的数据集air.xlsx,数据集显示的是2014年至2018年全国部分城市空气污染物情况。数据集中有557425个样本,样本由time(时间)、city(城市)、AQI、PM2.5、PM10、SO2、NO2、CO、O3、primary_pollutant等多个属性。

空气质量指数数据分析可视化_第1张图片
图1 空气质量数据集air.xlsx


二、对已描述大数据的预处理

应用日期计算函数

将time(时间)字段拆分为年、月和季度:

=YEAR(A2)     返回对应日期的年份

=MONTH(A2)    返回对应日期的月份

应用匹配查找函数

图2 季度拆分函数

LOOKUP函数:将查找值返回一行或一列进行查找,返回一行或列中相同位置的数值。

把日期对应的月份在数组{1,4,7,10}里查找,如果可以匹配,就返回当前月份在数组里的位置,如果月份在数组里匹配不到,就返回小于等于当前月份最大值所属的位置。



空气质量指数数据分析可视化_第2张图片
图3  time(日期)拆分为年、月、季度

逻辑判断函数

通过查阅相关资料,发现根据AQI空气质量指数可以讲空气质量划分为优、良、轻度污染、中度污染、重度污染和严重污染6种污染程度类型。

空气质量指数数据分析可视化_第3张图片
图4  AQI空气质量指数

因此,应用IF函数在air.xlsx数据集中新增一列pollute_type(污染程度)。

IF函数:判断是否满足某个条件,如果满足返回一个值,如果不满足则返回另一个值。

图5  IF条件判断函数


空气质量指数数据分析可视化_第4张图片
图6  新增pollute_type(污染程度)列Excel数据集

缺失值处理

空气质量指数数据分析可视化_第5张图片
图7 缺失值处理Python相关代码

缺失值统计:

统计缺失值可知,只有O3和primary_pollutant(主要污染物)存在缺失值,其中,O3有345908条缺失值,primary_pollutant有28837条。

空气质量指数数据分析可视化_第6张图片
图8 各字段列缺失值统计

用O3列均值填充O3列的缺失值,将primary_pollutant列的缺失值用“未知填充”。

空气质量指数数据分析可视化_第7张图片
图9 缺失值处理



三、对已预处理大数据的分析

A、全国空气质量最佳的TOP20个城市

B、全国PM2.5污染最严重的的30个城市(条形图)

C、城市空气质量情况(以北京为例)

D、空气质量成分相关系数热力图


Python数据分析(描述统计)

空气质量指数数据分析可视化_第8张图片
图10  AQI和PM2.5描述统计

Excel数据透视基础图表

空气质量指数数据分析可视化_第9张图片
图11 全国PM2.5均值污染最严重的的30个城市

由图11可知,全国PM2.5污染最严重的的城市是鹤壁,PM2.5均值最高为306,污染最严重的的30个城市排名最末的是焦作,PM2.5均值为71。

空气质量指数数据分析可视化_第10张图片
图12 2013年北京空气质量指数类别环形图

由图12可知,2013年北京一年中有190天处于重度污染,占全年的76%,空气质量为优的占14.6%。


 Python可视化

(1)计算AQI空气质量指数和各种成分指标值的相关性

空气质量指数数据分析可视化_第11张图片
图13 计算相关性及绘制热力图代码


空气质量指数数据分析可视化_第12张图片
图14 各成分指标值的相关系数

(2)然后通过计算出的相关系数,绘制热力图

空气质量指数数据分析可视化_第13张图片
图15 各成分指标值的相关系数热力图

由绘制的相关系数热力图,由可知空气质量指数AQI与PM10的相关性最大(0.81)、NO2(0.56),与O3略呈负相关性。


 

你可能感兴趣的:(空气质量指数数据分析可视化)