AQI,指空气质量指数,用来衡量空气清洁或者污染程度,值越小,表示空气质量越好。
我们现在获取了2015年空气质量指数集。该数据集包含全国主要城市的相关数据以及空气质量指数
列名 含义
City 城市名
AQI 空气质量指数
Precipitation 降雨量
GDP 城市生产总值
Temperature 温度
Longitude 经度
Latitude 纬度
Altitude 海拔高度
PopulationDensity 人口密度
Coastal 是否沿海
GreenCoverageRate 绿化覆盖率
Incineration(10,000ton) 焚烧量(10000吨)
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import warnings
import seaborn as sns
sns.set(style="darkgrid", font="SimHei", rc={"axes.unicode_minus": False})
warnings.filterwarnings("ignore")
data = pd.read_csv("CompletedDataset.csv")
print(data.shape)
data.head()
数据清洗也就是去除那三个方面的值,这里不再赘述,直接上代码
data.info()
# data.isnull().sum(axis=0)
//异常值处理
# data.describe()
sns.boxplot(data=data["Precipitation"])
//重复值处理
//使用duplicate检查重复值。可配合keep参数进行调整。
//使用drop_duplicate删除重复值
data.duplicated().sum()
空气质量最好/最差的五个城市
最好的5个城市
t = data[["City", "AQI"]].sort_values("AQI")
display(t.iloc[:5])
sns.barplot(x="City", y="AQI", data=t.iloc[:5])
最差的5个城市
display(t.iloc[-5:])
sns.barplot(x="City", y="AQI", data=t.iloc[-5:])
临海城市是否空气质量优于内陆城市?
display(data["Coastal"].value_counts())
sns.countplot(x="Coastal", data=data)
然后,我们来观察一下临海城市与内陆城市的散点分布
sns.swarmplot(x="Coastal", y="AQI", data=data)
然后,我们再来分组计算空气质量的均值
display(data.groupby("Coastal")["AQI"].mean())
sns.barplot(x="Coastal", y="AQI", data=data)
柱形图仅能进行均值对比,我们可以使用箱线图来显示更多的信息
sns.boxplot(x="Coastal", y="AQI", data=data)
我们也可以绘制小提琴图,除了能够展示箱线图的信息外,还能呈现出分布的密度
sns.violinplot(x="Coastal", y="AQI", data=data)
我们可以将散点与箱线图或小提琴图结合在一起进行绘制,下面以小提琴图为例
sns.violinplot(x="Coastal", y="AQI", data=data, inner=None)
sns.swarmplot(x="Coastal", y="AQI", color="g", data=data)
data.corr()