python 空气质量AQI 数据分析与预测----用到的库,数据集,数据清洗

#每天一点点#
python 空气质量AQI 数据分析与预测

点击可以查看 分析:城市空气质量排名,临海城市空气质量是否由于内陆城市

点击可以查看 分析:相关系数矩阵

空气质量指数,用来衡量空气清洁或污染的成都,值越小,表示空气质量约好
任务说明:
期望能够对全国城市空气质量进行研究与分析,能够解决以下疑问:
1:哪些城市的空气质量较好/较差
2:临海城市是否空气质量优于内陆城市?
3:空气质量主要受哪些因素影响?
4:是否可以预测城市的空气质量?
5:是否可以预测城市是否临海?

#数据集描述
数据集的百度网盘链接链接:https://pan.baidu.com/s/1mfqbPvrE7DgGTLzTEp3YhA
提取码:2yoj

列名 含义
City 城市名
AQI 空气质量指数
Precipitation 降雨量
GDP 城市生产总值
Temperature 温度
Longitude 经度
Latitude 维度
Altitude 海拔高度
PopulationDensity 人口密度
Coastal 是否沿海
GreenCoverageRate 绿化覆盖率
Incineration(10,000ton) 焚烧量(10000吨)

#程序实现
#一:导入用到的库,进行一些初始化设置

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import warnings
import seaborn as sns
sns.set(style = 'darkgrid',font = 'SmiHei',rc = {'axes.unicode_minus':False})\

warnings.filterwarnings('ignore')

#二:加载相关数据集

data = pd.read_csv(r'C:\Users\CompletedDataset.csv') #改成自己的路径
print(data.shape)  #查询表的大概情况,XX行,XX列
data.head()  #查询表的前5行内容

#三:数据清洗

#1:缺失值处理

data.info() #本文件中的数据,是没有缺失值的

#isnull 判断是否有缺失值,如果有缺失值,则显示True,如果没有,则False
#axis=0按行相加,如果有缺失值,那么这一行相加为1,如果没有,则为0

data.isnull().sum(axis=0) 

输出结果 ???????
python 空气质量AQI 数据分析与预测----用到的库,数据集,数据清洗_第1张图片
输出结果 ???????

#2:异常值处理
判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:
多达25%的数据可以变得任意远而不会很大地扰动四分位数,
所以异常值不能对这个标准施加影响

data.describe()    #基本统计量
sns.boxplot(data = data['Precipitation'])    #箱型图

输出结果 ???????python 空气质量AQI 数据分析与预测----用到的库,数据集,数据清洗_第2张图片
输出结果 ???????

#3:重复值处理

data.duplicated().sum() #计算重复值的个数,这一行内容完全一致,判定为重复

你可能感兴趣的:(python分析实例)