1、载入各种数据科学以及可视化库
#coding:utf-8
#导入warnings包,利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns #图形可视化包
import missingno as msno #缺失值可视化包
数据科学库
Numpy
Numpy(Numerical Python):提供了一个在Python中做科学计算的基础库,重在数值计算,主要用于多为数据(矩阵)处理的库。用来存储和处理大型矩阵,比python自身的嵌套列表结构要高效得多。Python其余的科学计算扩展大部分都是以此为基础。
Scipy
Scipy:基于Numpy提供了一个在Python中做科学计算的工具包。主要应用于统计,优化,整合,线性代数模块,傅利叶变换,信号和图像处理,常微分方程求解,稀疏矩阵等,在数学系或工程系相对用的多一些。
Pandas
Pandas:纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
可视化库
matplotlib
matplotlib:是一个python的2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形
seaborn
seaborn:是在matplotlit的基础上进行了更高级的API封装,从而使得做图更加容易,在大多数情况下使用seaborn就能制作出很具有吸引力的图,而是用matplotlib就能制作具有更多特色的图。应该把seaborn视为matplotlib的补充,而不是替代物。
missingno
missingo:是一个可视化缺失值库,方便使用。
# 1、载入训练集和测试集:
path = './datalab/'
train_data = pd.read_csv(path + 'used_car_train_20200313.csv',sep = ' ')
test_data = pd.read_csv(path + 'used_car_testA_20200313.csv',sep = ' ')
因为数据集很大,直接点开CSV文件查看很不方便,所以,要养成使用head()以及shape来快速查看数据集。
pandas的表格可以使用head()方法和tail()方法来查看整个数据的前几行和后几行的数据。参数可以填写具体的数字来表示具体要显示多少行,默认为5。
# 要养成看数据的head()、tail()、shape的习惯
train_data.head().append(train_data.tail())
train_data.shape
test_data.head().append(test_data.tail())
test_data.shape
这里我们将表格的前5行和后5行合并在一起进行显示。另外,考虑到数据特征比较多,所以先将表格按列切分然后再进行显示。具体代码如下:
train_df.iloc[:, : 11].head().append(train_df.iloc[:, : 11].tail())
train_df.iloc[:, 11: 22].head().append(train_df.iloc[:, 11: 22].tail())
train_df.iloc[:, 22: ].head().append(train_df.iloc[:, 22: ].tail())
1、describe() 查看每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值max,看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式,有的时候需要注意下
2、info() 通过info来了解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常
#describe中有每列的统计量:count、mean、std、min、max、中位数25% 50% 75%
train_data.describe()
test_data.describe()
# info来了解数据每列的type
train_data.info()
test_data.info()
train_data.isnull().sum()
test_data.isnull().sum()
Notes:
可视化展示的几种方式:9
missingno是一个专门用来将缺失值进行可视化的库。这个库有很多种方式对数据的缺失值情况进行可视化描述。这里我们用分别采用矩阵和条形图的方式来显示缺失值的情况。
# nan可视化
missing = train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()
Matrix是使用最多的函数,能快速直观地看到数据集的完整性情况,矩阵显示
# 可视化看一下缺省值
msno.matrix(train_data.sample(250))
msno.bar(train_data.sample(1000))
# 可视化看下缺省值
msno.matrix(test_data.sample(250))
msno.bar(test_data.sample(1000))
结果:测试集和训练集的情况差不多,可视化有三列缺省。
pandas中有一种数据类型叫做object。实际上这是一种字符串类型。在我们的数据里面只有一个特征是object类型,就是notRepairedDamage。有时候,一些object类型的空值是用某种特殊字符来替代的。因此我们需要观察这种特征数据中是否存在这种特殊字符,并把它转化成空值。
这里通过info()查看数据类型,可以发现除了notRepairedDamage 为object类型其他都为数字,这里我们把它的几个不同的值都进行显示
train_data['notRepairedDamage'].value_counts()
然后使用.replace()将其他的字符用nan替换掉。这里可以看出来‘ - ’也为空缺值,因为很多模型对nan有直接的处理,这里我们先不做处理,先替换成nan
train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
train_data['notRepairedDamage'].value_counts()
测试集也做相应处理
test_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
test_data['notRepairedDamage'].value_counts()
使用.value_counts()查看每个特征中值的情况,将类别特征严重倾斜的特征先删掉,因为这种数据一般对预测没有什么帮助
train_data["seller"].value_counts()
train_data["offerType"].value_counts()
这里经过对每一个特征进行查看得出,如上两个类别特征严重倾斜的特征。所以删除这两个特征。
del train_data["seller"]
del train_data["offerType"]
del test_data["seller"]
del test_data["offerType"]
#有多少种价格
train_data['price']
#每种价格的数量
train_data['price'].value_counts()
总体分布概况(无界约翰逊分布等)
约翰逊分布
这部分需要导入scipy.stats模块。它提供的各种概率分布模型
import scipy.stats as st
y = train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)
由上可知,价格不服从正态分布,所以在进行回归之前,它必须进行转换。 虽然对数变换做得很好,但最佳拟合是无界约翰逊分布。
观察这三幅图可以发现价格不服从正太分布。因此需要对其进行转换,使其服从正态分布。至于为什么一定要转换成正态分布,以及如何进行转换,可以参考数据不符合正态分布的处理方法。另外,关于seaborn的绘图方法以及各类图示的含义可以参考seaborn的绘图方法。
查看skewness and kurtosis(偏度和峰度)
我们一般会拿偏度和峰度来看数据的分布形态,而且一般会跟正态分布做比较,我们把正态分布的偏度和峰度都看做零。如果我们在实操中,算到偏度峰度不为0,即表明变量存在左偏右偏,或者是高顶平顶这么一说。
偏度skewness
Definition:是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性,简单来说就是数据的不对称程度。
(1)Skewness = 0 ,分布形态与正态分布偏度相同。
(2)Skewness > 0 ,正偏差数值较大,为正偏或右偏。长尾巴拖在右边,数据右端有较多的极端值。
(3)Skewness < 0 ,负偏差数值较大,为负偏或左偏。长尾巴拖在左边,数据左端有较多的极端值。
(4)数值的绝对值越大,表明数据分布越不对称,偏斜程度大。
峰度kurtosis
Definition:偏度是描述某变量所有取值分布形态陡缓程度的统计量,简单来说就是数据分布顶的尖锐程度。峰度是四阶标准矩计算出来的。
(1)Kurtosis=0 与正态分布的陡缓程度相同。
(2)Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
(3)Kurtosis<0 比正态分布的高峰来得平台——平顶峰
sns.distplot(train_data['price']);
print("Skewness: %f" % train_data['price'].skew())
print("Kurtosis: %f" % train_data['price'].kurt())
sns.distplot(train_data.skew(),color='blue',axlabel ='Skewness')
sns.distplot(train_data.kurt(),color='orange',axlabel ='Kurtness')
## 3) 查看预测值的具体频数
plt.hist(train_data['price'], orientation = 'vertical',histtype = 'bar', color ='red')
plt.show()
查看频数, 由上图可知,大于20000的值极少,其实这里也可以把这些当作特殊的值(异常值)直接用填充或者删掉(在前面进行)
log变换 z之后的分布较均匀,可以进行log变换进行预测,这也是预测问题常用的trick(技巧)
# log变换 z之后的分布较均匀,可以进行log变换进行预测,这也是预测问题常用的trick(技巧)
plt.hist(np.log(train_data['price']), orientation = 'vertical',histtype = 'bar', color ='red')
plt.show()
# 分离label即预测值
Y_train = train_data['price']
numeric_features = ['power', 'kilometer', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' ]
categorical_features = ['name', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage', 'regionCode',]
pandas的序列的nunique()方法可以统计序列中每一个不同的值出现的次数。
# 特征nunique分布
for cat_fea in categorical_features:
print(cat_fea + "的特征分布如下:")
print("{}特征有{}个不同的值".format(cat_fea, train_data[cat_fea].nunique()))
print(train_data[cat_fea].value_counts())
将价格添加到数组中,接下来分析各特征和价格的相关性
numeric_features.append('price')
numeric_features
## 1) 相关性分析
price_numeric = train_data[numeric_features]
correlation = price_numeric.corr() #相关系数矩阵,即给出了任意两个变量之间的相关系数
print(correlation['price'].sort_values(ascending = False),'\n')
f , ax = plt.subplots(figsize = (7, 7))
plt.title('Correlation of Numeric Features with Price',y=1,size=16)
sns.heatmap(correlation,square = True, vmax=0.8)
del price_numeric['price']
## 3) 每个数字特征的分布可视化
f = pd.melt(train_data, value_vars=numeric_features)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")
数字特征相互之间的关系可视化:sns.pairplot() 的参数及其用法
## 4) 数字特征相互之间的关系可视化
sns.set()
columns = ['price', 'v_12', 'v_8' , 'v_0', 'power', 'v_5', 'v_2', 'v_6', 'v_1', 'v_14']
sns.pairplot(train_data[columns],size = 2 ,kind ='scatter',diag_kind='kde')
plt.show()
由上图可以看出,v_1和v_6线性相关,所以留下一个特种证即可
多变量之间的关系可视化
## 5) 多变量互相回归关系可视化
fig, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2, figsize=(24, 20))
# ['v_12', 'v_8' , 'v_0', 'power', 'v_5', 'v_2', 'v_6', 'v_1', 'v_14']
v_12_scatter_plot = pd.concat([Y_train,train_data['v_12']],axis = 1)
sns.regplot(x='v_12',y = 'price', data = v_12_scatter_plot,scatter= True, fit_reg=True, ax=ax1)
v_8_scatter_plot = pd.concat([Y_train,train_data['v_8']],axis = 1)
sns.regplot(x='v_8',y = 'price',data = v_8_scatter_plot,scatter= True, fit_reg=True, ax=ax2)
v_0_scatter_plot = pd.concat([Y_train,train_data['v_0']],axis = 1)
sns.regplot(x='v_0',y = 'price',data = v_0_scatter_plot,scatter= True, fit_reg=True, ax=ax3)
power_scatter_plot = pd.concat([Y_train,train_data['power']],axis = 1)
sns.regplot(x='power',y = 'price',data = power_scatter_plot,scatter= True, fit_reg=True, ax=ax4)
v_5_scatter_plot = pd.concat([Y_train,train_data['v_5']],axis = 1)
sns.regplot(x='v_5',y = 'price',data = v_5_scatter_plot,scatter= True, fit_reg=True, ax=ax5)
v_2_scatter_plot = pd.concat([Y_train,train_data['v_2']],axis = 1)
sns.regplot(x='v_2',y = 'price',data = v_2_scatter_plot,scatter= True, fit_reg=True, ax=ax6)
v_6_scatter_plot = pd.concat([Y_train,train_data['v_6']],axis = 1)
sns.regplot(x='v_6',y = 'price',data = v_6_scatter_plot,scatter= True, fit_reg=True, ax=ax7)
v_1_scatter_plot = pd.concat([Y_train,train_data['v_1']],axis = 1)
sns.regplot(x='v_1',y = 'price',data = v_1_scatter_plot,scatter= True, fit_reg=True, ax=ax8)
v_14_scatter_plot = pd.concat([Y_train,train_data['v_14']],axis = 1)
sns.regplot(x='v_14',y = 'price',data = v_14_scatter_plot,scatter= True, fit_reg=True, ax=ax9)
v_13_scatter_plot = pd.concat([Y_train,train_data['v_13']],axis = 1)
sns.regplot(x='v_13',y = 'price',data = v_13_scatter_plot,scatter= True, fit_reg=True, ax=ax10)
由上图可以看出,v_13与价格的相关性很差,所以可以删除这个特征
## 1) unique分布
for fea in categorical_features:
print(train_data[fea].nunique())
categorical_features
由unique分布结果可知, name和 regionCode的类别太稀疏了,这里我们把不稀疏的几类画一下
箱型图显示定量数据的分布情况。框显示数据集的四分位数,线显示分布的其余部分,它能显示出一组数据的最大值、最小值、中位数及上下四分位数,使用四分位数范围函数的方法可以确定“离群值”的点seaborn常见绘图总结。
在我们使用的数据中,name和regionCode的值分布的十分稀疏,因此没有必要也最好不要画出它们的箱型图(过于稀疏的数据绘制箱型图需要相当长的时间而且也没有意义)。
## 2) 类别特征箱形图可视化
categorical_features = ['model',
'brand',
'bodyType',
'fuelType',
'gearbox',
'notRepairedDamage']
for c in categorical_features:
train_data[c] = train_data[c].astype('category')
if train_data[c].isnull().any():
train_data[c] = train_data[c].cat.add_categories(['MISSING'])
train_data[c] = train_data[c].fillna('MISSING')
def boxplot(x, y, **kwargs):
sns.boxplot(x=x, y=y)
x=plt.xticks(rotation=90)
f = pd.melt(train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(boxplot, "value", "price")
train_data.columns
小提琴图与箱型图类似。不像箱形图中所有绘图组件都对应于实际数据点,小提琴绘图以基础分布的核密度估计为特征,通过小提琴图可以知道哪些位置的密度较高。在图中,白点是中位数,黑色盒型的范围是下四分位点到上四分位点,细黑线表示须。外部形状即为核密度估计
## 3) 类别特征的小提琴图可视化
catg_list = categorical_features
target = 'price'
for catg in catg_list :
sns.violinplot(x=catg, y=target, data=train_data)
plt.show()
categorical_features = ['model',
'brand',
'bodyType',
'fuelType',
'gearbox',
'notRepairedDamage']
## 4) 类别特征的柱形图可视化
def bar_plot(x, y, **kwargs):
sns.barplot(x=x, y=y)
x=plt.xticks(rotation=90)
f = pd.melt(train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(bar_plot, "value", "price")
## 5) 类别特征的每个类别频数可视化(count_plot)
def count_plot(x, **kwargs):
sns.countplot(x=x)
x=plt.xticks(rotation=90)
f = pd.melt(train_data, value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(count_plot, "value")
用pandas_profiling生成一个较为全面的可视化数据报告(较为简单、方便)最终打开html文件即可
import pandas_profiling
pfr = pandas_profiling.ProfileReport(Train_data)
pfr.to_file("./example.html")
数据探索在机器学习中我们一般称为EDA(Exploratory Data Analysis):
是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
数据探索有利于我们发现数据的一些特性,数据之间的关联性,对于后续的特征构建是很有帮助的。
对于数据的初步分析(直接查看数据,或.sum(), .mean(),.descirbe()等统计函数)可以从:样本数量,训练集数量,是否有时间特征,是否是时序问题,特征所表示的含义(非匿名特征),特征类型(字符类型,int,float,time),特征的缺失情况(注意缺失的在数据中的表现形式,有些是空的有些是”NAN”符号等),特征的均值方差情况。
分析记录某些特征值缺失占比30%以上样本的缺失处理,有助于后续的模型验证和调节,分析特征应该是填充(填充方式是什么,均值填充,0填充,众数填充等),还是舍去,还是先做样本分类用不同的特征模型去预测。
对于异常值做专门的分析,分析特征异常的label是否为异常值(或者偏离均值较远或者事特殊符号),异常值是否应该剔除,还是用正常值填充,是记录异常,还是机器本身异常等。
对于Label做专门的分析,分析标签的分布情况等。
进步分析可以通过对特征作图,特征和label联合做图(统计图,离散图),直观了解特征的分布情况,通过这一步也可以发现数据之中的一些异常值等,通过箱型图分析一些特征值的偏离情况,对于特征和特征联合作图,对于特征和label联合作图,分析其中的一些关联性。