探索性数据分析EDA

1. 什么是EDA

Exploratory Data Analysis(EDA) 探索性数据分析是一种数据分析的方法,也是一种关于如何分析和解释数据集的思想方法,它采用多种方法来最大限度地洞察数据,揭示数据底层模型结构,提取重要变量,检测异常值等。
大多数的EDA技术都是图形化的,图形往往能够揭示数据的内部结构。
EDA中使用的图形技术主要包括:

  • 绘制原始数据,例如直方图,散点图等
  • 绘制简单的统计数据,比如均值,方差,标准差等

EDA分析方法的顺序是:问题=>数据=>分析=>模型=>结论, 也就是在数据收集之后,直接对数据进行分析,根据数据的特性选择合适的模型来进行下一步的建模。
根据数据和方法的类型,可以将EDA分为四种:

  • 单变量非图形
  • 多变量非图形
  • 单变量图形
  • 多变量图形

2. 单变量非图形EDA

单变量的数据,比如年龄,性别等,通常需要找到代表总体分布的变量,包括分布的中心,范围,形状,异常值等。

样本分布的中心趋势的常用度量是平均值,中位数和众数

样本的分布范围常用的度量有分布范围,包括方差,标准差,四分位数范围。方差和标准差比较常见,这里主要讲一下四分位数范围(IQR)。
首先需要定义四分位数的概念。 总体或样本的四分位数是将分布或观察到的数据平均为四分之三的三个值。 因此,四分之一的数据低于第一个四分位数Q1; 一半低于第二个四分位数(Q2); 四分之三低于第三四分位数(Q3)。 在这里可以看出,一半的值落在Q2之上,四分之一落在Q3之上,那么Q2就等于中位数。IQR的定义为IQR = Q3- − Q1 ,根据定义,一半的值(特别是中间的一半)落在宽度等于IQR的间隔内。 如果数据更加分散,则IQR趋于增加,反之亦然。

与方差或标准差相比,IQR是一种更可靠的度量。

3. 单变量图形EDA

直方图
直方图是最常用的图形,其中每个条形图代表一系列值范围内样本的频率(计数)或比例(计数/总计数)。

箱型图
箱形图与上面提到的IQR有关,如下图:

箱型图

箱型图主要包括要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q1,中位数Q2,下四分位数Q3,下边缘,还有异常值。
异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值,是在上边缘和下边缘之外的数据,这里只是箱型图根据数据分布,给出的一个参考信息,并不是真的意味着对应的样本为异常值。
这里需要注意的是分布的对称性和重尾。
对称性指的是中位数在方盒的中心,并且两侧的脚一样长。对于标准正态分布的大样本,只有 0.7%的值是异常值,中位数,位于上下四分位数的中央,箱形图的方盒关于中位线对称。对于较小的数据集,数据的变化比较大。在偏斜的分布中,我们期望看到中值朝较短的箱须方向移动。 如果较长的箱须位于顶部,则分布呈正偏斜(或偏向右侧,因为直方图中右侧的值较高)。 如果较低的箱须较长,则分布呈负偏斜(或向左偏斜)。如果中值靠近较长的箱须,则很难得出结论。
重尾用于描述直方图的许多值相对于高斯分布均值均远离平均值的情况。这说明样本中有很多离群值,观察到异常值的概率更大。

4. 多变量非图形EDA

多变量非图形EDA技术通常以交叉表或统计的形式显示两个或多个变量之间的关系。

交叉表
对于两个变量,交叉表提供了两个变量之间的相互关系,可以帮助发现变量之间的相互作用。

交叉表

协方差
样本的协方差是两个变量“共变”的量度,即当一个变量改变时,我们期望另一个变量的改变。

正协方差值表明,当一项测量值高于平均值时,另一项测量值也可能高于平均值,反之亦然。 负协方差表明,当一个变量高于其均值时,另一个变量低于其均值。 协方差接近零表明这两个变量彼此独立地变化。

协方差往往难以解释,因此我们经常使用相关性(correlation)。 相关具有很好的性质,它始终在-1和+1之间,-1是理想的负线性相关,+ 1是理想的正线性相关,0表示X和Y不相关。

5. 多变量图形EDA

箱型图
最常用的方法是并排箱型图。同一数轴上,几批数据的箱形图并行排列,数据的中位数、尾长、异常值、分布区间等形状信息便一目了然。

并列的箱型图

散点图
另一个常用的方法是散点图,通过观察因变量随自变量变化的趋势,可以大致判断出两者之间的关系。

散点图

6. 数据降维

对于维度较高的数据,可能需要通过降维的方法来处理数据,然后才能更好的进行数据分析。常用的降维方法有:多维缩放,主成分分析(PCA),多线性PCA,非线性降维(NLDR),t-SNE(基于随机领域嵌入的机器学习可视化算法)

总的来说,对于收集到的数据,我们首先需要直到单个变量的分布,需要计算均值,中位数,方差,四分位数等,需要画出直方图和箱型图来直观的观察变量的分布;对于多个变量,可以通过交叉表和协方差,通过并排箱型图来比较变量间的不同,通过散点图来观察自变量与因变量的关系。对于高维数据,需要使用一些降维的方法进行处理以及可视化。

参考
[1] Experiment Design and Analysis - Chapter4
[2] Engineering Statistics Handbook-EDA
[3] wiki-EDA

你可能感兴趣的:(探索性数据分析EDA)