算法学习—建模前期数据预处理和检验的方法

由于准备参加2.5~2.9的美国数学建模比赛,最近在复习前期数据预处理和检验的方法,正好利用这篇博客进行一下总结与回顾:

(1)正态性检验

1、为什么要进行正态性检验?

正态性检验主要用于判断计量资料是否服从或近似服从正态分布。因为很多常见的统计学方法都要求数据满足正态性,如常见的t检验、单因素方差分析等。在考虑采用上述方法时,要对数据进行正态性检验。

如果数据明显不服从正态分布,但由于我们没有正态性检验的结果,直接使用了t检验、单因素方差分析等参数检验的方法,有可能导致统计效能下降,导致假阴性风险增加。

2、怎么进行正态性检验?

一般可通过图示法或统计学检验法进行正态性检验。常见的统计学检验有Kolmogorov-Smirnov检验(KS检验)和Shapiro-Wilk检验(SW检验),当检验结果的p值小于0.05,则认为数据不满足正态性;反之,则认为数据满足正态性。但需要注意的是,上述检验方法存在一定局限性。

因此,我们常建议研究者通过绘制直方图、Q-Q图和P-P图等来判断数据的正态性。在直方图中数据呈现钟型分布,中间高,两端逐渐下降左右两侧呈现对称或近似对称,或者在QQ图中的数据点和理论直线基本重合,则可认为数据满足正态性。但图示法存在主观性的问题,遇到一些不确定的情况,大家可以咨询统计学专家。

需要提醒一点,如果是多组间的比较,我们需要分组考察正态性,只要其中一组不满足正态性,就不适合用参数检验了。

3.数据不满足正态性检验,有哪些处理方法?

正态性检验那么重要,但是数据就是不服从正态分布怎么办呢?这个问题统计学专家在很久之前已经发现并提出了行之有效的方法。比如,可以采用非参数检验。如用于两组独立样本的Mann-Whitney U test,多组独立样本的Kruskal-Wallis test。或者,也可以做一些数据转换,如对数转换,使得转换后的数据服从正态分布,从而继续采用参数检验。


(2)对比差异性的方法:

<1> 方差分析:

方差分析是研究类别型自变量数值型因变量之间的关系,它在形式上是比较多个总体的均值是否相等。

例子:
为了研究客户满意度是否与行业有关,消费者协会对各个行业抽样了数量不等的公司,分别统计了各个公司的被投诉次数:

算法学习—建模前期数据预处理和检验的方法_第1张图片

基于以上的数据,是否可以判断客户的投诉次数与行业有关?

问题其实比较清晰,就是比较这四个行业之间被投诉的均值是否相等,这里的行业就是类别型自变量,被投诉次数就是数值型因变量。所以方差分析要研究的就是行业对被投诉次数是否有显著影响。

方差分析的思想来自于误差的分解,对于来自同一个分布的数据,抽样带来的误差其实只有随机误差,即随机抽样抽到的不同值与均值之间的差距,以上面这个例子为例,我们可以把各个行业内部的抽样数据认为是来自同一个分布,即零售业不同企业有不同的被投诉次数,他们之间的不同可以认为只是随机误差,也被称为组内误差(SSE)。

不同行业之间误差被称为组间误差(SSA),如果被投诉次数与行业无关,可以认为不同行业的抽样也是来自于同一总体分布的抽样,那么此时误差只有随机误差而如果不同行业的抽样并不是来自同一总体分布,意味着被投诉次数与行业有关,那么此时组间误差包括随机误差和系统误差,这个系统误差就是由于行业这个因素带来

综合以上,我们可以将总体误差(SST)分为组间误差和组内误差。

算法学习—建模前期数据预处理和检验的方法_第2张图片

然后从F分布表中可以读出临界F值,或者根据p/sig值判断显著性。

<2> t 检验(独立样本t 检验) :

t 检验(独立样本t 检验),用于分析定类数据与定量数据之间的关系情况。例如研究人员想知道两组学生的智商平均值是否有显著差异。t 检验仅可对比两组数据的差异,如果为三组或更多,则使用方差分析。如果刚好仅两组,建议样本较少(低于100时)使用t 检验,反之使用方差分析。

首先判断p值是否呈现出显著性,如果呈现出显著性,则说明两组数据具有显著性差异,具体差异可通过平均值进行对比判断。

算法学习—建模前期数据预处理和检验的方法_第3张图片

t 检验涉及以下几个关键点,分别如下:

t 检验分析X对Y的差异性;X只能分为两组;如果X为三组,比如本科以下,本科,本科以上;此时需要使用方差分析。

<3> 卡方分析:
卡方分析( 交叉表分析,列联表分析,具体为Pearson卡方 ),用于分析定类数据与定类数据之间的关系情况。例如研究人员想知道两组学生对于手机品牌的偏好差异情况。

首先判断p值是否呈现出显著性,如果呈现出显著性,则说明两组数据具有显著性差异,具体差异可通过选择百分比进行对比判断。


(3)事后多重比较

事后多重比较基于方差分析基础上进行。用于分析定类数据与定量数据之间的关系情况。例如研究人员想知道三组学生(本科以下,本科,本科以上)的智商平均值是否有显著差异。比如分析显示三组学生智商有着明显的差异,那具体是本科以下与本科这两组之间,还是本科以下与本科以上两组之间的差异;即具体两两组别之间的差异对比,则称为事后多重比较; 事后多重比较的方法有多种,系统默认使用常见的LSD事后多重比较法

如果说X仅两组,则不需要进行事后多重比较;如果方差分析显示p 值大于0.05即说明各个组别之间没有差异性,此时也不需要进行事后多重比较(如果方差分析没有呈现出显著性,但事后多重比较显示有差异性,此时建议以没有差异作为结论,因为事后多重比较的前提是方差分析呈现出显著性。)


(4)相关分析

相关分析用于研究定量数据之间的关系情况,包括是否有关系,以及关系紧密程度等.此分析方法通常用于回归分析之前;相关分析与回归分析的逻辑关系为:先有相关关系,才有可能有回归关系。

算法学习—建模前期数据预处理和检验的方法_第4张图片

相关分析是回归分析的前提条件,首先需要保证有相关关系,接着才能进行回归影响关系研究。

因为如果都显示没有相关关系,是不可能有影响关系的。如果有相关关系,但也不一定会出现回归影响关系。


你可能感兴趣的:(笔记,数据分析,大数据,美国大学生数学建模竞赛,数学建模)