数据分析之方差分析(ANOVA)

1、定义

方差分析是检验多个总体的均值是否相等来判断分类型自变量对数值型因变量是否有影响

名字是方差分析,其实主要是比较总体的均值,在判断均值是否有差异时要借助方差。

它的优点是可以增加分类的可靠性。如果要研究4个总体的均值那么要两两比较需要比较6次,如果每次犯第一类错误的概率都是0.05,那么随着实验次数的增多会增大犯错误的概率。一般来说,随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增大(并非均值真的存在差别),而方差分析就是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。

其实方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等从而来分析自变量是否对因变量有显著影响。
误差主要有两个来源:

  • 一是组内误差(SSE)
  • 二是组间误差(SSA)。
    组内误差就是由于随机因素造成的组内随机误差,组间误差就是不同水平之间的误差,这种误差可能是由于随机性导致的也可能是由于本身的系统性误差导致的,误差是用平方和来表示的。总的误差为SST,有SST=SSE+SSA,也就是说,如果不同水平之间没有差异,那么组间误差就应该近似等于组内误差,比值就会接近1,而如果本身存在差异那说明还存在系统误差,这样比值就会>1,比值越大说明水平之间的差异越大,这样说明自变量确实对因变量有影响。

基本假定(适用前提):

  • 每个总体应该服从正态分布
  • 各个总体的方差必须相同
  • 观测值是独立的

【注】在实际应用中,并不要求观测严格服从正态分布,如果观测近似服从正态分布,就认为其满足方差分析的正态性假设;当样本含量较大时,无论资料是否来自正态分布总体时,中心极限定理均保证了样本均数的抽样分布服从或近似服从正态分布。
通常采用方差齐性检验来判断方差齐性,如果样本含量相等或相近,即使方差不齐,方差分析仍然稳健且检验效能较好。SPSS中提供了Levene检验来判断是否方差齐性。
对于明显偏离正态性和方差齐性的资料,可采用数据变换或秩变换的非参数检验的方法。

2、分析步骤

方差分析中的误差可以拆解为两部分:SST=SSE+SSA

总平方和SST为全部观测值与总均值的误差平方和,组间平方和SSA为各组均值与总均值的误差平方和,组内平方和SSE为各组观测值与各组均值的误差平方和,用到的是F统计量。

数据分析之方差分析(ANOVA)_第1张图片参考链接:https://zhuanlan.zhihu.com/p/195690968

跟临界值比较,若计算出来的统计量的值>临界值,那么要拒绝原假设,也即不同水平之间有显著差异(差异越大值越大),否则就不拒绝原假设。

3、方差分析的分类

按照因素个数可分为:单因素方差分析双因素方差分析多因素方差分析等等。

按照不同的设计方式可分为,完全随机设计资料的方差分析随机区组设计资料的方差分析拉丁方设计资料的方差分析析因设计资料的方差分析等等

分析流程如下图所示

数据分析之方差分析(ANOVA)_第2张图片

3.1 数据类型

方差分析用于分析定类数据与定量数据之间的关系情况,可以比较2组或多组数据的差异。分析前首先应根据数据类型判断使用的方法是否正确。
数据分析之方差分析(ANOVA)_第3张图片

  • 如果X是定类数据,Y是定类数据,则应该使用卡方分析。
  • 如果X是定类数据,Y是定量数据,且X组别仅为两组,则应该使用T检验。

3.2 方差分析的类型

方差分析按照自变量个数的不同,可以分为单因素方差分析、双因素方差分析、以及多因素方差分析。

单因素方差分析,可以比较一个自变量(比如品牌);而双因素方差可以比较两个自变量(品牌和销售地区);多因素方差可比较三个及以上的自变量。

数据分析之方差分析(ANOVA)_第4张图片

单因素方差分析在问卷研究中常用于分析个人背景信息对核心研究变量的影响(比如不同性别人群对工作满意度是否有显著差异)。
同时也可用于对聚类分析效果的判断。在得到聚类类别之后,通过方差分析去对比不同类别的差异,如果全部呈现出显著性差异,以及研究人员结合专业知识可以对类别进行命名时,则说明聚类效果较好。
而双因素和多因素方差分析,可以研究多个自变量对因变量Y的交互影响。通常只有在实验研究中才会使用,一般的问卷数据很少使用。

本文将主要针对单因素方差分析说明。

3.3 正态性检验

方差分析要求Y项满足需要正态性,问卷数据很难保证数据的正态性,而正态性检验的判断标准较为严格,因为更推荐使用正态图或P-P/Q-Q图查看正态性,当数据基本满足正态性特征即可接受为正态分布。P-P图中散点近似呈现为一条对角直线,则说明数据呈现出正态分布。

如果出现数据不满足正态性的情况:
①可以进行对数处理:即对Y项进行转换,使数据呈现出正态性。但转换后的数据分析结果不好解释,若数据为问卷数据,建议考虑选择其他方法。
②使用非参数检验:如果没有呈现出正态性特质,可使用非参数检验进行分析。
③直接使用方差分析:参数检验的检验效能高于非参数检验,比如方差分析为参数检验,所以很多时候即使数据不满足正态性要求也使用方差分析。

3.4 方差齐性检验

方差齐是方差分析的前提,方差分析前一般需要对数据进行方差齐性检验。
检验结果主要关注P值,即p<0.05,代表数据呈现出显著性,说明不同组别数据波动不一致,即说明方差不齐;反之,p>0.05,说明方差齐。

不满足方差齐性的情况:
理论上讲,单因素方差分析应该首先满足方差齐性,但在实际研究过程中,较多数据出现方差不齐现象,可以将分类数据X进行重新组合,或对Y取对数等处理。

如果仍然不满足方差齐性,可使用非参数检验。

数据分析之方差分析(ANOVA)_第5张图片

另外,如果研究的分类数据为两类,可以考虑使用独立样本T检验代表方差分析,避免方差不齐无法分析的尴尬。

3.5 事后多重比较

单因素方差分析如果呈现出显著性,说明不同组别之间确实存在显著差异,但有时我们更想知道具体有哪些组是有差异的。
此时则可以使用事后多重比较(事后检验),对两两组别进行对比。
如果方差分析显示没有差异性,则不需要进行事后多重比较。

数据分析之方差分析(ANOVA)_第6张图片

以上就是方差分析的流程梳理,对于方差分析理论要求较为严格,但在实际分析中,很多时候尽管没有满足前提条件还是会使用,具体还要结合实际研究进行选择

参考链接:
1、全流程总结方差分析,只看这篇就够了
2、方差分析(SPSS版)
3、参数检验

你可能感兴趣的:(数据分析,统计学,数据分析,数据挖掘)