方差分析

一、基本概念

方差分析(analysis of variance)用于研究一个或多个分类型自变量与一个数值型因变量的关系。
方差分析通过检验多个总体的均值是否相等来判断一个或多个分类型自变量对数值型因变量是否由显著影响。

  • 因素/因子:分类型自变量
  • 水平/处理:因素的不同表现
  • 观测值:每个因子水平下得到的样本观测值
    例如,研究行业对被投诉次数的影响,这里的行业就是因素,家电、零售、旅游等不同类别称为水评,具体样本值为观测值。

二、单因素方差分析

2.1 单因素方差分析的基本假定

当方差分析中只涉及一个分类型自变量时称为单因素方差分析。
1)对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。但是当每个水平对应的样本量较大时,对非正态性有一定容忍度。
2)因素的每一个水平,各个正态分布总体的方差σ2必须相等。当每个水平或分组对应的样本数量相等或相近时,ANOVA对方差相等的要求也不是特别敏感。
3)观测值是相互独立的。
注意:当满足假设1),那么每个水平的均值也服从正态分布,当同时满足假设2),那么在进行方差分析时,原假设各水平均值相等,等价于假设这些水平的均值来源于同一个正态分布。这是构造检验统计量的基础。

2.2 假设检验流程

  • 1)提出假设
    通过检验因素的k个水平均值是否相等,来判断自变量与因变量是否相关。
    H0: μ1=μ2=...=μi=...μk (自变量对因变量没有显著影响)
    H1: μ1,μ2,....μk不全相等。(自变量对因变量有显著影响)
  • 2)构造检验统计量
    需要构造三个误差平方和,总平方和(SST)、组间平方和(SSA)和组内平方和(SSE)。且SST=SSA+SSE。其中,组内平方和SSE体现了随机抽样因素对总方差的贡献,而组间平方和SSA体现了随机因素和不同水平对总方差的贡献。因此,如果SSA比SSE大很多,达到一定的显著性水平,可以认为因素的不同水平对因变量影响显著。
    SST:全部观测值与总均值的误差平方和,计算公式为:


    SSA:各组均值与总均值的误差平方和,反映各样本均值之间的差异程度。公式为:
    SSE:每个水平或组的样本数据与其组均值的误差平方和。公式为:
  • 3)计算统计量
    各平方误差除以它们所对应的自由度,称为均方。
    SST的自由度为n-1,其中n为全部观测值个数;
    SSA的自由度为k-1,k为因素水平的个数
    SSE的自由度为n-k。
    MST=SST/n-1;
    MSA=SSA/k-1;
    MSE=SSE/n-k;
    则F=MSA/MSE~F(k-1,n-k)分布。
  • 4)统计决策
    在给定显著性水平α下,计算F(k-1,n-k)分布的Fα,如果F>Fα,则拒绝原假设,表明自变量对因变量影响显著。
    注意:这里的假设检验是单侧检验!
  • 5)关系强度检验R2
    R2越大,表明影响越显著。

三、多因素方差分析

3.1 双因素方差分析

如果存在两个分类变量,需要分析是一个分类变量对因变量起作用,还是两个变量起作用,还是都不起作用。
(1)无交互作用或无重复双因素方差分析
两个因素是独立的,不存在联系。

  • 1)提出假设(需要分别对行因素和列因素提出假设):
    H0: μ1=μ2=...=μi=...μk (行因素自变量对因变量没有显著影响)
    H1: μ1,μ2,....μk不全相等。(行因素自变量对因变量有显著影响)
    H0: μ1=μ2=...=μi=...μr (列因素自变量对因变量没有显著影响)
    H1: μ1,μ2,....μr不全相等。(列因素自变量对因变量有显著影响)
  • 2)构造检验统计量
    总平方和SST是全部样本观测值与总样本平均值的误差平方和(自由度为kr-1):



    其中,第一项为行因素产生的误差平方和SSR(自由度为k-1):

    第二项为列因素产生的误差平方和SSC(自由度为r-1):

    第三项为随机误差平方和SSE(自由度为(k-1)*(r-1)):

    分别构造行检验和列检验的F统计量:



  • 3)统计决策
    在给定显著性水评α和两个自由度值,分别查询用于行检验和列检验F表的临界值Fα
    若FR>Fα,则拒绝原假设,认为行因素对因变量有显著影响;
    若FC>Fα,则拒绝原假设,认为列因素对因变量有显著影响。
  • 4)关系强度度量

    (2)有交互作用或可重复双因素方差分析
    1)有交互作用的方差分解组合
    两个因素不是独立的,其相互组合也会对因变量产生影响。
    分析方法与上述无交互作用方差分析类似,只不过误差分解多了一个交互作用产生的误差项。

    其中,k是行因素水平的个数,r为列因素水平的个数,m为每一个行水平和列水平所对应的观测样本的个数,n为总样本个数。
    总误差SST=SSR+SSC+SSRC+SSE。





    2)关于交互作用的理解
    如果不存在交互效应,那么总效应为每个因素效应简单的加和;或者可以说,一个因素的效应与另一个因素的效应无关。如果以因素A为横坐标,以效应或结果为纵坐标,绘制因素B不同水平的轮廓图,如下图所示。如果因素A和因素B不存在交互作用,那么轮廓图两条线应该相互平行;如果存在交互作用,那么两条线不平行。
    因素A与因素B无交互作用
    因素A与因素B有交互作用

    对于有交互作用的因素,应注意以下几点:
  • 对于有交互作用的因素,主效应不显著,不代表主因素一定与测量值无关;因为对于存在交互效应的因素,交互效应会遮蔽主效应。
  • 如果有交互作用,需要进行事后分析,比如采用Tukey检验不同条件下两两组合进行对比,分析具体哪些情况下测量值有显著不同。此时,所有的讨论要围绕事后检验测量值有显著性差异的因素进行,而单独讨论主效应没有意义。

3.2 三个及以上因素方差分析

对于三个因素的方差分析,分析方法与双因素类似,只不过交互效应种类更多,包括1个三因素交互效应,3个二因素交互效应。对于三因素交互效应,比如A×B×C,可以拆解为A×(B×C)。可见,二因素交互作用依赖于三因素交互作用。因此,在进行三因素方差分析时,应该先看是否有三因素交互作用,如果存在,按照某个因素(比如因素A)的不同取值拆分数据集,然后在不同数据集下分析二因素交互作用;如果不存在三因素交互作用,则对3个进行二因素方差分析,分别看是否有二因素交互作用。
而对于四个及以上的因素,进行方差分析时,由于因素组合太多了,导致不同分组均值差异的影响因素也太多了,能为我们提供的信息变得模糊。因此,四个因素及以上做方差分析意义不大。

四、成对样本方差分析(重复测量ANOVA)

4.1 基本原理

对于一组样本,分别在不同试验条件下得出的多组数据,在观察者多组数据平均值是否有差异时,就需要使用重复ANOVA。
相比于常规ANOVA的方差分解,重复ANOVA的组内平方和包含了个体间的差异的平方和及误差两部分,因此,在构件统计量时,组内平方和需要剔除个体间平方和。原理如下图所示。

ANOVA与重复ANOVA的比较

因此,如果成对样本得到的多组数据,仍然利用常规的ANOVA计算方法,结果倾向于不显著,也就是各组间无显著性差异。
重复ANOVA的统计量计算公式如下:

其中,s为组数,m为每组个体的数量。

4.2 基本假设条件

  • 各分组数据要近似服从正态分布,每组数据个体间要相互独立。
  • 所有条件间来自同一个体的两两数据点之差的方差要近似相等,这个条件又叫球面性。
    和正态性检验类似,有一个专门的统计学检验,称为 Mauchly 氏球面性检验(Mauchly’s Test of Sphericity),它是各大统计学软件在重复测量 ANOVA 功能中的默认标配。这个检验的原假设是「重复测量数据具有球面性」,因此当该检验的 p 值小于 0.05 时,我们认为数据违背了球面性假设; p 值大于 0.05 时,我们则认为球面性得到了满足。
    如果数据不满足球面性,那么我们需要对 F 统计量的自由度进行修正,最常用的修正方法是 Greenhouse-Geisser 校正(Greenhouse-Geisser correction)。在 SPSS 及其他统计学软件中,我们只需根据 Mauchly 氏球面性检验的结果读取相应的 F 检验结果报告即可。

五、方差分析事后检验:Tukey-Kramer检验

方差分析只能告诉我们某个因素是否对结果有显著性的影响,但不能告诉我们具体哪些水平或水平组合对结果显著,因此需要进行事后检验( post-hoc test) ,最常用的方法是Turkey-Kramer检验。
统计学中有一个描述来自同一正态总体的多组数据平均值最大与最小的两组的差值的分布,叫做学生范围分布( Studentized range distribution )。Turkey-Kramer检验依据的就是这个分布,这个分布由样本量,组数,样本的平均方差决定。给定显著性水平α,依据这个分布可以计算出一个阈值,只要被比较的两组数据的平均值之差大于这个阈值,就可以认为是显著的。这个阈值的计算公式如下:

其中,qα;k;N-k代表给定显著性水平,组数,总样本数下,通过平均值最大和最小值的两组数据计算的学生范围分布下的阈值,MSE代表样本所有数据的波动情况,ni和nj为两个样本的数据量大小。
由于Turkey-Kramer检验的阈值是利用样本中平均值差距最大的两组数据计算而来的,这个阈值对于其他两组数据的平均值差比较保守,因此Turkey-Kramer检验牺牲了一定的统计功效。
此外,对于多个实验组与对照组进行比较,可以利用Dunnett 检验。比如对于四组数据(三组试验组,一个对照组),Dunnett 检验只需要比较三次,而Turkey-Kramer检验需要比较六次, 所以Dunnett 检验为修正假阳性牺牲的统计功效更少。

六、方差分析最小样本量的确定

在功效分析中,统计功效,显著性水平,效应大小和样本量,知道其中三个,另外一个就可以唯一确定。给定方差分析的显著性水平,期望达到的统计功效和效应值,就可以确定样本量。
在方差分析中,效应值一般有两种表示形式,一种是Cohen氏 f 值:组间平方和与组内平方和比值再开方:

Cohen本人在提出f值的时候也将其大约分成了小中大三个区间,在单因素ANOVA检验中,小效应对应f值在0.1左右,中效应对应的f值在0.25左右,大效应在0.4左右。
另外一种是η2:组间平方和与总平方和比值再开方:

在重复测量ANOVA实验设计时,采用的效应值大小应该考虑个体间差异,相应的效应值Cohen氏 f 值:

你可能感兴趣的:(方差分析)