2020.6.29 概率统计-Task04-方差分析

方差分析

    • 一、概要
      • 1 从独立样本t检验到方差分析
      • 2 方差分析定义与分类
    • 二、单因素方差分析
      • 1 推导过程
      • 2 代码实现
    • 三、双(多因素)因素方差分析
      • 1 推导过程
      • 2 代码实现
    • 最后

概率统计的最后一节内容,有关方差分析的介绍。Datawhale的课件讲F检验的推导过程讲解的十分详细。在模型实现方面,只给出了R语言的实现途径。笔者将结合另外一个例子,介绍SPSS对于方差分析的实现过程,并对方差分析种类的介绍进行扩展,后期会补充python的实现。

一、概要

1 从独立样本t检验到方差分析

首先举个例子:

  1. 如果你的数学成绩和班里的小王差了1分,那么你和小王的分数有没有很大的差异呢?
  2. 你们班和隔壁班的数学平均成绩差了1分,那么两个班的水平有没有很大的差异呢?
  3. 你们省和隔壁省,用的一套卷子,数学平均分差了1分

因此,当总体很大的情况下,我们就需要一个固定且客观的标准用以判断两个群体的数值是否有差异,而不是主观臆断。在这一背景下,t检验被发明了出来。

2020.6.29 概率统计-Task04-方差分析_第1张图片

  • 1 + 2:单样本t检验——一批样本和一个固定的数值,其他数据也是和1比较
  • 2 + 3:独立样本t检验——独立的两批人,4 + 5也是独立样本t检验
  • 2 + 4:配对样本t检验——配对的数据,3 + 5也是独立样本t检验

但是,独立样本t检验有其局限性,每次只能确定两组是否存在差异,因此,就需要引入方差分析

2 方差分析定义与分类

方差分析(Analysis of variance, ANOVA) 主要研究分类变量作为自变量时,对因变量的影响是否是显著的。

方差分析的方法是由20世纪的统计学家Ronald Aylmer Fisher在1918年到1925年之间提出并陆续完善起来的,该方法刚开始是用于解决田间实验的数据分析问题,因此,方差分析的学习是和实验设计、实验数据的分析密不可分的。

实验设计和方差分析都有自己相应的语言。因此,在这里我们通过一个焦虑症治疗的实例,先了解一些术语,并且思考一下,方差分析主要用于解决什么样的问题。

以焦虑症治疗为例,现有两种治疗方案:认知行为疗法(CBT)和眼动脱敏再加工法(EMDR)。我们招募10位焦虑症患者作为志愿者,随机分配一半的人接受为期五周的CBT,另外一半接受为期五周的EMDR,设计方案如表1-1所示。在治疗结束时,要求每位患者都填写状态特质焦虑问卷(STAI),也就是一份焦虑度测量的自我评测报告。

表1-1 单因素组件方差分析

CBT EMDR
s1 s4
s2 s5
s3 s6

在这个实验设计中,治疗方案是两水平(CBT、EMDR)的组间因子。之所以称其为组间因子,是因为每位患者都仅被分配到一个组别中,没有患者同时接受CBT和EMDR。表中字母s代表受试者(患者)。STAI是因变量,治疗方案是自变量。由于在每种治疗方案下观测数相等,因此这种设计也称为均衡设计(balanced design);若观测数不同,则称作非均衡设计(unbalanced design)。

因为仅有一个类别型变量,表1的统计设计又称为单因素方差分析(one-way ANOVA),或进一步称为单因素组间方差分析方差分析主要通过F检验来进行效果评测,若治疗方案的F检验显著,则说明五周后两种疗法的STAI得分均值不同。

假设你只对CBT的效果感兴趣,则需将10个患者都放在CBT组中,然后在治疗五周和六个月后分别评价疗效,设计方案如表1-2所示。

表1-2 单因素组内方差分析

时间
患者 5周 6个月
s1
s2
s3
s4
s5
s6

此时,时间(time)是两水平(五周、六个月)的组内因子。因为每位患者在所有水平下都进行了测量,所以这种统计设计称单因素组内方差分析;又由于每个受试者都不止一次被测量,也称作重复测量方差分析。当时间的F检验显著时,说明患者的STAI得分均值在五周和六个月间发生了改变。

现假设你对治疗方案差异和它随时间的改变都感兴趣,则将两个设计结合起来即可:随机分配五位患者到CBT,另外五位到EMDR,在五周和六个月后分别评价他们的STAI结果(见表1-3)。

表1-3 含组间和组内因子的双因素方差分析

时间
疗法 患者 5周 6个月
CBT s1
s2
s3
EMDR s4
s5
s6

疗法(therapy)和时间(time)都作为因子时,我们既可分析疗法的影响(时间跨度上的平均)和时间的影响(疗法类型跨度上的平均),又可分析疗法和时间的交互影响。前两个称作主效应,交互部分称作交互效应

当设计包含两个甚至更多的因子时,便是因素方差分析设计,比如两因子时称作双因素方差分析,三因子时称作三因素方差分析,以此类推。若因子设计包括组内和组间因子,又称作混合模型方差分析,当前的例子就是典型的双因素混合模型方差分析。

本例中,你将做三次F检验:疗法因素一次,时间因素一次,两者交互因素一次。若疗法结果显著,说明CBT和EMDR对焦虑症的治疗效果不同;若时间结果显著,说明焦虑度从五周到六个月发生了变化;若两者交互效应显著,说明两种疗法随着时间变化对焦虑症治疗影响不同(也就是说,焦虑度从五周到六个月的改变程度在两种疗法间是不同的)。

现在,我们对上面的实验设计稍微做些扩展。众所周知,抑郁症对病症治疗有影响,而且抑郁症和焦虑症常常同时出现。即使受试者被随机分配到不同的治疗方案中,在研究开始时,两组疗法中的患者抑郁水平就可能不同,任何治疗后的差异都有可能是最初的抑郁水平不同导致的,而不是由于实验的操作问题。抑郁症也可以解释因变量的组间差异,因此它常称为混淆因素(confounding factor)。由于你对抑郁症不感兴趣,它也被称作干扰变数(nuisance variable)。

假设招募患者时使用抑郁症的自我评测报告,比如白氏抑郁症量表(BDI),记录了他们的抑郁水平,那么你可以在评测疗法类型的影响前,对任何抑郁水平的组间差异进行统计性调整。本案例中,BDI为协变量,该设计为协方差分析(ANCOVA)。

以上设计只记录了单个因变量情况(STAI),为增强研究的有效性,可以对焦虑症进行其他的测量(比如家庭评分、医师评分,以及焦虑症对日常行为的影响评价)。当因变量不止一个时,设计被称作多元方差分析(MANOVA), 若协变量也存在, 那么就叫多元协方差分析(MANCOVA)。

在此基础上,我们通过另外一个更为直观的例子来了解这些不同的种类

2020.6.29 概率统计-Task04-方差分析_第2张图片

  1. ①+⑤:单因素方差分析(One-Way Analysis of Variance,One-Way ANOVA)
  2. ①+⑤+⑦+⑨:单因素重复测量方差分析(One-Way repeated measures ANOVA)
  3. ①+②+⑤:两因素方差分析(Two-Way ANOVA)
    还可以四因素、五因素、六因素,统称为多因素方差分析(Multi-way ANOVA)
  4. ①+②+⑤+⑦+⑨:两因素重复测量方差分析(Two-Way Repeated Measures ANOVA)
  5. ①+④+⑤:协方差分析(Analysis of Covariance,ANCOVA)
    为啥①+②+⑤叫做两因素方差分析,把②换成④,就成了协方差分析呢?②是影响因素,④也是影响因素啊! 解释:因为协变量往往是和自变量有着很高相关性的变量,它并不是我们试验研究的重点,我们只是把它当作控制变量来处理
    协变量(covariate)也是自变量的一种
  6. ①+⑤+⑥:多元方差分析(Multivariate ANOVA,MANOVA)
    多因素方差分析:Multi-way
    多元方差分析:Multivariate

2020.6.29 概率统计-Task04-方差分析_第3张图片

二、单因素方差分析

1 推导过程

接下来我们使用种小麦的例子,去帮助理解方差分析里涉及的一些变量。

假设我们现在有若干品种的小麦,要在某一地区播种,我们想知道这些品种的产量有没有显著区别,为此我们先设计了一个田间实验,取一大块地将其分成形状大小都相同的 n n n小块.设供选择的品种有 k k k个,我们打算其中的 n 1 n_1 n1小块种植品种1, n 2 n_2 n2小块种植品种2,等等, n 1 + n 2 + . . . n k = n n_1 + n_2 + ... n_k = n n1+n2+...nk=n.

接下来,我们使用方差分析的方法去看不同小麦品种的产量是否有显著差异。

设问题中涉及一个因素 A A A,有 k k k个水平,如上例的 k k k个种子品种,以 Y i j Y_{ij} Yij记第 i i i个水平的第 j j j个观察值,如上例 Y i j Y_{ij} Yij是种植品种 i i i的第 j j j小块地上的亩产量。模型为
Y i j = a i + e i j , j = 1 , . . . , n i , i = 1 , . . . , k ( 2.1 ) Y_{ij} = a_i + e_{ij}, j = 1,...,n_i, i = 1,...,k\qquad(2.1) Yij=ai+eij,j=1,...,ni,i=1,...,k(2.1)
a i a_i ai表示水平 i i i的理论平均值,称为水平 i i i的效应。在小麦例子中, a i a_i ai就是品种 i i i的平均亩产量, e i j e_{ij} eij就是随机误差。并且我们假定:
E ( e i j ) = 0 , 0 < V a r ( e i j ) = σ 2 < ∞ , 一 切 e i j 独 立 同 分 布 ( 2.2 ) E(e_{ij})=0, 0E(eij)=0,0<Var(eij)=σ2<,eij(2.2)
因素 A A A的各水平的高低优劣,取决于其理论平均 a i a_{i} ai的大小。故对模型(2.1),我们头一个关心的事情,就是诸 a i a_{i} ai是否全相同。 如果是,则表示因素 A A A对所考察的指标 Y Y Y其实无影响.这时我们就说因素A的效应不显著,否则就说它显著。当然,在实际应用中,所谓“显著”,是指诸 a i a_{i} ai之间的差异要大到一定的程度.这个 “一定的程度”,是从其实用上的意义着眼,而“统计显著性”,则是与随机误差相比而言.这点在下文的讨论中会有所体现.我们把所要检验的假设写为:
H 0 : a 1 = a 2 = ⋯ = a k ( 2.3 ) H_0:a_1=a_2=\cdots=a_k \qquad (2.3) H0:a1=a2==ak(2.3)
为检验该假设,我们需要分析,为什么各个 Y i j Y_{ij} Yij会有差异?从模型(2.1)来看,无非两个原因:一是各 a i a_{i} ai可能有差异.例如,若 a 1 > a 2 a_1>a_2 a1>a2, 这就使 Y 1 j Y_{1j} Y1j倾向于大于 Y 2 j Y_{2j} Y2j;二是随机误差的存在。这一分析启发了如下的想法:找一个衡量全部 y i j y_{ij} yij的变异的量:
S S = ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y ˉ ) 2 , Y ˉ = ∑ i = 1 k ∑ j = 1 n i Y i j / n ( 2.4 ) SS= \sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y} \right )^2, \qquad \bar{Y}=\sum_{i=1}^{k}\sum_{j=1}^{n_i}Y_{ij}/n \qquad (2.4) SS=i=1kj=1ni(YijYˉ)2,Yˉ=i=1kj=1niYij/n(2.4)
S S SS SS愈大,表示 Y i j Y_{ij} Yij之间的差异越大。

接下来,把 S S SS SS分为两部分,一部分表示随机误差的影响,记为 S S e SS_e SSe;另一部分表示因素 A A A的各水平理论平均值 a i a_i ai不同带来的影响,记为 S S A SS_A SSA

关于 S S e SS_e SSe,先固定一个 i i i,此时对应的所有观测值 Y i 1 , Y i 2 , ⋯   , Y i n Y_{i1},Y_{i2},\cdots,Y_{in} Yi1,Yi2,,Yin,他们之间的差异与每个水平的理论平均值不等无关,而是取决于随机误差,反映这些观察值差异程度的量是 ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 \sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 j=1ni(YijYiˉ)2,其中
Y i ˉ = ( Y i 1 + Y i 2 + ⋯ + Y i n ) / n i , i = 1 , 2 , ⋯   , n ( 2.5 ) \bar{Y_i}=(Y_{i1}+Y_{i2}+\cdots+Y_{in})/n_i,\quad i=1, 2,\cdots,n \qquad (2.5) Yiˉ=(Yi1+Yi2++Yin)/ni,i=1,2,,n(2.5)
Y i ˉ \bar{Y_i} Yiˉ可以视为对 a i a_i ai的估计。把上述平方和做累加得:
S S e = ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 ( 2.6 ) SS_e=\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 \qquad (2.6) SSe=i=1kj=1ni(YijYiˉ)2(2.6)
可求得 S S A SS_A SSA:
S S A = S S − S S e = ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y ˉ ) 2 − ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 = ∑ i = 1 k ∑ j = 1 n i ( ( Y i j − Y i ˉ ) − ( Y i ˉ − Y ˉ ) ) 2 − ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 = ∑ i = 1 k ∑ j = 1 n i ( ( Y i j − Y i ˉ ) 2 − 2 ( Y i j − Y i ˉ ) ( Y i ˉ − Y ˉ ) + ( Y i ˉ − Y ˉ ) 2 ) − ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 = ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 − 2 ∑ i = 1 k ∑ j = 1 n i ( ( Y i j − Y i ˉ ) ( Y i ˉ − Y ˉ ) ) + ∑ i = 1 k ∑ j = 1 n i ( Y i ˉ − Y ˉ ) 2 − ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 = ∑ i = 1 k ∑ j = 1 n i ( Y i ˉ − Y ˉ ) 2 − 2 ∑ i = 1 k ( ( Y i ˉ − Y ˉ ) ∑ j = 1 n i ( Y i j − Y i ˉ ) ) ( p s : ∑ j = 1 n i ( Y i j − Y i ˉ ) = 0 ) = ∑ i = 1 k n i ( Y i ˉ − Y ˉ ) 2 ( 2.7 ) \begin{aligned} SS_A &= SS-SS_e \\ &=\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y} \right )^2-\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 \\ &=\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( (Y_{ij}-\bar{Y_i})-(\bar{Y_i}-\bar{Y}) \right )^2-\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 \\ &=\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( (Y_{ij}-\bar{Y_i})^2-2(Y_{ij}-\bar{Y_i})(\bar{Y_i}-\bar{Y})+(\bar{Y_i}-\bar{Y})^2 \right )-\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 \\ &=\sum_{i=1}^{k}\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y_i})^2 - 2\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( (Y_{ij}-\bar{Y_i})(\bar{Y_i}-\bar{Y}) \right ) +\sum_{i=1}^{k}\sum_{j=1}^{n_i}(\bar{Y_i}-\bar{Y})^2 - \sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 \\ &= \sum_{i=1}^{k}\sum_{j=1}^{n_i}(\bar{Y_i}-\bar{Y})^2 - 2\sum_{i=1}^{k}\left ( (\bar{Y_i}-\bar{Y})\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y_i}) \right ) \quad (ps:\sum_{j=1}^{n_i}(Y_{ij}-\bar{Y_i})=0) \\ &= \sum_{i=1}^{k}n_i(\bar{Y_i}-\bar{Y})^2 \qquad (2.7) \end{aligned} SSA=SSSSe=i=1kj=1ni(YijYˉ)2i=1kj=1ni(YijYiˉ)2=i=1kj=1ni((YijYiˉ)(YiˉYˉ))2i=1kj=1ni(YijYiˉ)2=i=1kj=1ni((YijYiˉ)22(YijYiˉ)(YiˉYˉ)+(YiˉYˉ)2)i=1kj=1ni(YijYiˉ)2=i=1kj=1ni(YijYiˉ)22i=1kj=1ni((YijYiˉ)(YiˉYˉ))+i=1kj=1ni(YiˉYˉ)2i=1kj=1ni(YijYiˉ)2=i=1kj=1ni(YiˉYˉ)22i=1k((YiˉYˉ)j=1ni(YijYiˉ))(ps:j=1ni(YijYiˉ)=0)=i=1kni(YiˉYˉ)2(2.7)
因为 Y i ˉ \bar{Y_i} Yiˉ可以视为对 a i a_i ai的估计, a i a_i ai的差异越大, Y i ˉ \bar{Y_i} Yiˉ之间的差异也越大,所以 S S A SS_A SSA可以用来衡量不同水平之间的差异程度。

在统计学上,通常称 S S SS SS总平方和 S S A SS_A SSA因素 A A A的平方和 S S e SS_e SSe误差平方和,分解式 S S = S S A + S S e SS=SS_A+SS_e SS=SSA+SSe为该模型的方差分析

基于上面的分析,我们可以得到假设(5.3)的一个检验方法:当比值 S S A / S S e SS_A/SS_e SSA/SSe大于某一给定界限时,否定 H 0 H_0 H0,不然就接受 H 0 H_0 H0。为了构造 F F F分布的检验统计量,我们假定随机误差 e i j e_{ij} eij满足正态分布 N ( 0 , σ 2 ) N(0, \sigma^2) N(0,σ2),同时我们也假定观察值 Y i j Y_{ij} Yij符合正态分布,此时,记
M S A = S S A / ( k − 1 ) , M S e = S S e / ( n − k ) ( 2.8 ) MS_A = SS_A/(k-1), \quad MS_e = SS_e/(n-k) \qquad (2.8) MSA=SSA/(k1),MSe=SSe/(nk)(2.8)
H 0 H_0 H0成立时,有:
M S A / M S e ∼ F k − 1 , n − k ( 2.9 ) MS_A / MS_e \sim F_{k-1, n-k} \qquad (2.9) MSA/MSeFk1,nk(2.9)
据(5.9),在给定显著性水平 α \alpha α时,即得(5.3)的假设 H 0 H_0 H0的检验如下:
当 M S A / M S e ⩽ F k − 1 , n − k ( α ) 时 , 接 受 H 0 , 不 然 就 拒 绝 H 0 ( 2.10 ) 当MS_A / MS_e \leqslant F_{k-1, n-k}(\alpha)时,接受H_0,不然就拒绝H_0 \qquad (2.10) MSA/MSeFk1,nk(α)H0H0(2.10)
M S A MS_A MSA M S e MS_e MSe分别被称为因素 A A A和随机误差的平均平方和。被除数 k − 1 k-1 k1 n − k n-k nk,分别称为这两个平方和的自由度 M S e MS_e MSe的自由度为什么是 n − k n-k nk呢?因为平方和 ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 \sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 j=1ni(YijYiˉ)2的自由度为 n i − 1 n_i-1 ni1,故对 i i i求和, S S e SS_e SSe的自由度就是 n − k n-k nk。那么, M S A MS_A MSA的自由度为什么是 k − 1 k-1 k1呢?因为一共有 k k k个平均值 a 1 , ⋯   , a k a_1,\cdots,a_k a1,,ak k − 1 k-1 k1个,故自由度为 k − 1 k-1 k1,两者自由度之和为 n − 1 n-1 n1,恰好是总平方和的自由度。

到这里,我们可以做出方差分析表如表2-1

2-1 单因素方差分析的方差分析表

项目 S S SS SS 自由度 M S MS MS F F F 显著性
A A A S S A SS_A SSA k − 1 k-1 k1 M S A MS_A MSA M S A / M S e MS_A / MS_e MSA/MSe *, **, 或无
误差 S S e SS_e SSe n − k n-k nk M S e MS_e MSe
总和 S S SS SS n − 1 n-1 n1

在上表中,对于显著性一栏,一般来说,我们把算出的 F F F比,即 M S A / M S e MS_A / MS_e MSA/MSe,与 F k − 1 , n − k ( 0.05 ) = c 1 F_{k-1, n-k}(0.05)=c_1 Fk1,nk(0.05)=c1 F k − 1 , n − k ( 0.01 ) = c 2 F_{k-1, n-k}(0.01)=c_2 Fk1,nk(0.01)=c2比较。若 M S A / M S e < c 2 MS_A / MS_eMSA/MSe<c2,用**表示,表明A因素的效应是高度显著的,即在 α = 0.01 \alpha=0.01 α=0.01的显著性水平下,拒绝原假设(5.3)。同理, c 2 < M S A / M S e < c 1 c_2c2<MSA/MSe<c1 ∗ \ast 表示, M S A / M S e > c 1 MS_A / MS_e>c_1 MSA/MSe>c1时不显著。

2 代码实现

由于目前还没有接触过R,因此这部分的坑之后再来填,给出spss的实现过程和结果

2020.6.29 概率统计-Task04-方差分析_第4张图片
2020.6.29 概率统计-Task04-方差分析_第5张图片

三、双(多因素)因素方差分析

1 推导过程

在很多种情况下,只考虑一个指标对观察值的影响,显然是不够的,这时就会用到多因素方差分析。双因素方差分析和多因素方差分析在原理上是相似的,这里为了书写简便,我们只以双因素方差分析为例进行推导。

还是以田间实验的例子帮助理解推导过程,我们设有两个因素 A , B A, B A,B,分别有 k , l k, l k,l个水平(例如 A A A为品种,有 k k k个; B B B为播种量,考虑 l l l种不同的数值,如20斤/亩,25斤/亩,……). A A A的水平 i i i B B B的水平 j j j的组合记为 ( i , j ) (i,j) (i,j),其试验结果记为 Y i j , i = 1 , ⋅ ⋅ ⋅ , k , j = 1 , … , l Y_{ij}, i = 1, · · ·, k,j = 1,…, l Yij,i=1,,k,j=1,,l.统计模型定为
Y i j = μ + a i + b j + e i j , i = 1 , ⋅ ⋅ ⋅ , k , j = 1 , ⋅ ⋅ ⋅ , l ( 3.1 ) Y_{ij} = \mu + a_i + b_j + e_{ij},i= 1, · · ·, k,j = 1,· · ·, l\qquad (3.1) Yij=μ+ai+bj+eiji=1,,k,j=1,,l(3.1)
为解释这模型,首先把右边分成两部分: e i j e_{ij} eij为随机误差,它包含了未加控制的因素( A , B A,B A,B以外的因素)及大量随机因素的影响.假定
E ( e i j ) = 0 , 0 < V a r ( e i j ) = σ 2 < ∞ , 一 切 e i j 独 立 同 分 布 ( 3.2 ) E(e_{ij})=0, 0E(eij)=0,0<Var(eij)=σ2<,eij(3.2)
另一部分 μ + a i + b j \mu + a_i + b_j μ+ai+bj,它显示水平组合 ( i , j ) (i,j) (i,j)的平均效应.它可以又分解为三部分: μ \mu μ是总平均(一切水平组合效应的平均),是一个基准. a i a_i ai表示由 A A A的水平 i i i带来的增加部分,称为因素 A A A的水平 i i i的效应. b j b_j bj有类似的解释.调整 μ \mu μ的值,我们可以补充要求:
a 1 + ⋅ ⋅ ⋅ + a k = 0 , b 1 + ⋅ ⋅ ⋅ + b l = 0 ( 3.3 ) a_1+···+a_k=0,b_1+···+b_l=0 \qquad (3.3) a1++ak=0,b1++bl=0(3.3)
如果 ( 3.3 ) (3.3) (3.3)式不成立,则分别把 μ \mu μ换为 μ + a ˉ + b ˉ \mu + \bar{a}+\bar{b} μ+aˉ+bˉ a i a_i ai换为 a i − a ˉ a_i-\bar{a} aiaˉ b j b_j bj换为 b j − b ˉ b_j-\bar{b} bjbˉ,则 ( 3.1 ) (3.1) (3.1)式不变,而 ( 3.3 ) (3.3) (3.3)式成立。

约束条件 ( 3.3 ) (3.3) (3.3)给了 a i , b j a_i,b_j aibj的意义一种更清晰的解释: a i > 0 a_i>0 ai>0 表示A的水平 i i i的效应在 A A A的全部水平的平均效应之上, a i < 0 a_i<0 ai<0 则相反。另外,这个约束条件也给了 μ , a i , b j \mu,a_i,b_j μai,bj的 一个适当的估计法:把 Y i j Y_{ij} Yij对一切 i , j i,j i,j相加.注意到 ( 3.3 ) (3.3) (3.3),有
∑ i = 1 k ∑ j = 1 l Y i j = k l μ + ∑ i = 1 k ∑ j = 1 l e i j ( 3.4 ) \sum_{i=1}^{k}\sum_{j=1}^{l}Y_{ij}= kl\mu+\sum_{i=1}^{k}\sum_{j=1}^{l}e_{ij} \qquad (3.4) i=1kj=1lYij=klμ+i=1kj=1leij(3.4)
( 3.2 ) (3.2) (3.2)得,
Y ˉ = ∑ i = 1 k ∑ j = 1 l Y i j / k l ( 3.5 ) \bar{Y}=\sum_{i=1}^{k}\sum_{j=1}^{l}Y_{ij}/kl \qquad (3.5) Yˉ=i=1kj=1lYij/kl(3.5)
μ \mu μ的一个无偏估计。其次,有
∑ j = 1 l Y i j = l μ + l a + ∑ j = 1 l e i j ( 3.6 ) \sum_{j=1}^{l}Y_{ij}=l\mu+la+\sum_{j=1}^{l}e_{ij} \qquad (3.6) j=1lYij=lμ+la+j=1leij(3.6)
于是,记
Y i ˉ = ∑ j = 1 l Y i j / l , Y j ˉ = ∑ i = 1 k Y i j / k ( 3.7 ) \bar{Y_i}=\sum_{j=1}^{l}Y_{ij}/l, \quad \bar{Y_j}=\sum_{i=1}^{k}Y_{ij}/k \qquad (3.7) Yiˉ=j=1lYij/l,Yjˉ=i=1kYij/k(3.7)
( 3.7 ) (3.7) (3.7)知, Y j ˉ \bar{Y_j} Yjˉ μ + a i \mu+a_i μ+ai的一个无偏估计。于是得到 a i a_i ai的一个无偏估计为
a i ^ = Y i ˉ − Y ˉ , i = 1 , ⋯   , k ( 3.8 ) \hat{a_i}=\bar{Y_i}-\bar{Y}, i=1,\cdots,k \qquad(3.8) ai^=YiˉYˉ,i=1,,k(3.8)
同理,
b j ^ = Y j ˉ − Y ˉ , j = 1 , ⋯   , l ( 3.9 ) \hat{b_j}=\bar{Y_j}-\bar{Y}, j=1,\cdots,l \qquad(3.9) bj^=YjˉYˉ,j=1,,l(3.9)
a i ^ , b j ^ \hat{a_i},\hat{b_j} ai^,bj^适合约束条件 ( 3.3 ) (3.3) (3.3)

下面进行方差分析,要设法把总平方和
S S = ∑ i = 1 k ∑ j = 1 l ( Y i j − Y ˉ ) 2 SS=\sum_{i=1}^{k}\sum_{j=1}^{l}(Y_{ij}-\bar{Y})^2 SS=i=1kj=1l(YijYˉ)2
分解为三部分: S S A , S S B , S S e SS_A,SS_B,SS_e SSA,SSB,SSe,分别表示因素 A , B A,B A,B和随机误差的影响。这种分解的主要目的是假设检验:
H 0 A : a 1 = ⋯ = a k = 0 ( 3.10 ) H_{0A}:a_1=\cdots=a_k=0 \qquad(3.10) H0A:a1==ak=0(3.10)

H 0 B : b 1 = ⋯ = b k = 0 ( 3.11 ) H_{0B}:b_1=\cdots=b_k=0 \qquad(3.11) H0B:b1==bk=0(3.11)
H 0 A H_0A H0A成立表示因素 A A A对指标其实无影响。在实际问题中,绝对无影响的场合少见,但如影响甚小以致被随机误差所掩盖时,这种影响事实上等于没有。因此,拿 S S A SS_A SSA S S e SS_e SSe的比作为检验统计量正符合这一想法.

接下来讲一下方差分解的小技巧:
Y i j − Y ˉ = ( Y i ˉ − Y ˉ ) + ( Y j ˉ − Y ˉ ) + ( Y i j − Y i ˉ − Y j ˉ + Y ˉ ) Y_{ij}-\bar{Y}=(\bar{Y_i}-\bar{Y}) + (\bar{Y_j}-\bar{Y})+(Y_{ij}-\bar{Y_i}-\bar{Y_j}+\bar{Y}) YijYˉ=(YiˉYˉ)+(YjˉYˉ)+(YijYiˉYjˉ+Yˉ)
两边平方,对 i , j i,j i,j求和,结合约束条件(3.3),注意到
∑ i = 1 k ( Y i ˉ − Y ˉ ) = 0 , ∑ j = 1 l ( Y j ˉ − Y ˉ ) = 0 , \sum_{i=1}^{k}(\bar{Y_{i}}-\bar{Y})=0, \sum_{j=1}^{l}(\bar{Y_{j}}-\bar{Y})=0, i=1k(YiˉYˉ)=0j=1l(YjˉYˉ)=0

∑ i = 1 k ( Y i j − Y i ˉ − Y j ˉ + Y ˉ ) = ∑ j = 1 l ( Y i j − Y i ˉ − Y j ˉ + Y ˉ ) = 0 \sum_{i=1}^{k}(Y_{ij}-\bar{Y_i}-\bar{Y_j}+\bar{Y})=\sum_{j=1}^{l}(Y_{ij}-\bar{Y_i}-\bar{Y_j}+\bar{Y})=0 i=1k(YijYiˉYjˉ+Yˉ)=j=1l(YijYiˉYjˉ+Yˉ)=0

即知所有交叉积之和皆为0,而得到
S S = l ∑ i = 1 k ( Y i ˉ − Y ˉ ) 2 + k ∑ j = 1 l ( Y j ˉ − Y ˉ ) 2 + ∑ i = 1 k ∑ j = 1 l ( Y i j − Y i ˉ − Y j ˉ + Y ˉ ) 2 = S S A + S S B + S S e ( 3.12 ) \begin{aligned} SS&=l\sum_{i=1}^{k}(\bar{Y_{i}}-\bar{Y})^2+k\sum_{j=1}^{l}(\bar{Y_{j}}-\bar{Y})^2+\sum_{i=1}^{k}\sum_{j=1}^{l}(Y_{ij}-\bar{Y_i}-\bar{Y_j}+\bar{Y})^2 \\ &=SS_A + SS_B + SS_e \qquad(3.12) \end{aligned} SS=li=1k(YiˉYˉ)2+kj=1l(YjˉYˉ)2+i=1kj=1l(YijYiˉYjˉ+Yˉ)2=SSA+SSB+SSe(3.12)

第一个平方和可以作为因素 A A A的影响的衡量,从前述 Y i ˉ − Y ˉ \bar{Y_{i}}-\bar{Y} YiˉYˉ作为 a i a_i ai的估计可以理解第二个平方和同理。至于第三个平方和可作为随机误差的影响这一点, 直接看不甚明显。可以从两个角度去理解:在 S S SS SS中去掉 S S A SS_A SSA S S B SS_B SSB后,剩余下的再没有其他系统性因素的影响,故只能作为 S S e SS_e SSe。另外,由模型 ( 3.1 ) (3.1) (3.1)及约束条件 ( 3.3 ) (3.3) (3.3),易知
Y i j − Y i ˉ − Y j ˉ + Y ˉ = ( μ + a i + b j + e i j ) − ( μ + a i + e i ˉ ) − ( μ + b j + e j ˉ ) + ( μ + e ˉ ) = e i j − e i ˉ − e j ˉ + e ˉ ( 3.13 ) \begin{aligned} Y_{ij}-\bar{Y_i}-\bar{Y_j}+\bar{Y} &= (\mu + a_i + b_j + e_{ij}) - (\mu + a_i + \bar{e_{i}}) - (\mu + b_j + \bar{e_{j}} ) + (\mu + \bar{e}) \\ &=e_{ij}-\bar{e_i}-\bar{e_j}+\bar{e} \qquad(3.13) \end{aligned} YijYiˉYjˉ+Yˉ=(μ+ai+bj+eij)(μ+ai+eiˉ)(μ+bj+ejˉ)+(μ+eˉ)=eijeiˉejˉ+eˉ(3.13)
这里面已经毫无 μ , a i , b j \mu,a_i,b_j μ,ai,bj的影响,而只含随机误差。

得到分解式 ( 3.12 ) (3.12) (3.12)后,我们就可以像单囚素情况那样,写出下面的方差分析表:
S S A , S S B SS_A , SS_B SSA,SSB 自由度分别为其水平数减去1,这一点与单因素情况相同.总和自由度为全部观察值数目 k l kl kl减去1.剩下的就是误差平方和自由度:
( k l − 1 ) − ( k − 1 ) − ( l − 1 ) = ( k − 1 ) ( l − 1 ) (kl - 1) - (k - 1) - (l - 1) = (k - 1) (l - 1) (kl1)(k1)(l1)=(k1)(l1)
表3.1 双因素方差分析表

项目 S S SS SS 自由度 M S MS MS F F F 显著性
A A A S S A SS_A SSA k − 1 k-1 k1 M S A MS_A MSA M S A / M S e MS_A / MS_e MSA/MSe *, **, 或无
B B B S S B SS_B SSB l − 1 l-1 l1 M S B MS_B MSB M S B / M S e MS_B / MS_e MSB/MSe
误差 S S e SS_e SSe ( k − 1 ) ( l − 1 ) (k - 1) (l - 1) (k1)(l1) M S e MS_e MSe
总和 S S SS SS k l − 1 kl-1 kl1

还有一点要注意:在采纳模型 ( 3.1 ) (3.1) (3.1)时,我们事实上引进了 一 种假定,即两因素 A , B A,B A,B对指标的效应是可以叠加的.换一种方式说:因素 A A A的各水平的优劣比较,与因素 B B B处在哪个水平无关,反之亦然.更一般的情况是: A , B A,B A,B两因子有“交互作用 " 。这时在模型(5.13)中,还要加上表示交互作用的项 c i j c_{ij} cij.这时不仅统计分析复杂化了,尤其是分析结果的解释也复杂化了.本文档暂不讨论这种情况。在一个特定的问题中,交互作用是否需要考虑,在很大程度上取决于问题的实际背景和经验.有时,通过试验数据的分析也可以看出一些问题。例如,若误差方差 σ 2 \sigma^2 σ2的估计 M S e MS_e MSe反常地大,则有可能是由于交互作用所致.因为可以证明:若交互作用确实存在而未加考虑,则它的影响进入随机误差而增大了 M S e MS_e MSe

2 代码实现

由于目前还没有接触过R,因此这部分的坑之后再来填,给出spss的实现过程和结果

2020.6.29 概率统计-Task04-方差分析_第6张图片


最后

第一次参与了DW的组队学习,我觉得非常好,但是发现了自己理论和实践上都存在很大程度的不足,最近正好期末考试了,不能全身心投入学习和充电的工作,希望未来可以进一步完善自己该部分的内容,感谢组织!

你可能感兴趣的:(概率论与数理统计,DW组队学习,数据分析,统计学)