[说人话的统计学·协和八]第四章·下 方差分析(ANOVA)-多组平均数的比较

注:说人话的统计学系列原连载于协和八微信公众号。本文为笔者的学习笔记,每篇文章标题已加入原文超链接。如侵权请告知。

07 没听说过多因素ANOVA?那你可就OUT了!| 协和八

多因素 ANOVA(multi-factor ANOVA)

多因素 ANOVA 顾名思义就是会同时检验多个因素对测量值的影响,多因素 ANOVA 应用非常广泛,比如研究新型药物对疾病的治愈能力往往还要考虑到患者的年龄性别等因素,研究学历对薪水的影响也要考虑到家庭背景等其它社会因素才能让结果更有说服力。

多因素 ANOVA 不仅考虑每个因素单独对要检验的量的影响,还会考虑到因素之间的交互效应
与单因素 ANOVA 一样,多因素 ANOVA 需要每个条件下的数据都服从正态分布,且不同组的数据方差相等,也就是说在我们在计算组内平方和时用到的误差项要服从正态分布。另外和之前讲过的所有检验方法一样,每一个数据样本也要相互独立。
对每个实验分组都采集了相同数量的样本,这又叫做等重复实验的方差分析( balanced design ANOVA)。

08 多因素ANOVA=好几个单因素ANOVA?可没这么简单!| 协和八

多因素 ANOVA ,可以用单独的点来表示各组的平均值,再加上误差棒,然后再用合适的标记把不同因素区分开来,被很多统计学书籍称为「轮廓图」或「剖面图」(profile plot)。我们认为,这两个中文译法并不是特别好。英文 profile 有几个不同的含义,在这里的意思更多是「主要特征」。

只需要看一下不在坐标轴上的那个因素所对应的不同水平的折线是否大致平行——如果平行,那么就很可能没有交互效应,反之则表示可能有交互效应。


[说人话的统计学·协和八]第四章·下 方差分析(ANOVA)-多组平均数的比较_第1张图片

09 两个因素相互影响,ANOVA结果该如何判读?| 协和八

[说人话的统计学·协和八]第四章·下 方差分析(ANOVA)-多组平均数的比较_第2张图片

自由度是每个因素分组的数量减去 1,比如性别共分男女两组,所以性别自由度是 1;交互效应的自由度是每个因素自由度的乘积。最后一行 residuals(残差) 指的是不能被所研究的因素解释的那部分波动性,其自由度就是总样本量 30 减去总分组数。各个因素排列组合共有 2*2=4 种情况,所以总分组数是 4,残差的自由度是 26 。

残差的总平方和就是我们之前提到的组内平方和,而其他行的总平方和就是组间平方和。平均平方和就是总平方和除以自由度,而 F 值就是某个因素的平均平方和除以残差的平均平方和。也就是说知道了自由度和总平方和,可以计算出平均平方和以及 F 值。最后知道了 F 值还要自由度,就可以计算出 p 值。在自由度不变的情况下,F 值越大,P 值越小。

做多因素 ANOVA 分析的方法

首先,需要对数据进行可视化,对可能出现的结果有一个预期,尤其要注意是否会有无序的交互作用;
然后对数据使用多因素 ANOVA 分析,如果没有交互效应,可以通过主效应判断因素是否对测量值有显著影响,如果发现有无序的交互效应, 则必须还要做事后检验,对结果的讨论也要围绕事后检验两两比较的结果进行。

10 ANOVA还能搞三四五因素?等等,我头有点儿晕…… | 协和八

三因素ANOVA

因变量必须是连续型变量(continuous variable),比如身高、体重、收入、耗费的时间、考试分数等。
自变量(也就是 ANOVA 里的三个「因素」)得是离散型变量(discrete variable,或者叫分类变量 categorical variable),比如说性别、种族、职业之类。
三个因素不同水平的组合对应于互不相同的受试者——换言之,这是一个「受试间」设计(between-subjects design)。
「受试内」设计(within-subjects design)要使用重复测量多因素 ANOVA(repeated-measures multi-factor ANOVA)。

服从正态分布
所有分组(三个因素不同水平的所有组合)内的数据(近似)服从正态分布箱线图、频率直方图、Q-Q 图 Shapiro-Wilk 检验数据变换
方差相等
Levene 氏检验

当我们使用三因素 ANOVA 时,结果要从三维交互效应看起:

如果三维交互效应显著,则要把整个数据集按照某一个因素不同取值拆开,然后在得到的多个「子数据集」(就好像上面例子中按职位分开画轮廓图一样)中做两因素ANOVA,对另两个因素的二维交互效应进行考察;

如果三维交互效应不显著,则进一步考察整个样本中三个因素两两组合得到的三个二维交互效应的显著性。同样,如果二维交互效应显著,则需要继续在一个因素不同取值下拆分数据集,分别考虑另一因素的主效应;如果二维交互效应不显著,则直接考虑整个样本中单个因素的主效应。

11 要做ANOVA,样本量多大才够用? | 协和八

样本量主要由三个因素决定:统计功效效应大小还有显著性水平。这不仅在t检验里面成立,在ANOVA里面也一样成立。
统计功效显著性水平按照惯例一般设为0.8和0.05
ANOVA的效应大小常用Cohen氏 f 值或者η2衡量

非重复测量ANOVA

[说人话的统计学·协和八]第四章·下 方差分析(ANOVA)-多组平均数的比较_第3张图片
[说人话的统计学·协和八]第四章·下 方差分析(ANOVA)-多组平均数的比较_第4张图片
[说人话的统计学·协和八]第四章·下 方差分析(ANOVA)-多组平均数的比较_第5张图片

在单因素ANOVA检验中,小效应对应f值在0.1左右,中效应对应的f值在0.25左右,大效应在0.4左右。

有了统计功效,效应大小,显著性水平三个参数的值,我们便可以用之前推荐过的免费功效分析软件GPower(或者其他具有功效分析功能或模块的统计学软件)来确定样本量。在GPower中,ANOVA与t 检验的区别主要是test family要选择f tests,在最常见的单因素ANOVA情况下statistical tests要选择ANOVA:fixed effects, omnibus, one-way

重复测量ANOVA

计算重复测量ANOVA的效应大小,我们同样也要考虑到个体间的差异。


[说人话的统计学·协和八]第四章·下 方差分析(ANOVA)-多组平均数的比较_第6张图片

对比重复测量ANOVA和不考虑重复测量结构ANOVA,我们可以看到前者得到的效应会大一些,也就是说获得同样的统计功效,前者所需要的样本数量更小。

当我们设计实验的时候,为了有更高的统计功效,减少实验所需的样本量,要尽可能地利用重复测量的设计。比如我们在研究小鼠的体重是否随年龄变化,我们需要在三个月,四个月,五个月三个时间点测量小鼠的体重。实验方案一,从同样的10只小鼠身上在这三个时间点分别获得体重数据,共需要10只鼠;实验方案二,每个时间点采集10只小鼠的数据,但是不同时间点采集的并不是同一批小鼠的体重,共需要30只鼠。方案一不仅用到的鼠的数量更少,而且得到的统计功效反而更高,所以会更优。

你可能感兴趣的:([说人话的统计学·协和八]第四章·下 方差分析(ANOVA)-多组平均数的比较)