R语言学习笔记_06

方差分析

以焦虑症治疗为例,现有两种治疗方案:认知行为疗法(CBT)和眼动脱敏再加工法(EMDR)。我们招募10位焦虑症患者作为志愿者,随机分配一半的人接受为期五周/六个月的CBT,另外一半接受为期五周/六个月的EMDR。在治疗结束时,要求每位患者都填写状态特质焦虑问卷(STAI),也就是一份焦虑度测量的自我评测报告。方差分析主要通过F检验来进行效果评测。现假设你对治疗方案差异和它随时间的改变都感兴趣,则将两个设计结合起来即可:随机分配五位患者到CBT,另外五位到EMDR,在五周和六个月后分别评价他们的STAI结果

一些常用术语

STAI是因变量,治疗方案是自变量;由于在每种治疗方案下观测数相等,因此这种设计也称为均衡设计;若观测数不同,则称作非均衡设计;现在假设我们只关注治疗方案的效果,这就是典型的单因素方差分析;另一种假设是你只对CBT的效果感兴趣,则需将10个患者都放在CBT组中,然后在治疗五周和六个月后分别评价疗效,此时,时间(time)是两水平(五周、六个月)的组内因子。因为每位患者在所有水平下都进行了测量,所以这种统计设计称单因素组内方差分析;又由于每个受试者都不止一次被测量,也称作重复测量方差分析;假设你对治疗方案差异和它随时间的改变都感兴趣,则将两个设计结合起来即可:随机分配五位患者到CBT,另外五位分配到EMDR,在五周和六个月后分别评价他们的STAI结果,这就是双因素方差分析;在这里疗法和时间都作为因子时,我们既可分析疗法的影响(时间跨度上的平均)和时间的影响(疗法类型跨度上的平均),又可分析疗法和时间的交互影响。前两个称作主效应,交互部分称作交互效应。若因子设计包括组内和组间因子,又称作混合模型方差分析

本例中,你将做三次F检验:疗法因素一次,时间因素一次,两者交互因素一次。若疗法结果显著,说明CBT和EMDR对焦虑症的治疗效果不同;若时间结果显著,说明焦虑度从五周到六个月发生了变化;若两者交互效应显著,说明两种疗法随着时间变化对焦虑症治疗影响不同(也就是说,焦虑度从五周到六个月的改变程度在两种疗法间是不同的)。

现在,我们对上面的实验设计稍微做些扩展。众所周知,抑郁症对病症治疗有影响,而且抑郁症和焦虑症常常同时出现。即使受试者被随机分配到不同的治疗方案中,在研究开始时,两组疗法中的患者抑郁水平就可能不同,任何治疗后的差异都有可能是最初的抑郁水平不同导致的,而不是由于实验的操作问题。抑郁症也可以解释因变量的组间差异,因此它常称为混淆因素。由于你对抑郁症不感兴趣,它也被称作干扰变数

假设招募患者时使用抑郁症的自我评测报告,比如白氏抑郁症量表(BDI),记录了他们的抑郁水平,那么你可以在评测疗法类型的影响前,对任何抑郁水平的组间差异进行统计性调整。本案例中,BDI为协变量,该设计为协方差分析(ANCOVA)

以上设计只记录了单个因变量情况(STAI),为增强研究的有效性,可以对焦虑症进行其他的测量(比如家庭评分、医师评分,以及焦虑症对日常行为的影响评价)。当因变量不止一个时,设计被称作多元方差分析(MANOVA), 若协变量也存在, 那么就叫多元协方差分析(MANCOVA)

当前的例子就是典型的双因素(治疗方案/时间)混合模型(组内/组间)方差分析

常见研究设计的表达式,小写字母表示定量变量,大写字母表示组别因子

样本大小越不平衡,效应项的顺序对结果的影响越大。一般来说,越基础性的效应越需要放在表达式前面。具体来讲,首先是协变量,然后是主效应,接着是双因素的交互项,再接着是三因素的交互项,以此类推。对于主效应,越基础性的变量越应放在表达式前面。有一个基本的准则:若研究设计不是正交的(也就是说,因子和/或协变量相关),一定要谨慎设置效应的顺序。

单因素方差分析

单因素方差分析中,你感兴趣的是比较分类因子定义的两个或多个组别中的因变量均值。
使用场景:

  • 因素(自变量)A:定类数据(分类因素),可以是二分类也可以是多分类
  • 因变量y:定量数据,连续的等距或等比数据,且数据无界
fit <- aov(y ~ A)
评估检验的假设条件

正态性检验,方差齐性检验

# 正态性检验
shapiro.test(x)

# 方差齐性检验
bartlett.test(y~ A, data=data)
多重比较

虽然ANOVA可以表明组件差异是否显著,但是并没有告诉你具体哪两组之间存在不同。多重比较可以解决这个问题。例如,TukeyHSD()函数提供了对各组均值差异的成对检验

TukeyHSD(fit)

单因素协方差分析

单因素协方差分析(ANCOVA)扩展了单因素方差分析(ANOVA),包含一个或多个定量的协变量。在我们的研究中经常会出现除了关注的自变量和因变量,还有一些其他的因素也会影响因变量,但我们又不想考虑他们,这个时候就需要借助协方差分析了。

使用场景:

  • 因素(自变量)A:定类数据(分类因素),可以是二分类也可以是多分类
  • 协变量x:定量数据,连续的等距或等比数据,且数据无界
  • 因变量y:定量数据,连续的等距或等比数据,且数据无界
fit <- aov(y ~ x + A)

# 使用effects包查看调整的组均值,即去除协变量效应后的组均值
library(effects)
effect("A", fit)

双因素方差分析

在双因素方差分析中,受试者被分配到两因子的交叉类别组中。

使用场景:

  • 因素(自变量)B:定类数据(分类因素),可以是二分类也可以是多分类
  • 因素(自变量)A:定类数据(分类因素),可以是二分类也可以是多分类
  • 因变量y:定量数据,连续的等距或等比数据,且数据无界
fit <- aov(y ~ A*B)

重复测量方差分析

所谓重复测量方差分析,即受试者被测量不止一次。

多元方差分析

当因变量(结果变量)不止一个时,可用多元方差分析(MANOVA)对它们同时进行分析。

摘抄自R语言实战(第二版)

你可能感兴趣的:(R语言学习笔记_06)