参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)
第十三章 实验设计与方差分析
统计研究分实验性研究和观测性研究。前者需要控制无关变量,通过实验产生我们需要的数据,后者往往通过抽样调查等方式获得。
本章介绍三种类型的实验设计:完全随机化设计、随机化区组设计和析因实验。
13.1 实验设计和方差分析简介
例子:供水过滤系统的部件组装方法有A、B和C。问题:哪种方法使每周产量最多。
在这个实验中,装备方法是独立变量或因子(factor)。对应三种方法,所以这个实验有三个处理,每个处理(treatment)对应一种装配方法。并且是单因子实验(single-factor experiment),因为只涉及装配方法一个因子。也可以有多因子,因子分定性和定量的。
该实验对应三个总体:三个总体分别使用A、B和C其中一种方法。每个总体的因变量或响应变量是每周装配的过滤系统的数量。
实验目的:确定三个总体的因变量是否相同。
假设我们抽取三名工人组成一个随机样本,三名工人构成实验单元,下面将使用完全随机化设计(completely randomized design),要求每种方法随机给其中一个工人,这里相当于工有种分配方法。(随机化的概念是所有实验设计的一个重要原则)
上述方法,每个装配方法只能得到一个因变量的测度,但是我们可以随机抽15个人,每种方法随机分5人。这样就得到了更多因变量的测度。这个过程叫复制。(复制的过程是实验设计的另一个重要原则。)
13.1.1 数据收集
通过收集数据得到
我们为了了解三种装配方法的总体均值是否不同,引入 、 和 分别为A、B和C三种方法每周生产数量的总体均值。
假设: : :总体均值不全相等
再使用方差分析(ANOVA)统计方法来确定三个样本均值之间的差异是否大到可以拒绝
13.1.2 方差分析的假定
应用方差分析需要三个假定:
- 对每个总体,响应变量服从正态分布。——每种装配方法每周生产的过滤系统数量服从正态分布。
- 响应变量的方差,记为,对所有总体都是相同的。——每种装配方法,每周生产的过滤系统数量的方差必须相同。
- 观测值必须是独立的。——对应每个工人每周生产的过滤系统数量与其它工人每周生产的过滤系统数量独立。
13.1.3 方差分析:概念性综述
样本均值彼此接近,则越支持,反之支持
如果原假设()成立,我们利用样本均值之间地变异性简历的一个估计。则所有样本都来自同一个总体。这些样本均值同样服从正态分布,且均值为,方差为 。
回到过滤系统的例子中,我们假设,,都来自同一个总体(样本容量相同),抽样分布的均值的估计值为:,抽样分布的方差的估计可以由三个样本均值的方差给出。
再由解得因为是用作为估计量,所以这里得也是估计量。
所得的结果称作的处理间估计。
上述都是基于为真的情形,如果为假,且均值全不相同,则三个抽样分布来自三个总体。于是会比较大,从而使得的处理间估计也变得较大。
当我们从每个总体抽取一个随机样本时,每个样本方差都给出了的一个无偏估计,我们将的个别估计组合或合并成一个总体估计。这种方法得到值称作的合并估计或处理内估计。因为这里的每个样本方差给出的的估计仅以每个样本内部的变异为依据。
的处理内估计
我们看到的处理间估计(260)远大于处理内估计(28.33),比值为9.18。
当原假设为真,处理间估计方法才是总体方差的一个好的估计量,
当原假设为假,处理间估计将高估总体方差。
不过这两种情形下,处理内估计都是总方差的一个好的估计量。因此原假设为真,两估计量接近,比值接近1;如果原假设为假,则处理间估计将大于处理内估计,比值也会比较大。
总结:
ANOVA背后的逻辑是以共同总体方差的两个独立的估计量为基础,即处理间估计和处理内估计。通过比较两个估计量,来确定总体均值是否相等。
13.2 方差分析和完全随机化实验设计
完全随机化实验设计中,如何用方差分析来检验k个总体均值是否相等:
- 一般性假设: :k个总体均值不全相等
- 为第个总体的均值,为第个总体的简单随机样本的容量,
- 样本数据代表第个处理(对应一个总体)第个观测值;代表第个样本的均值,代表第个处理的样本方差,为第个处理的样本标准差。
- 样本数据的计算
- 总体样本均值记作
- 观测中总数
- 如果每个样本容量相等,则,则
13.2.1 总体方差的处理间估计
我们称处理间估计的为均方处理(mean square due to treatments, MSTR)
式中分子称作处理平方和(sum of squares due to treatments, SSTR)。分母k-1表示与SSTR相联系的自由度。
均方处理:
若为真,则MSTR给出了的一个无偏估计。但为假时,则MSTR就不是的无偏估计,会高估总体方差
回到例子:
13.2.2 总体方差的处理内估计
对的处理内估计称作均方误差(mean square due to error,MSE)
分子称作误差平方和(sum of squares due to error,SSE)
均方误差:
我们注意到:MSE是以每个处理内部的变异性为依据,它不受原假设是否为真的影响。因此,MSE永远给出的一个无偏估计
回到例子:
13.2.3 方差估计量的比较:检验
如果原假设为真,则MSTR和MSE给出的的两个独立的无偏估计量。的两个独立的估计量纸币的抽样分布服从分布。
k个总体均值相等的检验统计量:
检验统计量服从分子自由度为k-1,分母自由度为的F分布(ANOVA的假定要得到满足)
回到生产过滤系统的例子:在的显著水平下,进行假设实验,我们计算得到,分子自由度为2,分母自由度为12.
由于我们不希望F过大,所以根据EXCEL的计算,在上述自由度下,F=9.18时,上侧面积为0.0038<0.05,因此我们拒绝 ,三个总体均值是不相等的。
当然也可以用临界值法,当时,F的临界值是3.8853<9.18。所以也拒绝
总结:
13.2.4 ANOVA表
前面的计算结果,可以使用方差分析表或ANOVA表表示出来。一个完全随机化实验设计的ANOVA表的一般形式如下:
在上面的列表中,方差来源有SSTR和SSE,他们俩的总计被称作总平方和(SST),且 ,并且自由度也是SSTR以及SSE的自由度的和。
总平方和SST的计算公式:
且:
我们可以吧SST看作“处理平方和”与“误差平方和”的和。且自由度也可由对应的SSTR和SSE的自由度加起来。
方差分析可以被看作将总平方和及其自由度分解成它们对应的来源(处理与误差)的一个过程。
13.2.5 方差分析的计算机输出结果
上图为MINITAB的计算结果,Pooled StDev是用来估计 的,右下角的区间估计,三种方法的边际误差都是一样的这里的边际误差= 。这里统一使用的误差平方和的自由度12(我也不知道为什么,我觉得好像应该用14,后面再研究)
13.2.6 k个总体均值相等的检验:一项观测性研究
例子:NCP公司对工厂员工的生产意识进行考试,共有3个工厂,每个工厂抽取6人。成绩如下:
假设: 总体均值不全相等
总结:
- 当每个样本都是n个观测值构成,则
- 当每个样本都是n个观测值构成,则
13.3 多重比较方法
方差分析只能告诉我们k个总体均值是否相等,但是具体哪些总体相等,哪些不相等,我们需要用多重比较方法在成对的总体均值之间进行统计比较。
13.3.1 Fisher的LSD方法
在方差分析钟拒绝了,在这种情况下Fisher的最小显著性差异(least significant difference,LSD)方法可以用来确定哪些均值存在差异。
Fisher的LSD方法:
检验统计量:
拒绝法则:
p-值法:如果 p-值,则拒绝
临界值法:如果 或者,则拒绝
其中是自由度为时,t分布的上侧面积为的t值。
我们令,判断总体1(方法A)和总体2(方法B)的均值是否存在差异。
经过excel计算,t=-1.19,自由度为12时,的下侧面积为0.1285,双侧加起来即为p-值=0.2571>0.05所以,我们拒绝原假设,认为方法1和方法2的均值不相等。
基于检验统计量的Fisher的LSD方法:
检验统计量:
显著水平下的拒绝法则:如果,则拒绝
其中:
在过滤系统的例子中,通过计算得到
计算后,我们可以把三个总体的样本均值计算出来,比如总体1和总体3的样本均值差为62-52=10>7.34,这就意味着我们拒绝认为总体1和总体3均值相等。
Fisher的LSD方法的两个总体均值之差的置信区间估计
其中是自由度为时,t分布的上侧面积为的t值。
如果置信区间包含数值0,则不能拒绝两个总体均值相等的原假设。如果不包含则拒绝。
13.3.2 第一类错误
Fisher的LSD方法被称为保护性或限制性LSD检验,这是因为只有当我们首先找到一个用于方差分析的显著的F值时,才能使用LSD检验。
第Ⅰ类错误概率和实验方式的第Ⅰ类错误概率
我们都是用的显著水平,对每个检验来说犯为0.05,我们把这个概率称作比较方式的第Ⅰ类错误概率,表示单个的两两比较相联系的显著性水平。
在三次检验中至少有一次犯第Ⅰ类错误的概率为,我们称这个概率为实验方式的第Ⅰ类错误概率,记作
当总体较多时,实验方式的第Ⅰ类错误概率就会比较大。
如何控制呢?-使用Bonferrani修正方法
假设我们想要检验C个成对的两两比较()
我们令,例如针对5个总体,10种比较,想让实验方式的第Ⅰ类错误概率为0.05,则
但是一类错误和二类错误是成反比的,所以如何去权衡是个问题。也有其他方法,如Turkey方法、Duncan多重区域检验等,哪种更优有争议。
13.4 随机化区组设计
有时外部因素(实验中没有考虑到的因素)引起MSE变大时,F将会变小。让我们误以为处理间没有差异,但是事实上是存在的。
本节将会介绍随机化区组设计(randomized block design)的实验设计。这个方法主要是通过消除MSE来自外部的变异,来达到控制变异外部来源的目的。
13.4.1 空中交通管理员工作压力测试
举例:探究不同工作系统是否产生不同的压力。现有3种设计方案,我们要探究不同方案之间有多大差异。
管理者希望管理员个人的变异性是MSE项的主要贡献者,将个人差异分离出来的一种办法是使用随机化区组设计。随机化区组需要管理员的一个单样本,分别在三个工作站接受检验。即工作站是影响因子,管理员是区组。(后面简称工作站为系统A、B和C)
每个个体都需要接受三次检验,检验顺序也需要是随机的。值是工作压力的度量。
13.4.2 ANOVA方法
随机化区组设计的ANOVA方法,要求我们将总平方和(SST)分解成:处理平方和(SSTR)、区组平方和(SSBL)和误差平方和(SSE)。
- k:处理的个数
- b:区组的个数
- :总样本容量
随机化区组设计,主要功能就是通过划分区组,将个人的差异从MSE中剔除。
13.4.3 计算与结论
- 代表区组中对应处理的观测值
- 代表第个处理的样本均值
- 代表第个区组的样本均值
步骤:
- 计算平方和
- 计算处理平方和
- 计算区组平方和
- 计算误差平方和
计算得到:
分子、分母对应自由度为2和10,在F=5.53时的上侧面积即p-值为0.024<0.05则我们拒绝
上述的例子是完全区组设计,即每个区组都要做k个处理。对应不完全区组设计,即某些(不是全部)处理被用于每个区组(如每个人都完成了系统A和B的检验,只有个别人完成了系统C的检验)
注释:
由于有b个区组,使得自由度减少了b-1,所以随机化区组设计的误差自由度小雨完全随机化设计的误差自由度。如果n很小,因为误差自由度的减少,区组的潜在影响可能被掩盖;当n很大时,这种影响被最小化了。
13.5 析因实验
有时,我们需要得到一个以上变量或因子的统计结论。析因实验(factorial experiment)是一种实验设计。
举例:GMAT考试(商学院研究生考试),分数在200~800之间。现在有3种GMAT辅导课程。考生本科来自3种类型的院校。对应有9种处理组合,每个处理组合容量为2,意味着有两个复制。
从种类型学校,每个学校取6人,分三组,随机分配到一个辅导课程。
我们希望得到的答案:
- 主影响(因子A):辅导课程的不同是否对GMAT成绩有影响。
- 主影响(因子B):本科院校的不同是否对GMAT成绩有影响。
- 交互影响(因子A和B):辅导课程类型的影响是否取决于本科院校。
13.5.1 ANOVA方法
两因子析因实验的ANOVA方法要求我们将总平方和(SST)分为四个部分:因子A的平方和(SSA)、因子B的平方和(SSB)、交互作用的平方和(SSAB)、误差平方和(SSE)。
- a代表因子A的水平数
- b代表因子B的水平数
- r代表复制的个数
- 观测值总数
15.5.2 计算与结论
- 对应因子A处理i和因子B的处理j的第k次重复
- 处理i(因子A)的观测值样本均值
- 处理j(因子B)的观测值样本均值
- 对应处理i(因子A)和处理j(因子B)的组合观测值样本均值
- 即个观测值的总样本均值
- 计算总平方和
- 计算因子A的平方和
- 计算因子B的平方和
- 计算交互作用的平方和
- 计算误差平方和
得到计算结果:
一般中型到大型的析因实验中涉及大量计算,需要用计算机。
综上,
- 课程(因子A)对GMAT成绩影响,差异不显著。
- 本科院校(因子B)对GMAT成绩影响,差异显著
- 最后交互影响由于p-值>0.05,即不存在显著的交互作用的影响。
链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦