方差分析
方差分析是分析试验(或观测)数据的一种统计方法。在工农业生产和科学研究中,经常要分析各种因素及因素之间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动(总变差或总方差)分解为由所考虑因素引起的波动(各因素的变差)和随机因素引起的波动(误差的变差),然后通过分析比较这些变差来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。
一、单因子方差分析
某个可控制因素A对结果的影响大小可通过如下实验来间接地反映,在其它所有可控制因素都保持不变的情况下,只让因素A变化,并观测其结果的变化,这种试验称为“单因素试验”。因素A的变化严格控制在几个不同的状态或等级上进行变化,因素A的每个状态或等级成为因素A的一个水平。若因素A设定了s个水平,则分别记为 A1,A2,…,As。
数学模型:
显著性影响问题转化为因素A不同水平下各随机变量总体的均值是否相等问题,即检验假设
是否成立 (2)
不同水平下的试验结果,i=1,2,…,s;j=1,2,…,ni;
n=n1+n2+…+ns:试验总数;
总平均:;
总变差平方和:;
组内平方和(误差平方和):,随机因素的影响;
组间平方和(因素平方和):,水平差异的影响;
H0的拒绝域为:
检验结果:
高度显著:;
显著:;
有一定影响:;
无显著影响:。
可构造方差表来完成计算:
方差来源
因素A的影响
随机因素的影响
二、双因素有交互效应的方差分析
在两个因素的试验中,不但每一个因素单独对试验结果起作用,往往两个因素的不同水平组合还会产生一定的合作效应,在方差分析中称为交互效应。交互效应在对因素方差分析中,通常是当成一个新因素来处理。
设因素A 有 r 个不同的水平:A1,A2,…,Ar;因素B 有 s 个不同的水平:B1,B2,…,Bs;现对因素A、B的每一种不同的水平组合(Ai,Bj)(i=1,2,…,r;j=1,2,…,s)都安排t(t≥2)次试验(等重复试验),且各次试验相互独立。
利用Matlab作方差分析课堂例题
例1(单因素方差分析)一位教师想要检查3种不同的教学方法的效果,为此随机地选取水平相当的15位学生。把他们分为3组,每组5人,每一组用一种方法教学,一段时间以后,这位教师给15位学生进行统考,成绩见下表1。问这3种教学方法的效果有没有显著差异。
表1 学生统考成绩表
Matlab中可用函数anova1(…)函数进行单因子方差分析。
调用格式:p=anova1(X)
含义:比较样本 m×n的矩阵X中两列或多列数据的均值。其中,每一列表示一个具有m个相互独立测量的独立样本。
返回:它返回X中所有样本取自同一总体(或者取自均值相等的不同总体)的零假设成立的概率p。
解释:若p值接近0(接近程度有解释这自己设定),则认为零假设可疑并认为至少有一个样本均值与其它样本均值存在显著差异。
Matlab程序:
Score=[75 62 71 58 73;81 85 68 92 90;73 79 60 75 81]’;
P=anova1(Score)
输出结果:方差分析表和箱形图
ANOVA Table
Source SS df MS F Prob>F
Columns 604..46674.25610.040088
Error 852.8 1271.0667
Total 1457.7333 14
由于p值小于0.05,拒绝零假设,认为3种教学方法存在显著差异。
例2(双因素方差分析)为了考察4种不同燃料与3种不同型号的推进器对火箭射程(单位:海里)的影响,做了12次试验,得数据如表2所示。
表2 燃料-推进器-射程数据表
在Matlab中利用函数 anova2函数进行双因素方差分析。
调用格式:p=anova2(X,reps)
含义:比较样本X中两列或两列以上和两行或两行以上数据的均值。不同列的数据代表因素A的变化,不同行的数据代表因素B的变化。若在每个行-列匹配点上有一个以上的观测量,则参数reps指示每个单元中观测量的个数。
返回:当 reps=1(默认值)时,anova2将两个p值返回到向量p中。
H0A:因素A的所有样本(X中的所有列样本)取自相同的总体;
H0B:因素B的所有样本(X中的所有行样本)取自相同的总体。
当reps>1时,anova2还返回第三个p值:
H0AB:因素A与因素B没有交互效应。
解释:如果任意一个p值接近于0,则认为相关的零假设不成立。
Matlab程序:
disp1=[58.2 56.2 65.3;49.1 54.1 51.6;60.1 70.9 39.2;75.8 58.2 48.7]’;
p=anova2(disp1,1)
输出结果:方差分析表
ANOVA Table
Source SS df MS F Prob>F
Columns 157.59 3 52.53 0..73875
Rows 223.84672 111.9233 0..44912
Error 731.98612 1.9967
由于燃料和推进器对应的p值均大于0.05,所以可以接受零假设H0A和H0B,认为燃料和推进器对火箭的射程没有显著影响。
例3(双因素方差分析)设火箭的射程在其它条件基本相同时与燃料种类及推进器型号有关。现在考虑4种不同的燃料及3种不同型号的推进器,对于每种搭配个发射了火箭两次,得数据见表3。问各自变量和自变量的交互效应是否对火箭的射程有显著影响?
表3 燃料-推进器-射程数据表
Matlab程序:
disp2=[58.2 52.6 49.1 42.8 60.1 58.3 75.8 71.5;56.2 41.2 54.1 50.5 70.9 73.2 58.2 51.0;65.3 60.8 51.6 48.4 39.2 40.7 48.7 41.4]’;
p=anova2(disp2,2)
输出结果:方差分析表
ANOVA Table
Source SS df MS F Prob>F
Columns 370..49049.39390.003506
Rows 261.675 387.225 4.41740.
Interaction1768..782114.92886.1511e-005
Error 236.95 1219.7458
Total 2638.2983 23
方差分析上机练习
为研究广告的效果,考察4种广告方式:当地报纸(paper)、当地广播(radio)、店内销售员(people)和店内展示(display)的效果。共设有144个销售点,每种广告随机抽取36个销售点记录销售额,分布在6个地区的144个销售点的销售情况生成的数据集ADS见下表。数据集ADS中有3个变量:AD表示广告的类型、AREA表示地区、SALES表示销售额(单位:千元)。请完成以下练习:
(1) 概括下列数据:用箱形图、条形图直观地呈现四种广告方式下销售量的分布情况;计算四种广告方式下销售量的均值、方差、标准差、最大和最小值;
(2) 进行单因素方差分析:检验四种广告方式下销售量数据是否服从正态分布,方差是否相等;检验四种广告方式下的销售量是否有显著差异();若四种广告方式下的销售量有显著差异,指出哪些类型的广告效果有显著的不同?
(3) 在设计广告效果的试验时,虽然地区差异对销售量的影响并不是我们感兴趣的,但希望排除这一因素的影响。数据集ADS记录了各个销售点所在的地区AREA。试用双因素方差分析方法分析销售数据,并指出广告方式和地区对销售量是否有显著影响()?广告方式(AD)与地区(AREA)之间有无交互效应?
表 ADS数据集中的数据
广告方式
(变量:AD)
销售额(单位:千元)(变量SALES)
当地报纸
当地广播
店内销售员
(people)
店内展示
(display)
参考答案
(1)箱形图:boxplot(ads) 结果:有异常值。(其它:略)
(2)正态性检验 Paper: Hist(X1,6)
频数直方图
分布的正态性检验: normplot(X1)
均服从正态分布。
单因素方差分析
ANOVA Table
Source SS df MS F Prob>F
Columns 5866.08333 1955.3611 13.48318.8495e-008
Error 20303.45.023
Total 26169.
P=8.8495e-008<0.01,四种广告方式下的销售量是否有显著差异。对应的箱形图为:
当地媒体和电台广播与点内展示有显著不同。
ANOVA Table
Source SS dfMS F Prob>F
Columns1444.2222 5288.8444 1.9582 0.
Rows 5866.0833 31955.3611 13.2559 1.5637e-007
Interaction1158 1577.2 0.52336 0.92341
Error 17701 .5083
Total26169.3056 143
从以上分析结果可知:
0.05
P2=1.5637e-007<0.01<0.1,无论哪种检验水平,广告方式对销售量都有显著影响;
P3=0.92341>0.1,地区和广告方式对销售量无交互效应。
猜你喜欢: