第八章 方差分析与相关分析
一.方差分析
1.基本概念
方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。
方差分析,又称为ANOVA(Analysis Of Variance)分析。
方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。
考察下列例子:
某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单位:万盒),试分析包装颜色对于销售量是否有影响。
市场 |
红色 |
绿色 |
黄色 |
蓝色 |
北京 |
26.5 |
31.2 |
27.9 |
30.8 |
上海 |
28.7 |
28.3 |
25.1 |
29.6 |
广州 |
25.1 |
30.8 |
28.5 |
32.4 |
武汉 |
29.1 |
27.9 |
24.2 |
31.7 |
西安 |
27.2 |
29.6 |
26.5 |
32.8 |
观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。如果不显著,则这种平均值的差异属于偶然差异。
市场 |
红色 |
绿色 |
黄色 |
蓝色 |
北京 |
26.5 |
31.2 |
27.9 |
30.8 |
上海 |
28.7 |
28.3 |
25.1 |
29.6 |
广州 |
25.1 |
30.8 |
28.5 |
32.4 |
武汉 |
29.1 |
27.9 |
24.2 |
31.7 |
西安 |
27.2 |
29.6 |
26.5 |
32.8 |
平均 |
27.32 |
29.56 |
26.44 |
31.46 |
2.方差分析原理
计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。
l 建立原假设“H0:各组平均数相等”
l 构造统计量“F=组间方差/组内方差”
l 在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。
l F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。
l 查表,若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。
根据方差计算的原理,生成方差分析表如下:
其中:
组间离差平方和 SSA (Sum of Squares for factor A) =39.084
误差项离差平方和 SSE (Sum of Squares for Error) =76.8455
总离差平方和 SST (Sum of Squares for Total)=115.9295
P-value值为0.000466,小于0.05,所以拒绝原假设。
F-crit是指0.05的边界值。
差异源 |
SS |
df |
MS |
F |
P-value |
F crit |
组间 |
76.8455 |
3 |
25.61517 |
10.4862 |
0.000466 |
3.238867 |
组内 |
39.084 |
16 |
2.44275 |
|
|
|
总计 |
115.9295 |
19 |
|
|
|
|
3.双因素方差分析
观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。
此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。
其中SSE的自由度为 (n-r-k)
|
包装方式(因素A) |
|||||
包装A |
包装B |
包装C |
包装D |
包装E |
||
销售地区(因素B) |
地区1 |
20 |
12 |
20 |
10 |
14 |
地区2 |
22 |
10 |
20 |
12 |
6 |
|
地区3 |
24 |
14 |
18 |
18 |
10 |
|
地区4 |
16 |
4 |
8 |
6 |
18 |
|
地区5 |
26 |
22 |
16 |
20 |
10 |
计算方差分析表如下:
其中:
行差异(地区因素)对于销售无显著影响;
列差异(包装因素)对于销售有显著影响。
误差项SSE=SST-SSA-SSB
差异源 |
SS |
df |
MS |
F |
P-value |
F crit |
行 |
199.36 |
4 |
49.84 |
2.303142 |
0.103195 |
3.006917 |
列 |
335.36 |
4 |
83.84 |
3.874307 |
0.021886 |
3.006917 |
误差 |
346.24 |
16 |
21.64 |
|
|
|
总计 |
880.96 |
24 |
|
|
|
|
二.相关分析
1.基本概念
相关关系:变量间非确定性的相互关联关系。表现为延着一条曲线两侧的一排点。
函数关系:变量间确定性的相互关联关系。表现为曲线上的点。
相关系数:Coefficient of correlation
观察下列数据:人均国民收入与人均消费金额之间存在着线性相关关系。
计算:r=0.9987,即人均国民收入与人均消费金额之间存在着强相关关系。
年份 |
人均国民收入 |
人均消费金额 |
年份 |
人均国民收入 |
人均消费金额 |
1981 |
393.8 |
249 |
1988 |
1068.8 |
643 |
1982 |
419.14 |
267 |
1989 |
1169.2 |
699 |
1983 |
460.86 |
289 |
1990 |
1250.7 |
713 |
1984 |
544.11 |
329 |
1991 |
1429.5 |
803 |
1985 |
668.29 |
406 |
1992 |
1725.9 |
947 |
1986 |
737.73 |
451 |
1993 |
2099.5 |
1148 |
1987 |
859.97 |
513 |
|
|
|
2.相关关系的检验:
相关系数接近1的程度除受相关性影响外,还受数据量n的影响。在n=2时,相关系数确定为1。在相关程度相同的情况下,N越大,相关系数越小。
因此,在计算相关系数时,需要进行相关系数的检验,当r>临界值时,方可判断变量间存在相关关系。
相关系数只反映变量间的线性相关关系,当变量存在非线性的相关关系时,相关系数无法进行反映。
相关分析的临界值表
n-2 |
0.05 |
0.01 |
n-2 |
0.05 |
0.01 |
n-2 |
0.05 |
0.01 |
1 |
0.997 |
1.000 |
16 |
0.468 |
0.590 |
35 |
0.325 |
0.418 |
2 |
0.950 |
0.990 |
17 |
0.456 |
0.575 |
40 |
0.304 |
0.393 |
3 |
0.878 |
0.959 |
18 |
0.444 |
0.561 |
45 |
0.288 |
0.372 |
4 |
0.811 |
0.917 |
19 |
0.433 |
0.549 |
50 |
0.273 |
0.354 |
5 |
0.754 |
0.874 |
20 |
0.423 |
0.537 |
60 |
0.250 |
0.325 |
6 |
0.707 |
0.834 |
21 |
0.413 |
0.526 |
70 |
0.232 |
0.302 |
7 |
0.666 |
0.798 |
22 |
0.404 |
0.515 |
80 |
0.217 |
0.283 |
8 |
0.632 |
0.765 |
23 |
0.396 |
0.505 |
90 |
0.205 |
0.267 |
9 |
0.602 |
0.735 |
24 |
0.388 |
0.496 |
100 |
0.195 |
0.254 |
10 |
0.576 |
0.708 |
25 |
0.381 |
0.487 |
125 |
0.174 |
0.228 |
11 |
0.553 |
0.684 |
26 |
0.374 |
0.478 |
150 |
0.159 |
0.208 |
12 |
0.532 |
0.661 |
27 |
0.367 |
0.470 |
200 |
0.138 |
0.181 |
13 |
0.514 |
0.641 |
28 |
0.361 |
0.463 |
300 |
0.113 |
0.148 |
14 |
0.497 |
0.623 |
29 |
0.355 |
0.456 |
400 |
0.098 |
0.128 |
15 |
0.482 |
0.606 |
30 |
0.349 |
0.449 |
1000 |
0.062 |
0.081 |
3.等级相关
相关系数衡量两个定距以上样本的相关关系,但对于定序尺度,无法进行计算。
等级相关用于两个定序尺度测量的样本间相关程度的测定。
将两个样本按观察数据的顺序进行配对,分别计算每个数据的秩,将两组样本的秩分别记录为U和V。
如果两个测度完全一致,则U与V的差异应当为0。
计算D=U-V的平方和,该值越大,表明相关性越差。
如下计算斯皮尔曼等级相关系数(Spearman coefficient of rank correlation)
考虑一个两评委对歌手打分的问题,分别按歌手得分的顺序计算U和V,计算R=0.3212。
参赛歌手编号 |
得分U |
得分V |
D=U-V |
D×D |
1 |
1 |
5 |
-4 |
16 |
2 |
2 |
3 |
-1 |
1 |
3 |
5 |
9 |
-4 |
16 |
4 |
9 |
6 |
3 |
9 |
5 |
4 |
8 |
-4 |
16 |
6 |
6 |
4 |
2 |
4 |
7 |
3 |
2 |
1 |
1 |
8 |
7 |
1 |
6 |
36 |
9 |
10 |
7 |
3 |
9 |
10 |
8 |
10 |
-2 |
4 |
合计 |
|
|
|
112 |