[统计学教程] 第八章 方差分析与相关分析

导读:
  

第八章  方差分析与相关分析


 


一.方差分析


1.基本概念


方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。


方差分析,又称为ANOVA(Analysis Of Variance)分析。


方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。


 


考察下列例子:


    某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单位:万盒),试分析包装颜色对于销售量是否有影响。




市场


红色


绿色


黄色


蓝色


北京


26.5


31.2


27.9


30.8


上海


28.7


28.3


25.1


29.6


广州


25.1


30.8


28.5


32.4


武汉


29.1


27.9


24.2


31.7


西安


27.2


29.6


26.5


32.8


 


观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。如果不显著,则这种平均值的差异属于偶然差异。


 




市场


红色


绿色


黄色


蓝色


北京


26.5


31.2


27.9


30.8


上海


28.7


28.3


25.1


29.6


广州


25.1


30.8


28.5


32.4


武汉


29.1


27.9


24.2


31.7


西安


27.2


29.6


26.5


32.8


平均


27.32


29.56


26.44


31.46


 


2.方差分析原理


计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。


l         建立原假设“H0:各组平均数相等”


l         构造统计量“F=组间方差/组内方差”


l         在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。


l         F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。


l         查表,若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。


 





根据方差计算的原理,生成方差分析表如下:


其中:


    组间离差平方和 SSA (Sum of Squares for factor A) =39.084


    误差项离差平方和  SSE (Sum of Squares for Error) =76.8455


    总离差平方和  SST (Sum of Squares for Total)=115.9295


    P-value值为0.000466,小于0.05,所以拒绝原假设。


    F-crit是指0.05的边界值。


 



差异源


SS


df


MS


F


P-value


F crit


组间


76.8455


3


25.61517


10.4862


0.000466


3.238867


组内


39.084


16


2.44275


 


 


 


总计


115.9295


19


 


 


 


 


 


3.双因素方差分析


观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。


此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。


其中SSE的自由度为  (n-r-k)


 



 


包装方式(因素A)


包装A


包装B


包装C


包装D


包装E


销售地区(因素B)


地区1


20


12


20


10


14


地区2


22


10


20


12


6


地区3


24


14


18


18


10


地区4


16


4


8


6


18


地区5


26


22


16


20


10


 


    计算方差分析表如下:


其中:


行差异(地区因素)对于销售无显著影响;



    列差异(包装因素)对于销售有显著影响。


   


    误差项SSE=SST-SSA-SSB


 



差异源


SS


df


MS


F


P-value


F crit



199.36


4


49.84


2.303142


0.103195


3.006917



335.36


4


83.84


3.874307


0.021886


3.006917


误差


346.24


16


21.64


 


 


 


总计


880.96


24


 


 


 


 


 


二.相关分析


1.基本概念


相关关系:变量间非确定性的相互关联关系。表现为延着一条曲线两侧的一排点。


函数关系:变量间确定性的相互关联关系。表现为曲线上的点。


相关系数:Coefficient of correlation



观察下列数据:人均国民收入与人均消费金额之间存在着线性相关关系。


计算:r=0.9987,即人均国民收入与人均消费金额之间存在着强相关关系。


 



年份


人均国民收入


人均消费金额


年份


人均国民收入


人均消费金额


1981


393.8


249


1988


1068.8


643


1982


419.14


267


1989


1169.2


699


1983


460.86


289


1990


1250.7


713


1984


544.11


329


1991


1429.5


803


1985


668.29


406


1992


1725.9


947


1986


737.73


451


1993


2099.5


1148


1987


859.97


513


 


 


 


 


2.相关关系的检验:


相关系数接近1的程度除受相关性影响外,还受数据量n的影响。在n=2时,相关系数确定为1。在相关程度相同的情况下,N越大,相关系数越小。


因此,在计算相关系数时,需要进行相关系数的检验,当r>临界值时,方可判断变量间存在相关关系。


相关系数只反映变量间的线性相关关系,当变量存在非线性的相关关系时,相关系数无法进行反映。


 


相关分析的临界值表



n-2


0.05


0.01


n-2


0.05


0.01


n-2


0.05


0.01


1


0.997


1.000


16


0.468


0.590


35


0.325


0.418


2


0.950


0.990


17


0.456


0.575


40


0.304


0.393


3


0.878


0.959


18


0.444


0.561


45


0.288


0.372


4


0.811


0.917


19


0.433


0.549


50


0.273


0.354


5


0.754


0.874


20


0.423


0.537


60


0.250


0.325


6


0.707


0.834


21


0.413


0.526


70


0.232


0.302


7


0.666


0.798


22


0.404


0.515


80


0.217


0.283


8


0.632


0.765


23


0.396


0.505


90


0.205


0.267


9


0.602


0.735


24


0.388


0.496


100


0.195


0.254


10


0.576


0.708


25


0.381


0.487


125


0.174


0.228


11


0.553


0.684


26


0.374


0.478


150


0.159


0.208


12


0.532


0.661


27


0.367


0.470


200


0.138


0.181


13


0.514


0.641


28


0.361


0.463


300


0.113


0.148


14


0.497


0.623


29


0.355


0.456


400


0.098


0.128


15


0.482


0.606


30


0.349


0.449


1000


0.062


0.081


 


3.等级相关


相关系数衡量两个定距以上样本的相关关系,但对于定序尺度,无法进行计算。


等级相关用于两个定序尺度测量的样本间相关程度的测定。


将两个样本按观察数据的顺序进行配对,分别计算每个数据的秩,将两组样本的秩分别记录为U和V。


如果两个测度完全一致,则U与V的差异应当为0。


计算D=U-V的平方和,该值越大,表明相关性越差。


如下计算斯皮尔曼等级相关系数(Spearman coefficient of rank correlation)



考虑一个两评委对歌手打分的问题,分别按歌手得分的顺序计算U和V,计算R=0.3212。


 



参赛歌手编号


得分U


得分V


D=U-V


D×D


1


1


5


4


16


2


2


3


1


1


3


5


9


4


16


4


9


6


3


9


5


4


8


4


16


6


6


4


2


4


7


3


2


1


1


8


7


1


6


36


9


10


7


3


9


10


8


10


2


4


合计


 


 


 


112


 

你可能感兴趣的:(学习进行时...)