直线回归和相关------(六)协方差分析

一、协方差分析的意义

协方差(covariance)是两个变数的互变异数。对于一个具有N对(X,Y)的有限总体,定义:

           cov =\frac{1}{N}\sum_{1}^{N} (X_{i}-\mu _{X})(Y_{i}-\mu _{Y})

对于由n对(x,y)组成的样本,则可定义为:

           \widehat{cov} =\frac{1}{n-1}\sum_{1}^{N} (x_{i}-\bar{x})(y_{i}-\bar{y})

由上可知,样本协方差\fn_phv \widehat{cov}是乘积和与自由度的商,平均的乘积和。又称\fn_phv \widehat{cov}为均积(mean product)或协方,记作MP,是总体cov的估值。

协方差分析(analysis of variance)是将回归分析和方差分析综合起来的一种统计方法

根据变异来源可将自由度和平方和分解,称方差分析(单个变数)。

当有两个变数时,也可按照变异来源,将自由度和乘积和分解,这就是协方差分析。

由于乘积和是回归和相关分析的一个基本特征数,乘积和和平方和同时按变异来源分解,就使回归、相关分析和方差分析能够结合起来应用。

二、协方差分析的功用

(1)当(x,y)为因果关系时,可利用y依x的回归系数矫正y变数的处理平均数,提高精确度。要提高试验的精确度和灵敏度,必须严格控制试验条件的均匀性,使各处理处于尽可能一致的试验条件下。这一做法在统计上叫做试验控制。但在某些情况下,试验控制不一定能实施。在这种情况下,如果没有很好控制的因素x可以量测,而又和实验结果y存在着回归关系,那就可以利用回归,将各个y矫正到x的同样水平(x=\bar{x})的结果。这一做法在统计上叫做统计控制。统计控制作为试验控制的一种辅助手段,对于减少误差,可得到很好地效果。

(2)当(x,y)为相关关系时,可通过估计不同变异来源的总体方差和协方差,做出相应的相关分析。根据均方MS和期望均方EMS的关系,可获得不同变异来源的总体方差估值,从而进行有关遗传参数的分析。在协方差分析中,根据协方MP和期望协方EMP的关系,同样可得到不同变异来源的总体协方差估值。有了这些估值,可进行相关分析。在分析遗传育种和生态、环保等的研究中非常有用。

三、单项分组资料的协方差分析

直线回归和相关------(六)协方差分析_第1张图片

直线回归和相关------(六)协方差分析_第2张图片

(2)乘积和和自由度的分解

x,y的总自由度和平方和,可分解成组内和组间两个部分。总乘积和(SP_{T})分为组间(SP_{t})和(SP_{e})组内,分解式:

直线回归和相关------(六)协方差分析_第3张图片

直线回归和相关------(六)协方差分析_第4张图片

(3)回归关系的协方差分析

变数各自进行F测验,x显著或不显著,y不显著,这一推断未必可靠,需要弄清楚两者的是否有回归关系。如果 x,y 无关,采纳上述推断;如果 x,y 有关,必须进一步追究:将 x 的不同对于y的影响消去后[即通过y依x的回归,将 \bar{y}_{i} 矫正为 x=\bar{x} 时的值 \bar{y}_{i(x=\bar{x})}(矫正平均数) ],\bar{y}_{i(x=\bar{x})}间是否有显著差异?协方差分析可解决这些问题,步骤:

(a)列出处理间、处理内和总变异的DF、SS_{x}SS_{y} 和SP。

(b)测验x和y是否存在直线回归关系。对处理内项(误差)作回归分析,求得其离回归平方和Q_{e}和自由度 \nu_{e}=k(n-1)-1,测验H_{0}:\beta =0   对   H_{A}:\beta \neq 0若接受H_{0}:\beta =0,则表明该资料只能用y变数值作方差分析,x变数值不能提供新的信息。若否定H_{0}:\beta =0则表明x和y有着显著的回归关系,需进行下一步。

(c)测验矫正平均数\bar{y}_{i(x=\bar{x})}间的差异显著性。对总变异项作回归分析,求得其离回归平方和Q_{T}和自由度\nu_{T}=(kn-2);再由(Q_{T}-Q_{e})和(\nu_{T}-\nu_{e})=k-1即得矫正平均数\bar{y}_{i(x=\bar{x})}间的平方和和自由度,因而就能对\bar{y}_{i(x=\bar{x})}间的显著性作出F测验(这时尚未算出各个\bar{y}_{i(x=\bar{x})}的值)。

(d)如果所得的F为不显著,表明\bar{y}_{i(x=\bar{x})}间无显著差异;如果F为显著,则必须算出各个\bar{y}_{i(x=\bar{x})},进行多重比较,作出相应推断。

(e)矫正平均数\bar{y}_{i(x=\bar{x})}的计算:\hat{y}=\bar{y}+b(x-\bar{x}) 第i行的矫正平均数为:

                                                \bar{y}_{i(x=\bar{x})}=\bar{y_{i}}+b(\bar{x}-\bar{x}_{i})        (将 x 的不同对于y的影响消去)   

(f)矫正平均数的比较,假设H_{0}:\mu_{i(x=\bar{x})}=\mu_{j(x=\bar{x})}   对   H_{A}:\mu_{i(x=\bar{x})}\neq\mu_{j(x=\bar{x})}(i和j代表1,2,...,k,i\neqj),矫正平均数的差数标准误是:

直线回归和相关------(六)协方差分析_第5张图片

(3)相关关系资料的协方差分析

与回归关系资料的协方差分析不同,相关关系主要讨论两个互有联系的总体的相关问题。                     

四、两直线项分组资料的协方差分析

(1)资料模式与线性生成

若资料有m类k组,则 mk 对观察值按两个方向分类:

直线回归和相关------(六)协方差分析_第6张图片

直线回归和相关------(六)协方差分析_第7张图片

(2)乘积和和自由度的分解

总SP可分解为类间、组间和误差三部分,值为:

直线回归和相关------(六)协方差分析_第8张图片

(3)协方差分析

两项分组资料的协方差分析和单项分组资料并无原则上的不同,只是多了一个方向的变异来源。

 

你可能感兴趣的:(统计)