多元回归与相关------(一)多元回归

一元回归:依变数Y对一个自变数X的回归。

多元回归或复回归(multiple regression):依变数依两个或两个以上自变数的回归。

主要内容:

(1)确定各个自变数对依变数的单独效应和综合效应,建立由各个自变数描述和预测依变数反应量的多元回归方程。

(2)对上述综合效应和单独效用的显著性进行测验,并在大量自变数中选择仅对依变数有显著效用的自变数,建立最优多元回归方程

(3)评定各个自变数对依变数的相对重要性,以便研究者抓住关键,能动地调节依变数的响应量。

一、多元回归方程

(1)多元回归线性模型和多元回归方程式

依变数同时受到m个自变数X1,X2,...,Xm的影响,且这m个自变数皆与Y成线性关系,这m+1个变数的关系就形成m元线性回归:

线性模型:Y_{j}=\beta _{0}+\beta _{1}X_{1j}+\beta _{2}X_{2j}+...+\beta _{m}X_{mj}+\varepsilon _{j}     其中, \varepsilon _{j}\sim N(0,\sigma _{\varepsilon }^{2 })

则一个m元线性回归的样本观察值组为:Y_{j}=b _{0}+b _{1}x_{1j}+b _{2}x_{2j}+...+b_{m}x_{mj}+e _{j}

误差项反映了除X1,X2,...,Xm与y的线性关系之外的随机因素对y的影响,是不能由X1,X2,...,Xm与y之间的线性关系所解释的变异性。

误差项 \varepsilon 有三个基本假定:

(1)误差项 \varepsilon 是一个期望值为0的随机变量,E(\varepsilon )=0。意味着对于给定 X1,X2,...,Xm的值,y的期望值E(y )=\beta _{0}+\beta _{1}X_{1j}+\beta _{2}X_{2j}+...+\beta _{m}X_{mj}

(2)对于自变量X1,X2,...,Xm的所有值,\varepsilon 的方差\sigma ^{2} 都相同。

(3)误差项 \varepsilon 是一个服从正态分布的随机变量,且相互独立,\varepsilon _{j}\sim N(0,\sigma _{\varepsilon }^{2 })

独立性意味着自变量 X1,X2,...,Xm 的一组特定值所对应的 \varepsilon 与 X1,X2,...,Xm 任意一组其他值所对应的 \varepsilon 不相关。正态性意味着对于给定的 X1,X2,...,Xm 的值,因变量y是一个服从正态分布的随机变量。

在一个具有n组观察值的样本中,第j组观察值(j=0,1,2,...,m)可表示为(x_{1j},x_{2j},...,x_{mj},y_{j}),便是M=m+1维空间中的一个点。

一个m元线性回归方程可给定为:\hat{y}=b{} _{0}+b _{1}x_{1}+b _{2}x_{2}+...+b_{m}x_{m}

b0是x_{1},x_{2},...,x_{m}都为0时y的点估计值

b1是在x_{2},x_{3},...,x_{m}皆保持一定时,x1每增加一个单位对y的效用,称为x_{2},x_{3},...,x_{m}不变(取常量)时x1对y 的偏回归系数(partial regression coefficient)。

在多元回归系统中,b0一般很难确定其专业意义,它仅是调节回归响应面的一个统计数;bi(i=1,2,...,m)表示了各个自变数xi对依变数y的各自效应,\hat{y}是这些各自效应的集合,代表多有自变数对依变数的综合效用。

(2)多元回归统计数的计算

多元回归与相关------(一)多元回归_第1张图片

(3)多元回归方程的估计标准误(参数的最小二乘估计)

满足Q=\sum (y-\hat{y})^{2}=最小,Q叫做多元离回归平方和或多元回归剩余平方和。

因为系数b有m+1个统计数,所以自由度=n-(m+1)。多元回归的估计标准误:

             s_{y/12...m}=\sqrt{\frac{Q_{y/12...m}}{n-(m+1)}}

总平方和(SS_{y})=回归平方和(U_{y/12...m})+离回归平方和(Q_{y/12...m})

SS_{y}=Y'Y-(1'Y)^{2}/n

Q_{y/12...m}=Y'Y-b'X'Y

U_{y/12...m}=b'X'Y-(1'Y)^{2}/n=SS_{y}-Q_{y/12...m}

二、多元回归的假设测验

(1)多元回归关系的假设测验

测验m个自变数的综合对Y的效用是否显著。无效假设:\beta _{1}=\beta _{2}=...=\beta _{m}=0,备择假设:\beta _{i}不全为0

多元回归与相关------(一)多元回归_第2张图片

(2)偏回归关系的假设测验

多元回归关系的假设测验只是一个综合性的测验,它的显著表明自变数的集合和y有回归关系,并不排除个别乃至部分自变数和y没有回归关系的可能性。要准确评定各个自变数对y是否有真实回归关系,需进行偏回归系数的显著性做出假设测验。

多元回归与相关------(一)多元回归_第3张图片

多元回归与相关------(一)多元回归_第4张图片

在多元回归中的各个自变数彼此独立、完全无关时,U_{y/12...m}=\sum_{1}^{m} U_{p_{i}} 成立

当各自变数间存在相关r_{ij}\neq 0)时,U_{y/12...m}\neq \sum_{1}^{m} U_{p_{i}} ,这是由于各自变数间的相关使其对y的效应产生了混淆。

若两个自变数x_{1},x_{2} ,有显著的正相关r_{12}> 0),则x_{1}的增大对于y的效应中包含有x_{2}增大的效用,反之亦然(x_{1}的大值和x_{2}的大值相连,x_{1}的小值和x_{2}的小值相连):U_{y/12...m}>\sum_{1}^{m} U_{p_{i}}

若两个自变数x_{1},x_{2} ,有显著的负相关r_{12}< 0),则x_{1}的增大对于y的效应中包含有x_{2}减少的效用,x_{2}的增大对于y的效应中包含有x_{1}减少的效用:U_{y/12...m}< \sum_{1}^{m} U_{p_{i}}                       

三、最优多元线性回归方程的统计选择

一个实际的多变数资料,既含有对Y 有显著效用的自变数,也含有无显著效应的自变数。在偏回归关系的假设测验中,通常一些bi显著,另一些bi不显著。

多元线性回归分析中,必须剔除没有显著效用的自变数,以使所得的多元回归方程比较简化而又能较准确地分析和预测Y的反应。剔除不显著自变数的过程称为自变数的统计选择,所得的仅包含显著自变数的多元回归方程,叫做最优的(在被研究的自变数范围内)多元线性回归方程。

由于自变数间可能存在相关,当m元线性回归中不显著的自变数有几个时,并不能肯定这些自变数对Y的线性效用不显著,而只能肯定偏回归平方和最小的那一个自变数不显著。当剔除了这个不显著且偏回归平方和最小的自变数后,其余原来不显著的自变数可能变为显著,而原来显著的自变数也可能变得不显著。为了获得最优方程,回归计算要一步一步做下去,直至所有不显著的自变数皆被剔除为止。这一统计选择自变数的过程称为逐步回归(stepwise regression)

自变数统计选择的具体步骤:

(1):m个自变数的回归分析,一直进行到偏回归的假设测验。若各自变数的偏回归皆显著,则分析结束,所得方程就是最优多元回归方程;若有一个或一个以上自变数的偏回归不显著,则剔除那个偏回归平方最小的自变数(设为X_{p}),进行第二步分析。

(2):m-1个自变数的回归分析,也是一直进行到偏回归的假设测验。这一步的计算程序是将矩阵X中的Xp所占有的那一列(第p+1列)剔除,再由新 X 计算 X'X、(X'X)^{-1} 和 b 等,从而获得新的Q和U_{p_{i}}。如果这一步仍有一个以上自变数的偏回归不显著,则再将偏回归平方和最小的那个变数(设为Xq)剔除,进入第三步分析。若第一步中有二个或更多个自变数的偏回归不显著,这一步可轮流试踢,直到找到最需剔除的一个,在进入第三步。

(3)m-2个自变数的回归分析,又一直进行到偏回归的假设测验。这一步的计算是在X中剔除X_{q}所占的一行,其余过程同第二步。

如此重复进行,直至留下的所有自变数的偏回归都显著,即得最优多元线性回归方程。

四、自变数的相对重要性

最优多元线性回归方程中包含的自变数X_{i}对依变数Y有显著作用,偏回归系数b_{i}表示了X_{i}对Y的具体效应。实践中还需评定这些显著自变数的相对重要性,以利于抓住关键因素,达到调整和控制依变数反应量的目的。

偏回归系数b_{i}本身并不能反映自变数的相对重要性,原因:

(1)b_{i}带有具体单位,单位不同则无从比较

(2)即使单位相同,若X_{i}的变异度不同,也不能比较。

但若对b_{i}标准化,在分子和分母分别除以Y和X_{i}的标准差,就可消除单位和变异度不同不同的影响,获得一个表示X_{i}对Y相对重要性的统计数——通径系数(path coefficient,记作 p_{i}):

                                                  p_{i}=\frac{1/\sqrt{SS_{y}/(n-1)}}{1/\sqrt{SS_{x_{i}}/(n-1)}}  =b_{i}\sqrt{\frac{SS_{x_{i}}}{SS_{y}}}

通径系数 p_{i} 又称标准偏回归系数,统计意义:若X_{i}增加一个标准差单位,Y将增加(p_{i}> 0)或减少(p_{i}< 0p_{i}个标准差单位。

你可能感兴趣的:(统计)