浅谈共线性的产生以及解决方法(上篇——前世)

标题:浅谈共线性的产生以及解决方法(上篇——前世)

1. 多元线性回归模型

在线性相关条件下,两个或两个以上解释变量对一个被解释变量的数量变化关系,称之为多元线性回归分析,由多元线性回归分析得到的数学表达式称为多元线性回归模型。
一般我们认为,多元线性回归问题中涉及的数据由被解释变量Y和p个解释变量 x 1 x_{1} x1, x 2 x_2 x2, x 3 x_3 x3,…, x p x_p xp的n次观测组成,如下表所示:
浅谈共线性的产生以及解决方法(上篇——前世)_第1张图片 多元线性回归模型的一般形式为:y= β 0 β_0 β0+ β 1 β_1 β1 x 1 x_1 x1+ β 2 β_2 β2 x 2 x_2 x2+⋯+ β p β_p βp x p x_p xp+ε(其中ε为随机误差项,设定E(ε)=0, V a r ( ε ) = σ 2 Var(ε)=σ^2 Var(ε)=σ2 β 1 β_1 β1 β 2 β_2 β2,…, β p β_p βp为回归系数,在回归系数估计时采用最小二乘估计方法 β 0 β_0 β0为常数)。
基本假定1 自变量 x 1 x_{1} x1, x 2 x_2 x2, x 3 x_3 x3,…, x p x_p xp是确定性变量,不是随机变量,又有设计矩阵是满秩。
基本假定2 满足高斯—马尔科夫条件,即浅谈共线性的产生以及解决方法(上篇——前世)_第2张图片
基本假定3 随机误差项服从正态分布,即在这里插入图片描述

1.1 最小二乘估计

在多元线性回归模型中,我们通常使用最小二乘估计法来估计回归系数,得到回归系数的估计向量 β ^ = \hat{β}= β^=( β ^ 0 \hat{β}_0 β^0 β ^ 1 \hat{β}_1 β^1,…, β ^ p \hat{β}_p β^p), y ^ i \hat{y}_i y^i为回归值或者拟合值。
基本思想:要求实际观测( x i x_i xi, y i y_i yi)与直线上的点( x i x_i xi, y ^ i \hat{y}_i y^i)的偏离越小越好。

2. 多重共线性产生的原因及对模型的影响

解释变量之间完全不相关的情况在科技、经济、社会不断发展壮大的进程中是很难遇到的,因为涉及的自变量越多,我们很难判断这些自变量之间相关与否,而且它们对研究对象有显著影响。这样的一组解释变量有很大可能性是找不到的。客观的说,当研究的问题涉及多个影响因素时,这多个因素之间或弱或强都有一定的相关性。当相关性较弱时,一般认为符合多元回归线性模型设计矩阵的基本假设;当有较强相关性时,就认为是一种违背多元线性回归模型基本假设的情形。
如果这种共线性问题得不到缓解,训练模型得到的模型可能令人费解,参数估计的效应会由模型中的其他变量而导致其他自变量的参数改变,甚至符号改变。因此我们在做分析时,了解自变量间的关系非常重要。

2.1 什么是共线性

假如存在不全为0的p+1个数 c 1 c_{1} c1, c 2 c_2 c2, c 3 c_3 c3,…, c p c_p cp,使得
在这里插入图片描述
则自变量 x 1 x_{1} x1, x 2 x_2 x2, x 3 x_3 x3,…, x p x_p xp之间存在着精确共线性。但在实际遇到的问题中,精确共线性是偶然事件。通常情况下,我们遇到的是在这里插入图片描述当自变量 x 1 x_{1} x1, x 2 x_2 x2, x 3 x_3 x3,…, x p x_p xp符合上述的数学关系时,我们称自变量之间存在着多重共线性,存在一个常用但不完全合适的共线性程度度量指标,是样本自变量之间的相关系数的平方,精确共线性对应的相关系数的平方等于1,非共线性对应的相关系数的平方等于0,近似共线性的相关系数平方介于0和1之间,值越大,表明两个变量间近似共线性程度越大
设因变量y的相关系数矩阵R= X ′ {X}' XX的特征根为 λ 1 λ_1 λ1 λ 2 λ_2 λ2≥⋯≥ λ p λ_p λp>0,又知 ∑ j = 1 p λ j = p \sum_{ {j=1}}^{p}λ_j=p j=1pλj=p
λ j λ_j λj均非负,因此当某些 λ j λ_j λj较大时,肯定会导致有一些 λ j λ_j λj较小,但是其倒数必然很大。因此当 x 1 x_{1} x1, x 2 x_2 x2, x 3 x_3 x3,…, x p x_p xp存在多重共线性时, λ 1 λ_1 λ1的值将变得较大,而 λ p λ_p λp的值就会变得较小,虽然我们利用最小二乘估计方法得到的是β的无偏估计值,但是从均方误差的意义上看, β ^ \hat{β} β^并不是β的最优估计。
利用最小二乘法估计值 β ^ \hat{β} β^的均方误差为:
浅谈共线性的产生以及解决方法(上篇——前世)_第3张图片
若记 ∥ β ^ − β ∥ = ( β ^ − β ) ′ ( β ^ − β ) \left \|\hat{\beta }-\beta \right \|=\sqrt{ {({\hat{\beta}}-\beta)}'(\hat{\beta}-\beta)} β^β=(β^β)(β^β) 为向量 β ^ − β \hat{\beta}-\beta β^β的长度,从向量 β ^ − β \hat{\beta}-\beta β^β长度平方的期望值和方差上可以看出它们都依赖特征根,所以 x 1 x_{1} x1, x 2 x_2 x2, x 3 x_3 x3,…, x p x_p xp存在多重共线性时,虽然用普通最小二乘估计能够得到回归参数的无偏估计值,但向量 β ^ − β \hat{\beta}-\beta β^β的长度的均值将变得很大,其波动程度也会变大,这样会导致回归系数的置信区间变宽,从而使得估计值不准确,模型的准确度也会严重下降,进而致使在回归方程整体高度显著时,一些回归系数通不过显著性检验,回归系数的正负号也有可能出现倒置,使得不能正确解释自变量对因变量的影响程度,甚至导致估计量的实际意义无法解释
因此如自变量之间的共线性诊断和削弱是做模型训练中不可或缺的一个过程。

你可能感兴趣的:(数据分析,共线性,数据挖掘,机器学习)