线性回归中的共线性问题

转自:知乎 https://zhuanlan.zhihu.com/p/22907932

突然想到,在实际情况中,对于回归模型

不难保证每维特征的独立性,特征之间难免会存在共线性关系,而线性回归中通常采用的最小二乘法是一种无偏估计,会对结果造成偏差

在消除多重共线性的问题的时候,可以利用相关系数矩阵和方差扩大因子来进行识别,可以使用主成分分析(pca)和岭回归(ridge)来对多重共线性的问题进行减弱或者消除。

1. 多元回归的基本假定:

第一:对于扰动项的假设为正态性,零均值,同方差,相互独立

第二:对自变量的假定,解释变量是确定型变量,不存在线性相关关系

第三:自变量与扰动项不相关

2. 数据和多重共线性验证

(一) 如果不存在共线性问题的话,只用普通的最小二乘法即可

这里需要注意的是,为了提高处理效率和准确率,常常我们会将数据标准化处理

比如变成均值为0,标准差为1的序列,这样能够使每个因子得到平等对待


(二)相关性矩阵

如果各个因子之间存在比较低的正相关或者负相关系数,但不一定是多重共线性问题,那么问题不严重

(三)多重共线

多重共线表示变量之间的线性相关关系,多重共线性一般采用反证法

线性回归中的共线性问题_第1张图片
共线性理论证明

(四)方差扩大因子

方差扩大因子其实类似于相关系数矩阵,通过相关系数矩阵,我们只能大致看出存不存在多重共线性,但是通过方差扩大因子VIF可以度量多重共线性的严重程度。

线性回归中的共线性问题_第2张图片

经验表明,当VIF>10,也就是R^2>0.9,就说明xi和其他变量之间有严重的多重共线性,且会影响最小二乘估计量。

三、解决多重共线性问题

(一)岭回归

最小二乘法对于参数的估计是无偏的,但是建立在很多基本假设之上,如果我们可以放宽一些条件,对于参数估计是有偏的,那么多重共线性问题就没有那么严重了,损失了无偏性,但是带来的是高的数值稳定。

当变量之间存在多重共线的时候,|X^TX|约定于0,矩阵的逆也及其不稳定,导致最小二乘法对参数的估计偏差非常大,矩阵解决奇异性的成都就非常高。这时强制加上一个单位矩阵,那么矩阵就变得可逆了。

加上惩罚项,正则化

(二)主成分分析

如果因变量的个数比较多,彼此很可能存在多重共线性问题,观测信息有一定程度上的信息重叠,这时希望用较少的几个综合变量来代替原来较多的变量,使得这几个综合变量之间彼此不相关,但是尽可能地包含原有的信息。

pca---假设数据的数量为N,因子数量是n,首先求解几个因子的协方差矩阵(n*n),对协方差矩阵求解特征值,特征向量,选出的特征向量最大的p个组成矩阵(n*p),再和原本的数据做乘法(N*n)


利用调整后的数据进行回归。

你可能感兴趣的:(线性回归中的共线性问题)