多元线性回归模型中多重共线性问题处理方法

转载自:http://datakung.com/?p=46

多元线性回归模型中多重共线性问题处理方法_第1张图片

多重共线性指自变量问存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。若存在多重共线性,计算自变量的偏回归系数β时,矩阵不可逆,导致β存在无穷多个解或无解。

而在使用多元线性回归构建模型过程中,变量之间存在多重共线性问题也是比较常见的。那么当发现多重线性回归模型中存在多重共线性时我们该如何处理呢?

可通过以下方法予以解决:

(1)逐步回归

使用逐步回归可以在一定程度上筛选存在多重共线性的自变量组合中对反应变量变异解释较大的变量,而将解释较小的变量排除在模型之外。
但这种方法缺点是当共线性较为严重时,变量自动筛选的方法并不能完全解决问题。

(2) 岭回归

岭回归为有偏估计,但能有效地控制回归系数的标准误大小。

(3) 主成分回归

可以使用主成分分析的方法对存在多重共线性的自变量组合提取主成分,然后以特征值较大的(如大于1)几个主成分与其他自变量一起进行多重线性回归。得出的主成分回归系数再根据主成分表达式反推出原始自变量的参数估计。
该方法在提取主成分时丢失了一部分信息,几个自变量间的多重共线性越强,提取主成分时丢失的信息越少。

(4) 路径分析

如果对自变量间的联系规律有比较清楚的了解,则可以考虑建立路径分析模型,以进行更深入的研究。

参考资料:《SPSS统计分析高级教程》

 

你可能感兴趣的:(算法学习)