R语言:岭回归分析选择变量

我们在回归分析的时候,古典模型中有一个基本的假定就是自变量之间是不相关的,但是如果我们在拟合出来的回归模型出现了自变量之间高度相关的话,可能对结果又产生影响,我们称这个问题为多重共线性,多重共线性又分为两种,一种是完全多重共线性,还有一种是不完全多重共线性,产生的原因有几个方面;
(1)变量之间存在内部的联系
(2)变量之间存在共同的趋势等
造成的后果分两部分:
(1)当自变量线性相关的时候,参数将无法唯一确定,参数的方差将趋近于无穷大,这时候无法使用最小二乘法
不完全多重共线性造成的后果
(1)参数估计量的方差随着多重共线性的严重程度的增加而增加,但是参数是可以估计的
(2)进行统计检验时容易删除掉重要解释变量
因为当多重共线性的时候容易造成自变量对因变量不显著,从模型中错误的剔除,这样容易删除重要解释变量的设定;因此我们选择岭回归来解决。

1.1、数据列表

R语言:岭回归分析选择变量_第1张图片

数据来源:2003-2017 年中国统计年鉴

对于上面的数据,我们需要建立的时一个多元线性模型,但是当我们做多元线性模型的时候就会发现,上面的变量中存在多重共线性。解决·多重共线性的方法有很多种,比如最小二乘法,逐步回归,主成分回归,岭回归等等,这里我们先学习岭回归。

2.1 读入数据绘制散点图


你可能感兴趣的:(R语言,r语言,回归,机器学习)