回归的正则化模型:岭回归和Lasso回归(套索回归)

http://blog.csdn.net/pipisorry/article/details/52974495

回归可能存在的问题

多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

皮皮blog



岭回归 Ridge Regression

{也可以称作山脊回归}

当我们所使用的样本数据存在多重共线性问题时,岭回归是一种可行的回归方案。当多重共线性问题存在时,就连最基本的最小二乘估计都是有偏的,线性模型估计系数的方差将会很大,这表示分析结果可能远远偏离真实的水平。通过在模型中加入对偏误的度量,岭回归实现了减少模型标准误的效果。

还记得在上文中我们所提到的线性回归吧,它的模型结果通常被表示为y=a+ b*x的形式,同时这个式子中还包含了一个随机误差项,完整的模型方程表示如下:

y=a+b*x+e (随机误差项),  [误差项用于解释模型估计值与实际观测值之间的预测误差]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.

在线性方程中,预测误差可以被分为两个部分,第一部分来自于偏误而第二部分来自于方差,二者中的任意一个都能致使预测产生误差。在此,我们将着重分析来自于方差的那一部分误差。

为了解决多重共线性问题,岭回归通过将调整参数λ引入模型,公式如下:

可以发现,在该式中共有两个组成部分,前者为基础的最小二乘项,而后者则为调整参数λ与系数β平方总和的乘积。对目标函数这样的补充主要用于收缩模型系数,从而起到减小模型方差的作用。

使用要点:

(1)除了正则性假设以外,这种回归在模型假设方面与最小二乘法回归完全一致;

(2)该模型收缩了估计系数的值,但是不会使它们接近于0,也就是说它并不具备变量选择的功能;

(3)该模型可以用为一种正则化方法,并且属于L2惩罚。

皮皮blog


 

Lasso回归 Lasso Regression

Lasso(Least Absolute Shrinkage and Selection Operator)方法也对回归系数的绝对规模采取了惩罚的形式。同时,它还能减少变异性并提高模型的精度。

目标函数如下所示:

由上式可见,Lasso回归与岭回归的不同之处在于其在惩罚函数中使用了绝对值而非平方和的形式,这将导致在模型的参数估计过程中有些系数会因为惩罚项的存在从而直接减少到0。随着惩罚力度的增强,越来越多的系数将会缩小并最终归结为0,这意味着在模型构建的同时我们也对原本给定的多个变量进行了变量选择。

使用要点:

(1)这种回归在模型假设方面与岭回归完全一致;

(2)模型可将某些变量对应的系数直接收缩至0,这有助于变量的筛选;

(3)该模型属于L1惩罚;

(4)如果存在某组预测因子高度相关的情况,Lasso方法仅会选取它们中的一个,并把所对应的系数收缩至0。

[数据分析员不得不知的7种回归技术]


最小角回归


分组最小角回归算法(Group LARS)

from: http://blog.csdn.net/pipisorry/article/details/52974495

ref:



你可能感兴趣的:(PRML)