机器学习算法系列篇9:Lasso 和 Ridge回归算法

更多专业的人工智能相关文章,微信搜索  : robot-learner , 或扫码

 

模型的参数空间过大可能导致过拟合,而Lasso和Ridge回归模型则是在线性回归模型的基础上,通过正则规则增加了对参数的限制,从而达到参数稀疏化和减小过拟合的效果。

 

两种回归模型分别对应的损失函数优化方法如下:

机器学习算法系列篇9:Lasso 和 Ridge回归算法_第1张图片

 

二者的区别是,Ridge回归算法的限制项是L2范数,而Lasso回归的限制条件是L1范数。根据优化过程的对等性,上面所列的有限制的优化过程其实等同于下面的优化过程:

 

机器学习算法系列篇9:Lasso 和 Ridge回归算法_第2张图片   

可以看出,我们引进了了惩罚系数λ,从而使得有限制的优化过程简单化。

 

在最小化上式的过程中,由于惩罚项的存在,λ越大,回归算法的系数越会被限制。而两种回归算法的区别在于:

 

Ridge回归中,参数只是不断接近于0,但是Lasso回归中,部分参数会完全被限制为0。这个优化过程可以用下图表示:

 

机器学习算法系列篇9:Lasso 和 Ridge回归算法_第3张图片

上面的示意图反映了在Lasso (左图)和Ridge (右图)回归中的参数最小化的不同情况。 在左图中,β1被Lasso回归限制为0,但在右图中, β1和β2都变得很小但仍然无完全为0。由于Lasso回归的这一特性,在需要得到比较稀疏的系数时候Lasso更为常用。

 

比如下图反映了,在Lasso回归中不断调节λ系数的大小,可以达到不同的参数稀疏化程度。

 

机器学习算法系列篇9:Lasso 和 Ridge回归算法_第4张图片

 

上图中,横坐标为λ系数的大小, 纵坐标为某个优化方程的各个β系数随着λ系数变化而变化情况。可以看出,假设我们做许多的优化实验,每次实验中,λ系数不断变大,则为0的β系数越来越多。当λ系数大到一定程度,所有的β系数都为0。

你可能感兴趣的:(机器学习算法和原理)