L1、L2正则化的比较

L1、L2正则化的比较

L1正则化

L2正则化

作用

防止过拟合,获得稀疏解

使得权重参数减小,防止过拟合

优化问题

等价于凸优化问题

                        ​​​​​​​        ​​​​​​

 

等价于凸优化问题

优化目标

在限定区域在到使(误差)取得最小值

在限定区域在到使取得最小值

图像

L1、L2正则化的比较_第1张图片

L1、L2正则化的比较_第2张图片

解释

因为切向量始终指向w2轴,即求得的导数是一个常数,梯度下降时w减去一个常数,容易使参数为0,即特征稀疏化。

求带约束的最优化问题

红色线是正则化区域,蓝色圆是损失函数等高线,正则项边界在点P1的切向量(绿色箭头)与正则项的法向量(黑色箭头)垂直。即该点没有往负梯度方向运动的趋势,在P2处是Ed(W)的最小点

梯度

 

参数更新, 为学习率

 

参数更新, 为学习率

参数更新

当w大于0时,sign(w) >0, w减小;当w小于0时,sign(w) < 0 ,w变大,L1正则化容易使得参数接近0,即特征稀疏化

相比未正则的梯度多减去了。当w趋向于0时,参数减小的非常缓慢,因此L2正则化使参数减小到很小的范围,但不为0。

比较全面的L1和L2正则化的解释

你可能感兴趣的:(【机器学习】,算法)