L1、L2正则化的原理及适用场景

1. L1正则化,也称Lasso回归

1.1 含义

权值向量  中各元素的绝对值之和,一般记作   。

1.2  公式表示

添加了L1正则化的损失函数一般可表示为:

1.3 作用

L1正则常被用来解决过拟合问题;

L1正则化容易产生稀疏权值矩阵(更容易得到稀疏解),即产生一个稀疏模型(较多参数为0),因此也可用于特征选择。 

1.4 为什么L1(相对L2)更容易获得稀疏解 或者 0解

L1是舍弃掉一些不重要的特征,L2是控制所有特征的权重。

a. 从公式角度解释

假设只有一个参数 w,损失函数 L(w)  , 分别加上L1和L2损失函数可得:

J_{L1}\left (w \right ) = L\left ( w * H\left ( X \right ) \right ) + \lambda \left | w \right |

J_{L2}\left (w \right ) = L\left ( w * H\left ( X \right )\right ) + \lambda w^{2}

假设 L(w) 在 某一个样本  0 处 的导数是 d0

\frac{\alpha L\left ( w \right )}{\alpha \left ( w \right )}\mid _{w = 0} = d_{0}

当结合L2正则时候的导数是:

\frac{\alpha J_{L2}\left ( w \right )}{\alpha \left ( w \right )}\mid _{w = 0} = d_{0} + 2 * \lambda * w

当结合L1正则时候的导数是(L1损失在 w = 0处不可导,分 0 - 和 0 +):

\frac{\alpha J_{L1}\left ( w \right )}{\alpha \left ( w \right )}\mid _{w = 0 - } = d_{0} - \lambda

\frac{\alpha J_{L1}\left ( w \right )}{\alpha \left ( w \right )}\mid _{w = 0 + } = d_{0} + \lambda

结论:当结合L2正则的损失函数,导数结果仍然是 d0;结合L1正则的损失函数会有一个突变,从

d_{0} - \lambda 到 d_{0} + \lambda,只要满足\lambda > \left |d_{0} \right |  或 d_{0} - \lambda 和 d_{0} + \lambda 异号,则在w = 0处,损失函数有极值(极小值),在优化器优化过程中,很容易将结果收敛到该极小值点上,也就是 w = 0。相比L1正则,需要 d0 = 0,这样的条件明显更为严苛。

b. 从优化问题视角 + 二维图示例 + 多维扩展,方向解释

L1、L2正则化的原理及适用场景_第1张图片

 c. 从梯度角度来看

L1、L2正则化的原理及适用场景_第2张图片

结论:加入L1正则的导数形式,无论 wi 大小如何,sgn(wi) 的结果是一个常数,因此惩罚力度不变或者说仍然很大,使得L1将参数惩罚到0的概率增加;反观L2正则的导数形式,在 wi < 1 时候,尾项惩罚作用小,很难将参数惩罚到0,实际上就是使每个特征都得到尽量均衡的权重,因此适用于解决普通的过拟合问题,即从参数分布(让分布尽可能的均匀)的角度解决过拟合的问题

d. 从概率学角度

加入正则项,相当于对参数 w 增加先验假设,要求 w 满足某一种分布。

L1正则化相当于为 w 加入 “拉普拉斯分布” 的先验;L2正则化相当于为 w 加入 “高斯分布” 的先验。

L1、L2正则化的原理及适用场景_第3张图片

结论:拉普拉斯先验在0点附近分布密度大于高斯分布,最终解将更稀疏。

2. L2正则化

2.1 含义

权值向量/矩阵 \omega 中各元素的平方和,然后对“和”求平方根,记作 \left \| \omega \right \|_{2} 。

2.2 公式表示

2.3 作用

L2正则化 可防止模型过拟合;至于为什么见下一篇文章,不定期更新

能够得到较为平滑(smooth)的解。

3. L1和L2正则化的适用场景

结论1 :从理论上来看,参数如果服从高斯分布就用L2正则化;服从拉普拉斯分布就用L1。

结论2 :添加正则化相当于参数的解空间添加了约束,限制了模型的复杂度,缓解过拟合。不过L1和L2正则化项是从不同的角度解决过拟合的。

结论3L1正则项是从改变模型结构的角度(减少模型参数的数量 或者 筛除无效特征,使无效特征对应的参数为0)解决过拟合,使的模型更加简单。

结论4 L2正则项使模型尽量不依赖于某小部分特征,使模型更倾向于使用所有输入特征,不恰当的讲就是使每个特征都得到尽量均衡的权重(对于重要、非重要的特征也会有比较明显的区分);它是从参数分布(让分布尽可能的均匀)的角度解决过拟合。

结论5L1正则化可以获得稀疏解,因此适用于:模型剪枝、模型压缩、特征选择

结论6 :L2正则化可以获得平滑(smooth)解。

你可能感兴趣的:(机器学习细节研讨,算法,人工智能)