L1和L2正则

1.从公式上理解

loss function角度

L1和L2都是将权重作为惩罚加到Loss function里,L1正则是加了参数的一范数之和,L2正则是加了参数的二范数之和。

约束条件的角度

对权重进行约束,L1是约束参数的绝对值,L2约束参数的平方。

贝叶斯角度

假设权重满足一定的分布,L1是假设权重符合拉普拉斯分布,L2是假设权重符合高斯分布。

2. 效果上的区别

相同点:
都通过降低模型复杂度来避免过拟合。
不同点:
L1能产生稀疏解,去掉一些冗余特征和相关性比较大的特征,有特征选择的效果。适用于特征之间有关联的情况;
L2能让所有参数都缩小,但是不会降为0。适用于特征之间没有关联的情况。

3. L1能产生稀疏解的原因:

L1将所有小于的参数置为0,L2是起到一个缩放的效果。
有两种推导方法:

  1. 从贝叶斯的角度,L1正则是权重符合拉普拉斯分布,L2正则是符合高斯分布
    参考资料1
  2. 求解析解,令梯度为0,看权重的计算公式。用到了泰勒公式
    手推过程
    参考资料2
  • 采用L1,而不是L0的原因: 凸优化问题、便于求解

【参考资料】

  1. 最大似然估计和最小二乘法怎么理解
  2. L1正则化及其推导

你可能感兴趣的:(L1和L2正则)