【理论与实例】L1正则化为什么可以使模型参数具有稀疏性?

L1正则化为什么可以使模型参数具有稀疏性?

稀疏性就是很多参数为0的情况,对于维度很高的模型,稀疏性意味着抓住主要矛盾,可以提升模型的泛化性能。
L1正则化: W ∗ = a r g m i n ∑ j ( t ( X j ) − ∑ i w i h i ( X i ) ) 2 + λ ∑ i = 1 k ∣ w i ∣ W^*=argmin\sum_j(t(X_j)- \sum_iw_ih_i(X_i))^2+\lambda\sum_{i=1}^k|w_i| W=argminj(t(Xj)iwihi(Xi))2+λi=1kwiL2正则化: W ∗ = a r g m i n ∑ j ( t ( X j ) − ∑ i w i h i ( X i ) ) 2 + λ ∑ i = 1 k w i 2 W^*=argmin\sum_j(t(X_j)- \sum_iw_ih_i(X_i))^2+\lambda\sum_{i=1}^kw_i^2 W=argminj(t(Xj)iwihi(Xi))2+λi=1kwi2

1、解空间形状直观理解

带正则项,相当于为目标函数的解空间进行了约束。当参数为2维时,为对于L2正则项,解空间为原型,L1正则项解空间为菱形。最优解必定是有且仅有一个交点。除非目标函数具有特殊的形状,否则和菱形的唯一交点大概率出现在截距处(即对应某一维度参数为0)。而对于圆形的解空间,总存在一个切点,且仅当某些特殊情况下,切点才会位于坐标轴上。【理论与实例】L1正则化为什么可以使模型参数具有稀疏性?_第1张图片

当参数为3维时,假设目标函数为三维空间的平面。L2正则化解空间对应三维空间的球体。显然当解空间为对面体时,交点有更大的概率会位于坐标轴上。

直接观察其图像,下面四幅分别为p=2,p=1.5,p=1,p=0.7

【理论与实例】L1正则化为什么可以使模型参数具有稀疏性?_第2张图片

2、梯度下降角度

在这里插入图片描述

用梯度下降的方法,当w小于1的时候,L2正则项的惩罚效果越来越小,L1正则项惩罚效果依然很大,L1可以惩罚到0,而L2很难。

L2的求导后为一阶函数,对于大的 w w w参数,惩罚作用大,对于小的 w w w参数,惩罚作用小,很难惩罚到0,实际上起到了把大参数和小参数趋向于平均的作用;L1求导后为常数,无论对于大小参数,其惩罚作用一样,所以可以把小参数惩罚到0。

3、先验概率角度

参考:
https://blog.csdn.net/inte_sleeper/article/details/7354555)
https://www.cnblogs.com/heguanyou/p/7688344.html
推荐:https://blog.csdn.net/m0_38045485/article/details/82147817

拉普拉斯概率密度分布函数 f ( x ∣ μ , b ) = 1 2 b e x p ( − ∣ x − μ ∣ b ) f(x|\mu,b)=\frac{1}{2b}exp(-\frac{|x-\mu|}{b}) f(xμ,b)=2b1exp(bxμ)高斯分布概率密度分布函数 f ( x ∣ μ , b ) = 1 2 π σ e x p ( − ( x − μ ) 2 σ 2 ) f(x|\mu,b)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{{(x-\mu)}^2}{\sigma^2}) f(xμ,b)=2π σ1exp(σ2(xμ)2)
增加先验即假设了参数的概率分布,可以提升模型的泛化能力,拉普拉斯先验在0点附近分布密度大于高斯分布,最终解将更稀疏。

在贝叶斯统计学中,最大后验(Maximum A Posteriori,MAP)估计可以利用经验数据获得对未观测量的点态估计。它与Fisher的最大似然估计(Maximum Likelihood,ML)方法相近,不同的是它扩充了优化的目标函数,其中融合了预估计量的先验分布信息,所以最大后验估计可以看作是正则化(regularized)的最大似然估计。(百度百科)

M A P = l o g P ( y ∣ X , w ) P ( w ) = l o g P ( y ∣ X , w ) + l o g P ( w ) MAP=logP(y|X,w)P(w)=logP(y|X,w)+logP(w) MAP=logP(yX,w)P(w)=logP(yX,w)+logP(w)

【理论与实例】L1正则化为什么可以使模型参数具有稀疏性?_第3张图片

4、实例分析

借助sklearn官方example-Train error vs Test error,通过修改l1_ratio=0.01和l1_ratio=0.99,对比参数稀疏的情况图下图:
l1_ratio=0.01时:
【理论与实例】L1正则化为什么可以使模型参数具有稀疏性?_第4张图片
l1_ratio=0.99时
【理论与实例】L1正则化为什么可以使模型参数具有稀疏性?_第5张图片

你可能感兴趣的:(机器学习)