正则化和范数

目录

  • 预备知识
  • L0范数
  • L1正则化
  • L2正则化
  • 为什么参数越小越好

预备知识

在深度学习中,模型的参数优化可以看做最大后验估计,损失函数即为似然函数。所谓正则化,可以视为给予了模型参数估计的一个先验知识。而似然函数*先验信息即为最大后验估计。
θ ∗ = a r g m a x θ ( ∏ i P ( Y i ∣ X i , θ ) ∏ i P ( θ i ) ) = a r g m i n θ ( ∑ i ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 + ∑ i ln P ( θ i ) ) \theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=argmin_{\theta}(\sum_i ||f(X_i)-Y_i||^2+\sum_i \text{ln}P(\theta_i)) θ=argmaxθ(iP(YiXi,θ)iP(θi))=argminθ(if(Xi)Yi2+ilnP(θi))

L0范数

L0范数统计向量中非0元素的个数,非0元素越少,意味着越稀疏。模型越稀疏,则过拟合的风险越低,同时可以提高模型的可解释性。

L1正则化

L1范数是L0范数的最优凸近似,比L0范数更利于优化求解。由于L1范数在0值处不可微,所以L1正则化会趋向于让参数=0。L1正则化在损失函数中的形式表现为,在原损失函数上加上权重参数 w w w的绝对值,这相当于赋予 w w w拉普拉斯先验,如果 λ \lambda λ越大,则 w w w的分布越集中在0附近。
P ( θ i ) = λ 2 exp ( − λ ∣ θ i ∣ ) P(\theta_i)=\frac{\lambda}{2}\text{exp}(-\lambda|\theta_i|) P(θi)=2λexp(λθi)

L2正则化

L2正则化又叫做岭回归,也叫作权重衰减。L2正则化会让参数趋向于0,在损失函数中的形式表现为,在原损失函数上加上权重参数 w w w的平方,这相当于赋予 w w w高斯先验。
P ( θ i ) = λ π exp ( − λ ∣ ∣ θ i ∣ ∣ 2 ) P(\theta_i)=\frac{\lambda}{\sqrt{\pi}}\text{exp}(-\lambda||\theta_i||^2) P(θi)=π λexp(λθi2)

为什么参数越小越好

原因有二,一是奥卡姆剃刀原则,参照百度百科,可用八个字概括——“如无必要,勿增实体”;二是:在模型发生过拟合时,会导致模型在一个小区间,输出存在剧烈变化。这意味着,模型在这个小区间内的导数值很大,而导数值由权重参数 w w w决定,“大导数值”可以一定程度上等价于“大 w w w”。也就是说,“大 w w w”会导致过拟合,从而 w w w越小越好。

你可能感兴趣的:(#,面试,笔试面试,深度学习,机器学习,正则化,范数,L0,L1,L2)