深度学习——权重衰减

可以通过收集更多的训练数据缓解过拟合–高成本,高耗时(或者完全超出我们的控制)。若已经拥有尽可能多的高质量数据,便可以将重点放在正则化上来。

权重衰减(weight decay):(正则化)—— L 2 L_2 L2正则化
通过 f ( x ) = W T x f(x) = W^Tx f(x)=WTx中的权重向量的范数来表示其复杂性。要保证权重向量比较小,最常用的方法是将其范数作为惩罚项加到最小化损失的问题中。将原来的训练目标最小化训练标签上的预测损失,调整为最小化预测损失和惩罚项之和。
对于线性模型损失函数:
L ( w , b ) = 1 n ∑ i = 1 n 1 2 ( w ⊤ x ( i ) + b − y ( i ) ) 2 L(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^{n} \frac{1}{2}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right)^{2} L(w,b)=n1i=1n21(wx(i)+by(i))2
为了惩罚权重向量的大小,我们需要以某种方式再损失函数中添加 ∥ w ∥ 2 \|\mathbf{w}\|^{2} w2。通过正则化尝试 λ 来平衡这个额外惩罚的损失:
L ( w , b ) + λ 2 ∥ w ∥ 2 L(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^{2} L(w,b)+2λw2(除以二是为了,当我们求导数的时候,2和 1 2 \frac{1}{2} 21可以抵消)
λ = 0 时,即恢复了原来的损失函数,
λ > 0 时,表示限制了 ∥ w ∥ \|\mathbf{w}\| w的大小。

L 2 L_2 L2正则化小批量随机梯度下降更新如下式:
w ← ( 1 − η λ ) w − η ∣ B ∣ ∑ i ∈ B x ( i ) ( w ⊤ x ( i ) + b − y ( i ) ) \mathbf{w} \leftarrow(1-\eta \lambda) \mathbf{w}-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right) w(1ηλ)wBηiBx(i)(wx(i)+by(i))

你可能感兴趣的:(深度学习,python)