J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) \widetilde{J}(\pmb{\theta};\pmb{X},y)=J(\pmb{\theta};\pmb{X},y)+\alpha\Omega(\pmb{\theta}) J (θθθ;XXX,y)=J(θθθ;XXX,y)+αΩ(θθθ)
在二次误差的简单线性模型和简单梯度下降的情况下,它相当于 L 2 L_2 L2 正则化。
Ω ( w ( A ) , w ( B ) ) = ∣ ∣ w ( A ) − w ( B ) ∣ ∣ 2 2 \Omega(\pmb{w}^{(A)}, \pmb{w}^{(B)})=||\pmb{w}^{(A)}-\pmb{w}^{(B)}||^2_2 Ω(www(A),www(B))=∣∣www(A)−www(B)∣∣22
对某个隐藏层的神经元通过乘零操作来进行随机删除,每个神经元被乘零的概率是 p p p,这个值是人工控制的超参数。
在推断阶段,应当使用权重比例推断规则来对被使用Dropout的层进行修正:将该层的权重乘以概率值 p p p。
以 Bagging 的角度来解释 Dropout 比较好。
