神经网络与深度学习作业12:第七章课后题

神经网络与深度学习作业12:第七章课后题

  • 习题7-1在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.
  • 习题7-2在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28)).
  • 习题7-9证明在标准的随机梯度下降中,权重衰减正则化和l,正则化的效果相同.并分析这一结论在动量法和 Adam算法中是否依然成立.
  • 全面总结网络优化
  • 总结
  • References:


习题7-1在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.

在小批量梯度下降中有:
g t ( θ ) = 1 K ∑ ( x , y ) ϵ S t ∂ L ( y , f ( x ; θ ) ) ∂ θ g_t(θ) = \frac{1}{K}\sum_{(x,y)\epsilon S_t}^{}\frac{\partial L(y,f(x;\theta ))}{\partial \theta } gt(θ)=K1(x,y)ϵStθL(y,f(x;θ)) θ t = θ t − 1 − α g t θ_t = θ_{t-1} - αg_t θt=θt1αgt
其中 g t = δ K g_t = \frac{\delta }{K} gt=Kδ,则有: θ t = θ t − 1 − δ K α θ_t = θ_{t-1} - \frac{\delta }{K}α θt=θt1Kδα
因此我们要使得参数最优,则 α K \frac{\alpha}{K} Kα 为最优的时候的常数,故学习率要和批量大小成正比。

习题7-2在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28)).

在Adam算法中:
M t = β 1 M t − 1 + ( 1 − β 1 ) g t M_t = β_1M_{t-1} + (1-β_1)g_t Mt=β1Mt1+(1β1)gt G t = β 2 G t − 1 + ( 1 − β 2 ) ⨀ g t G_t = β_2G_{t-1} + (1-β_2)\bigodot g_t Gt=β2Gt1+(1β2)gt
β 1 → 1 , β 2 → 1 β_1 \rightarrow 1,β_2 \rightarrow 1 β11,β21的时候时:
lim ⁡ β 1 → 1 M t = M t − 1 \lim_{\beta _1\rightarrow 1}M_t = M_{t-1} β11limMt=Mt1 lim ⁡ β 2 → 1 G t = G t − 1 \lim_{\beta _2\rightarrow 1}G_t = G_{t-1} β21limGt=Gt1
因此可以发现此时梯度消失,因此指数加权平均需要进行偏差修正。

习题7-9证明在标准的随机梯度下降中,权重衰减正则化和l,正则化的效果相同.并分析这一结论在动量法和 Adam算法中是否依然成立.

神经网络与深度学习作业12:第七章课后题_第1张图片
证明:
L t L_t Lt为第 t t t步的损失函数,有 L t = L 0 + λ 2 ∣ ∣ w ∣ ∣ 2 L_t = L_0 + \frac{λ}{2}||w||^2 Lt=L0+2λw2( l 2 l_2 l2正则化)。
求导:
∂ L t ∂ w = ∂ L 0 ∂ w + λ w \frac{\partial L_t}{\partial w} = \frac{\partial L_0}{\partial w} + λw wLt=wL0+λw
∂ L t ∂ b = ∂ L 0 ∂ b \frac{\partial L_t}{\partial b} = \frac{\partial L_0}{\partial b} bLt=bL0
标准的随机梯度下降:
w ← w − η ( ∂ L 0 ∂ w + λ w ) = ( 1 − η λ ) w − η ∂ L 0 ∂ w w \leftarrow w - \eta( \frac{\partial L_0}{\partial w} + λw)=(1-\eta λ)w - \eta\frac{\partial L_0}{\partial w} wwη(wL0+λw)=(1ηλ)wηwL0
同理有:
b ← b − η ∂ L 0 ∂ b b \leftarrow b - \eta\frac{\partial L_0}{\partial b} bbηbL0
我们令 η λ = β \etaλ = β ηλ=β,就可以推出:
θ t ← ( 1 − β ) θ t − 1 − α g t θ_t \leftarrow (1-β)θ_{t-1} - αg_t θt(1β)θt1αgt
分析这一结论在动量法和 Adam算法中是否依然成立.
L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。
当与自适应梯度相结合时(动量法和Adam算法),
L2正则化导致导致具有较大历史参数 (和/或) 梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。

全面总结网络优化

神经网络与深度学习作业12:第七章课后题_第2张图片


总结

通过此次对于课后习题的回答,感觉收获很大,最后也画了思维导图,对于本章的结构体系更加清楚(思维导图还是挺有用的)然后就是尝试着读了一个英文的论文,发现读不懂,勉勉强强读完了几页,对于存在的、不懂得问题也查了一些,总体来说这次作业还是收获很大的。

References:

英文论文(感兴趣的可以看一看,前半部分我看着写的很棒):
DECOUPLED WEIGHT DECAY REGULARIZATION
深度学习系列四——优化篇之网络正则化
老师博客:
NNDL 作业12:第七章课后题

你可能感兴趣的:(深度学习,神经网络)