[2022-12-11]神经网络与深度学习 hw12 - 小作业

contents

  • hw12 - 不知道该起个什么名字
    • task1
      • 题目内容
      • 题目分析+题目解答
      • 题目总结
    • task2
      • 题目内容
      • 题目分析+题目解答
      • 题目总结
    • task3
      • 题目内容
      • 题目分析+题目解答
      • 题目总结
    • 写在最后

hw12 - 不知道该起个什么名字

task1

题目内容

在小批量梯度下降中,尝试分析为什么学习率要和批量大小成正比。

题目分析+题目解答

首先是小批量梯度下降的中有:
g t ( θ ) = 1 K ∑ ( x , y ) ∈ S t ∂ L ( y , f ( x ; θ ) ∂ θ g_t(\theta)=\frac{1}{K}\sum_{(x,y) \in S_t} \frac{\partial L(y, f(x;\theta)}{\partial \theta} gt(θ)=K1(x,y)StθL(y,f(x;θ)
θ t = θ t − 1 − α g t \theta_t = \theta_{t-1} - \alpha g_t θt=θt1αgt
==> θ t = θ t − 1 − α K ∑ ( x , y ) ∈ S t ∂ L ( y , f ( x ; θ ) ∂ θ \theta_t = \theta_{t-1} - \frac{\alpha}{K}\sum_{(x,y) \in S_t} \frac{\partial L(y, f(x;\theta)}{\partial \theta} θt=θt1Kα(x,y)StθL(y,f(x;θ)
不难发现 α ∝ α K ∝ θ t \alpha \propto \frac{\alpha}{K} \propto \theta_t αKαθt,学习率和批量大小成正比时效果最好。
□ \square

题目总结

本题考查的是梯度下降中梯度和参数更新的公式,以及对于公式的理解。

task2

题目内容

在Adam算法中,说明指数加权平均的偏差修正的合理性。

题目分析+题目解答

我们知道Adam算法的算法逻辑和更新规则:
[2022-12-11]神经网络与深度学习 hw12 - 小作业_第1张图片
不难发现,当 ρ 1 → 1 且 ρ 2 → 1 \rho_1→1且\rho_2→1 ρ11ρ21时, lim ⁡ ρ 1 → 1 s t = s t − 1 , lim ⁡ ρ 2 → 1 r t = r t − 1 \lim_{\rho_1→1}s_t=s_{t-1},\lim_{\rho_2→1}r_t=r_{t-1} limρ11st=st1limρ21rt=rt1,此时梯度消失,指数加权平均需要进行偏差修正。
□ \square

题目总结

本题考查的是Adam算法更新参数的过程,以及其存在的梯度消失问题和偏差修正算法。

task3

题目内容

证明在标准的随机梯度下降中,权重衰减正则化和 l 2 l2 l2正则化的效果相同。并分析这一结论在动量法和Adam算法中是否依然成立。

题目分析+题目解答

L 0 L_0 L0为第t步时的损失函数,则
L t = L 0 + λ Ω ( θ ) = λ 2 ∣ ∣ ω ∣ ∣ 2 L_t = L_0 + \lambda \Omega(\theta)=\frac{\lambda}{2}||\omega||^2 Lt=L0+λΩ(θ)=2λω2
∂ L ∂ ω = ∂ L 0 ∂ ω + λ ω , ∂ L ∂ b = ∂ L 0 ∂ b \frac{\partial L}{\partial \omega} = \frac{\partial L_0}{\partial \omega} + \lambda \omega, \frac{\partial L}{\partial b} = \frac{\partial L_0}{\partial b} ωL=ωL0+λω,bL=bL0
进行SGD,可得:
ω n e w ← ω − η ( ∂ L 0 ∂ ω + λ ω ) \omega_{new}←\omega - \eta(\frac{\partial L_0}{\partial \omega} + \lambda \omega) ωnewωη(ωL0+λω)
= ( 1 − η λ ) ω − η ∂ L 0 ∂ ω =(1-\eta\lambda)\omega-\eta\frac{\partial L_0}{\partial \omega} =(1ηλ)ωηωL0
同理, b n e w ← b − η ∂ L 0 ∂ b b_{new}←b-\eta\frac{\partial L_0}{\partial b} bnewbηbL0
可得:
θ t ← ( 1 − β ) θ t − 1 − α g t \theta_t←(1-\beta)\theta_{t-1}-\alpha g_t θt(1β)θt1αgt
β = η λ \beta=\eta\lambda β=ηλ或令 λ = η β \lambda=\frac{\eta}{\beta} λ=βη可使权重衰减正则化和 l 2 l2 l2正则化的效果相同。
□ \square
对于Adam算法,L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。当与自适应梯度相结合时(动量法和Adam算法),L2正则化导致导致具有较大历史参数 (和/或) 梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。

题目总结

本题考查的是正则化的计算和参数更新的过程,以及其在特殊情况下的等价情况。

写在最后

本章介绍了网络正则化和网络优化的相关知识,通过学习这些内容,我们能够对于网络的优化问题有一个很好的认识,这边给出这一章的思维导图:
[2022-12-11]神经网络与深度学习 hw12 - 小作业_第2张图片
[2022-12-11]神经网络与深度学习 hw12 - 小作业_第3张图片

你可能感兴趣的:([DL]神经网络与深度学习,深度学习,神经网络)