NNDL 作业12:第七章课后题

目录

习题7-1  在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.

习题7-2  在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28).

习题7-9  证明在标准的随机梯度下降中,权重衰减正则化和l2正则化的效果相同.并分析这一结论在动量法和Adam算法中是否依然成立.

总结

参考


习题7-1  在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.

 小批量梯度下降中有:

g_t(\theta)=\frac{1}{K}\sum_{(x,y)\in S_t}^{}\frac{\partial L(y,f(x;\theta))}{\partial \theta}

\theta_t=\theta_{t-1}-\alpha g_t

令 g_t = \frac{1}{K}\delta,可得\theta_t = \theta_{t-1}-\frac{\alpha}{K}\delta

明显的,\alpha与k成正比。

批量大小越大,随机梯度的方差越小,引入的噪声也越小,训练也越稳定,因此可以设置较大的学习率;反之亦然,所以在小批量梯度下降中,学习率要和批量大小成正比。

习题7-2  在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28).

NNDL 作业12:第七章课后题_第1张图片

        假设β=0.98时,指数加权平均结果如上图绿色曲线所示。但是实际上,真实曲线如紫色曲线所示,修正这种问题的方法是进行偏移校正(bias correction)。即在每次计算完V_{t}后,对V_{t}进行下式处理:\frac{V_{t}}{1-\beta ^{t}}

        在刚开始的时候,t比较小,(1−βt)<1(1−βt)<1,这样就将VtVt修正得更大一些,效果是把紫色曲线开始部分向上提升一些,与绿色曲线接近重合。随着t增大,(1−βt)≈1(1−βt)≈1,Vt基本不变,紫色曲线与绿色曲线依然重合。这样就实现了简单的偏移校正,得到我们希望的绿色曲线。
        值得一提的是,机器学习中,偏移校正并不是必须的。因为,在迭代一次次数后(t较大),Vt受初始值影响微乎其微,紫色曲线与绿色曲线基本重合。所以,一般可以忽略初始迭代过程,等到一定迭代之后再取值,这样就不需要进行偏移校正了。

习题7-9  证明在标准的随机梯度下降中,权重衰减正则化和l2正则化的效果相同.并分析这一结论在动量法和Adam算法中是否依然成立.

L2正则化

L2正则化损失函数相对于参数w的偏导数(梯度)

NNDL 作业12:第七章课后题_第2张图片

得到损失函数的偏导数结果后,将结果代入梯度下降学习规则中,代入后,打开括号,重新排列,使其等价于在一定假设下的权值衰减方程。

NNDL 作业12:第七章课后题_第3张图片

最终重新排列的L2正则化方程和权值衰减方程之间的唯一区别是α(学习率)乘以λ(正则化项)。为了得到两个方程,我们用λ来重新参数化L2正则化方程。

将λ'替换为λ,对L2正则化方程进行重新参数化,将其等价于权值衰减方程,如下式所示。

NNDL 作业12:第七章课后题_第4张图片

综上,在标准的随机梯度下降中,权重衰减正则化和l2正则化的效果相同得证。

但这一结论在动量法和Adam算法中不成立。L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。
当与自适应梯度相结合时(动量法和Adam算法),L2正则化导致具有较大历史参数 (和/或) 梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。

总结

第七章总结

NNDL 作业12:第七章课后题_第5张图片

最后一个作业啦,这学期学到了很多,学到了很多东西。通过这次作业知道了标准的随机梯度下降中,权重衰减正则化和L2正则化的效果相同得证,但这一结论在动量法和Adam算法中不成立。

参考

【deeplearning.ai笔记第二课】2.1 随机梯度下降,批量梯度下降和小批量梯度下降_adrianna_xy的博客-CSDN博客_在小批量梯度下降中,试分析为什么学习率要和批量大小成正比

16、指数加权平均算法介绍及偏差修正 - Hzzhbest - 博客园

权值衰减和L2正则化傻傻分不清楚?本文来教会你如何分清-电子发烧友网

你可能感兴趣的:(python,开发语言)