目录
习题7-1 在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.
习题7-2 在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28).
习题7-9 证明在标准的随机梯度下降中,权重衰减正则化和l2正则化的效果相同.并分析这一结论在动量法和Adam算法中是否依然成立.
总结
参考
小批量梯度下降中有:
令 ,可得
明显的,与k成正比。
批量大小越大,随机梯度的方差越小,引入的噪声也越小,训练也越稳定,因此可以设置较大的学习率;反之亦然,所以在小批量梯度下降中,学习率要和批量大小成正比。
假设β=0.98时,指数加权平均结果如上图绿色曲线所示。但是实际上,真实曲线如紫色曲线所示,修正这种问题的方法是进行偏移校正(bias correction)。即在每次计算完后,对进行下式处理:
在刚开始的时候,t比较小,(1−βt)<1(1−βt)<1,这样就将VtVt修正得更大一些,效果是把紫色曲线开始部分向上提升一些,与绿色曲线接近重合。随着t增大,(1−βt)≈1(1−βt)≈1,Vt基本不变,紫色曲线与绿色曲线依然重合。这样就实现了简单的偏移校正,得到我们希望的绿色曲线。
值得一提的是,机器学习中,偏移校正并不是必须的。因为,在迭代一次次数后(t较大),Vt受初始值影响微乎其微,紫色曲线与绿色曲线基本重合。所以,一般可以忽略初始迭代过程,等到一定迭代之后再取值,这样就不需要进行偏移校正了。
L2正则化
L2正则化损失函数相对于参数w的偏导数(梯度)
得到损失函数的偏导数结果后,将结果代入梯度下降学习规则中,代入后,打开括号,重新排列,使其等价于在一定假设下的权值衰减方程。
最终重新排列的L2正则化方程和权值衰减方程之间的唯一区别是α(学习率)乘以λ(正则化项)。为了得到两个方程,我们用λ来重新参数化L2正则化方程。
将λ'替换为λ,对L2正则化方程进行重新参数化,将其等价于权值衰减方程,如下式所示。
综上,在标准的随机梯度下降中,权重衰减正则化和l2正则化的效果相同得证。
但这一结论在动量法和Adam算法中不成立。L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。
当与自适应梯度相结合时(动量法和Adam算法),L2正则化导致具有较大历史参数 (和/或) 梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。
第七章总结
最后一个作业啦,这学期学到了很多,学到了很多东西。通过这次作业知道了标准的随机梯度下降中,权重衰减正则化和L2正则化的效果相同得证,但这一结论在动量法和Adam算法中不成立。
【deeplearning.ai笔记第二课】2.1 随机梯度下降,批量梯度下降和小批量梯度下降_adrianna_xy的博客-CSDN博客_在小批量梯度下降中,试分析为什么学习率要和批量大小成正比
16、指数加权平均算法介绍及偏差修正 - Hzzhbest - 博客园
权值衰减和L2正则化傻傻分不清楚?本文来教会你如何分清-电子发烧友网