NNDL 作业12:第七章课后题

目录

习题7-1

习题7-2

习题7-9

总结

ref


习题7-1

在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.

NNDL 作业12:第七章课后题_第1张图片

要使得参数最优,所有可以明显看出学习率,要和批量大小成正比。

习题7-2

在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28)).

NNDL 作业12:第七章课后题_第2张图片 

因此可以发现此时梯度消失,因此指数加权平均需要进行偏差修正。

习题7-9

证明在标准的随机梯度下降中,权重衰减正则化和l,正则化的效果相同.并分析这一结论在动量法和 Adam算法中是否依然成立. 

NNDL 作业12:第七章课后题_第3张图片

NNDL 作业12:第七章课后题_第4张图片 

L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。
当与自适应梯度相结合时(动量法和Adam算法),
L2正则化导致导致具有较大历史参数 (和/或) 梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。

总结

神经网络模型的难点:

  1. 优化问题:神经网络模型是一个非凸函数,再加上在深度网络中的梯度消失问题,很难进行优化;另外深层神经网络一般参数比较多,训练数据也比较大,会导致训练的效率比较低
  2. 泛化问题:因为神经网络的拟合能力强,反而容易在训练集上产生过拟合,因此在训练深层神经网络时,同时也需要通过一定的正则化方法来改善网络的泛化能力。

那么为了得到一个好的网络模型,需要从优化和正则化两个方面来考虑。

深层网络的参数学习主要通过梯度下降方法来寻找一组最小化结构风险的参数,一般可以分为:批量梯度下降、随机梯度下降以及小批量梯度下降三种形式。根据收敛效果和效率上的差异,这三种方法都存在一些共同的问题:(1)如何初始化参数;(2)预处理数据;(3)如何选择合适的学习率,避免陷入局部最优点。

NNDL 作业12:第七章课后题_第5张图片

ref

 (5条消息) NNDL 作业12:第七章课后题_HBU_David的博客-CSDN博客

 深度学习之6——网络优化 - 知乎 (zhihu.com)(5条消息) 优化网络方法思维导图总结_剪刀不加香菜的博客-CSDN博客_如何优化好一个网络思维导图

你可能感兴趣的:(人工智能,算法)