深度学习基本理论下篇:(梯度下降/卷积/池化/归一化/AlexNet/归一化/Dropout/卷积核)、深度学习面试
18、请说明Momentum、AdaGrad、Adam梯度下降法的特点Momentum、AdaGrad、Adam是针对SGD梯度下降算法的缺点的改进算法。在SGD算法中,如果函数的形状非均向(参数大小差异较大),SGD的搜索路径会呈“之字形”移动,搜索效率较低。如下图所示:1)MomentumMomentum是“动量”的意思,和物理有关。用数学式表示Momentum方法,如下所示:其中,W表示要更