深度学习优化方法-AdaGrad

“微信公众号”
深度学习优化方法-AdaGrad_第1张图片
本文文章同步更新在我的知乎专栏里面:
深度学习优化方法-AdaGrad - Microstrong的文章 - 知乎https://zhuanlan.zhihu.com/p/38298197

梯度下降算法、随机梯度下降算法(SGD)、小批量梯度下降算法(mini-batch SGD)、动量法(momentum)、Nesterov动量法有一个共同的特点是:对于每一个参数都用相同的学习率进行更新。
但是在实际应用中,各个参数的重要性肯定是不一样的,所以我们对于不同的参数要动态的采取不同的学习率,让目标函数更快的收敛。
AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加后在开方,用全局学习率除以这个数,作为学习率的动态更新。
AdaGrad算法介绍

表示第i个参数的梯度,对于经典的SGD优化方法,参数θth的更新为:


再来看AdaGrad算法表示为:

深度学习优化方法-AdaGrad_第2张图片

其中,r为梯度累积变量,r的初始值为0。ε为全局学习率,需要自己设置。δ为小常数,为了数值稳定大约设置为

AdaGrad算法分析

(1)从AdaGrad算法中可以看出,随着算法不断迭代,r会越来越大,整体的学习率会越来越小。所以,一般来说AdaGrad算法一开始是激励收敛,到了后面就慢慢变成惩罚收敛,速度越来越慢。

(2)在SGD中,随着梯度 的增大,我们的学习步长应该是增大的。但是在AdaGrad中,随着梯度g的增大,我们的r也在逐渐的增大,且在梯度更新时r在分母上,也就是整个学习率是减少的,这是为什么呢?
这是因为随着更新次数的增大,我们希望学习率越来越慢。因为我们认为在学习率的最初阶段,我们距离损失函数最优解还很远,随着更新次数的增加,越来越接近最优解,所以学习率也随之变慢。
(3)经验上已经发现,对于训练深度神经网络模型而言,从训练开始时积累梯度平方会导致有效学习率过早和过量的减小。AdaGrade在某些深度学习模型上效果不错,但不是全部。


Reference

【1】深度学习,Ian Goodfellow / Yoshua Bengio所著。

【2】深度学习优化函数详解(6)-- adagrad

【3】adagrad原理

你可能感兴趣的:(深度学习,深度学习)