Adam优化器总结

根据李宏毅老师的课程,将梯度下降的常见训练优化思路和Adam的内容做简单的梳理。

Adam优化器总结_第1张图片
梯度下降的基本方法是:朝着参数 θ \theta θ的当前梯度 g g g的反方向,以 η \eta η为步长迈出一步。

一个常见的问题就是梯度下降容易落入局部最小值,因此有了Momentum(动量) 的概念。仿照现实世界中物体的惯性,在运动时不仅要看当前这一步往哪里迈,还要考虑之前的运动状态,如果之前的步伐很快,就不应该在一步内急停或者急转弯。这样做的好处是可以跳出一些小坑(局部最小值)。
Adam优化器总结_第2张图片

动量的实现方法也不复杂,就是将前一步的步伐 m m m乘上一个参数 λ \lambda λ与当前本来应该走的步伐 − η g -\eta g ηg结合(向量相加),共同决定下一步的走向。 λ \lambda λ相当于惯性大小,大的 λ \lambda λ相当于胖子,运动状态更不容易改变。

梯度下降的另一个问题是超参数 η \eta η很重要但不好定,定小了学习太慢,定大了反复横跳不收敛。
Adam优化器总结_第3张图片

为了找到最低点,我们一般希望在梯度平缓的方向上,步子可以迈得大一点,在梯度陡峭的地方,步子就收着点。于是我们用 η \eta η除以一个 σ \sigma σ来调整步长,这个 σ \sigma σ对不同的参数是不同的,而且在训练中,是随着iteration更新的。
Adam优化器总结_第4张图片
Adagrad中,用的是之前所有梯度的RootMeanSquare(均方根)来计算这个 σ \sigma σ
Adam优化器总结_第5张图片

这个思路很直白,就是如果该参数之前的梯度都比较小,那么 σ \sigma σ就比较小,迈出的步子就大,反之亦然。
这种算法的问题是将之前的梯度值都默认为差不多,平缓的一直平缓,陡峭的一直陡峭,但实际不是这样子的,哪怕是同一个参数,同一个梯度方向,它的梯度值也可以骤变,这就导致了对步长的调整不太合理也不及时。

针对这个问题,RMSProp增加了一个超参数 α \alpha α,这种计算梯度均值的方式其实就是指数移动平均(EMA),它更能稳定地反映梯度变化情况,且可以通过 α \alpha α来调节对之前梯度和当前梯度的重视程度。比如当 α \alpha α趋近0的时候,说明 σ \sigma σ的计算只取决于当前的梯度,不考虑之前梯度的影响。此时的 σ \sigma σ就变得很灵敏,遇到梯度骤变的情况就能迅速反应过来了。
Adam优化器总结_第6张图片

Adam = RMSProp+Momentum
Adam优化器总结_第7张图片

另外对学习率 η \eta η可以有一些schedule,一般是各种衰减方式,随着逐渐接近最低点而减小步伐。很多时候我们发现加上WarmUp的技巧效果更好,WarmUp可以理解为一开始先用小的学习率进行探索,先摸清附近的梯度情况,以此获得合理的 σ \sigma σ信息后再加大步伐。

你可能感兴趣的:(AI,机器学习,深度学习)