优化算法中的超参数:学习率

优化中的梯度下降法

      • 纯粹的 SGD
      • SGD+Momentum
      • AdaGrad
      • RMSProp
      • Adam

理解:从 AdaGrad 到 RMSProp、Adam,用Momentum的思想一路对这些优化算法的学习率进行变形。
Momentum思想:
当前时刻的更新量 = β * 上一时刻更新量 + (1-β) * 当前的计算项(如梯度/梯度平方等)
xt+1 = βxt + (1-β)yt

改进参数:采用Momentum的思想,不断改进学习率 learning rate
AdaGrad (Momentum) → RMSProp
RMSProp + Momentum → Adam

纯粹的 SGD

优化算法中的超参数:学习率_第1张图片

SGD+Momentum

优化算法中的超参数:学习率_第2张图片
优化算法中的超参数:学习率_第3张图片

上图,考虑Momentum后,梯度更新更快。

AdaGrad

优化算法中的超参数:学习率_第4张图片

RMSProp

优化算法中的超参数:学习率_第5张图片
优化算法中的超参数:学习率_第6张图片

上图,学习率为0.3时的 AdaGrad 更新速度越来越慢,而 RMSProp由于考虑了之前的变化,虽然更新速度也越来越慢,但初始的步伐较大。

Adam

优化算法中的超参数:学习率_第7张图片

你可能感兴趣的:(机器学习算法)