RAdam论文解读

中国博士生提出最先进AI训练优化器,收敛快精度高,网友亲测:Adam可以退休了

论文解读:Radam:ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND
上面的了链接是对论文的解读,这里只是我个人的理解。

1,目的

  • 想找到一个比较好的优化器,能够在收敛速度和收敛的效果上都比较号。
  • 目前sgd收敛较好,但是慢。
  • adam收敛快,但是容易收敛到局部解。
  • 常用解决adam收敛问题的方法是,自适应启动方法。

2,adam方法的问题

  • adam在训练的初期,学习率的方差较大。
  • 根本原因是因为缺少数据,导致方差大。
  • 学习率的方差大,本质上自适应率的方差大。
  • 可以控制自适应率的方差来改变效果。

3,Radam,控制自适应率的方差

  • 一堆数学公式估计出自适应率的最大值和变化过程。
  • 提出了Radam的优化过程

4,实验结论

  • 前几个周期内整流项使得RAdam比Adam方法慢,但是在后期的收敛速度是比Adam要更快的。
  • 尽管RAdam在测试精度方面未能超越SGD,但它可以带来更好的训练性能。
  • RAdam算法对初始学习率是具有鲁棒性的,可以适应更宽范围内的变化。在从0.003到0.1一个很宽的范围内,RAdam表现出了一致的性能,训练曲线末端高度重合
  • 如果你以为RAdam只能处理较小数据集上的训练,或者只有在CNN上有较好的表现就大错特错了。即使大道有几十亿个单词的数据集的LSTM模型,RAdam依然有比Adam更好的表现。

5,个人理解

  • 优势:鲁棒性强,这个优势很强,而且适合任何模型的初期的实验,也对新手比较友好;不用调试学习率,这个优势也很强;自适应启动的方式会增加超参数,不适合初期的实验。
  • 缺点:论文也提出,他的收敛效果不一定是所有里面最好的。所以在实验的后期,对于老手,可以采用更加精细的学习率控制策略试试会不会拿到另一个好的结果。

你可能感兴趣的:(paper-reading)