Optimizers for Deep Learning

文章目录

  • 一、Some Notations
    • What is Optimization about?
  • 二、SGD
    • SGD with Momentum(SGDM)
    • Why momentum?
  • 三、Adagrad
    • RMSProp
  • 四、Adam
    • SWATS [Keskar, et al., arXiv’17]
    • Towards Improving Adam
    • Towards Improving SGDM
    • RAdam vs SWATS
    • Lookahead [Zhang, et al., arXiv’19]
    • Momentum recap
    • Can we look into the future
  • 五、optimizer
    • L2
    • AdamW & SGDW with momentum
    • Something helps optimization
  • 总结
    • Advices:

一、Some Notations

: model parameters at time step
• ∇() or : gradient at , used to compute +1
+1: momentum accumulated from time step 0 to
time step , which is used to compute +1
在这里插入图片描述

What is Optimization about?

Find a to get the lowest σ (; )
Or, Find a to get the lowest ()
在这里插入图片描述

二、SGD

在这里插入图片描述

SGD with Momentum(SGDM)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Why momentum?

在这里插入图片描述

三、Adagrad

在这里插入图片描述
在这里插入图片描述
What if the gradients at the first few time steps are extremely large…

RMSProp

在这里插入图片描述
在这里插入图片描述
Exponential moving average (EMA) of squared gradients is not monotonically increasing

四、Adam

在这里插入图片描述

Adam vs SGDM
在这里插入图片描述

Adam vs SGDM
在这里插入图片描述

Adam vs SGDM

在这里插入图片描述在这里插入图片描述
Adam:fast training, large generalization gap, unstable
• SGDM:stable, little generalization gap, better convergence(?)
在这里插入图片描述

SWATS [Keskar, et al., arXiv’17]

Begin with Adam(fast), end with SGDM
在这里插入图片描述

Towards Improving Adam

Trouble shooting:
在这里插入图片描述
The “memory” of keeps roughly 1000 steps!!
In the final stage of training, most gradients are small and non-informative, while some mini-batches provide large informative gradient rarely
在这里插入图片描述

Towards Improving SGDM

Adaptive learning rate algorithms:dynamically adjust learning rate over time
SGD-type algorithms:fix learning rate for all updates… too slow for small learning rates and bad result for large learning rates
Cyclical LR [Smith, WACV’17]
• learning rate:decide by LR range test
• stepsize:several epochs
• avoid local minimum by varying learning rate
在这里插入图片描述
• SGDR [Loshchilov, et al., ICLR’17]
在这里插入图片描述
Adam need warm-up
在这里插入图片描述
Experiments show that the gradient distribution distorted in the first 10 steps
在这里插入图片描述
在这里插入图片描述
Keep your step size small at the beginning of training helps to reduce the variance of the gradients
在这里插入图片描述
RAdam [Liu, et al., ICLR’20]
在这里插入图片描述
1 、effective memory size of EMA

2、max memory size (t → ∞)
3、**加粗样式
**

RAdam vs SWATS

在这里插入图片描述

Lookahead [Zhang, et al., arXiv’19]

在这里插入图片描述

在这里插入图片描述

Momentum recap

在这里插入图片描述

Can we look into the future

Nesterov accelerated gradient (NAG) [Nesterov, jour Dokl. Akad. Nauk SSSR’83]
SGDM:
= −1 −
= −1 + ∇(−1)
Look into the future:
= −1 −
= −1 + ∇(−1 − −1)

Nesterov accelerated gradient (NAG):
= −1 −
= −1 + ∇(−1 − −1)
′ = −
= −1 − −
= −1 − − −1 − ∇(−1 − −1)
= −1’ − − ∇(−1′)
= −1 + ∇(−1′)
SGDM:

= −1 −
= −1 + ∇(−1)
or
= −1 − −1-∇(−1)
= −1 + ∇(−1)

Nadam [Dozat, ICLR workshop’16]
在这里插入图片描述
在这里插入图片描述

五、optimizer

L2

2() =   + | θ |2
在这里插入图片描述

AdamW & SGDW with momentum

在这里插入图片描述

Something helps optimization

Normalization
在这里插入图片描述

总结

在这里插入图片描述
在这里插入图片描述

Advices:

在这里插入图片描述

你可能感兴趣的:(深度学习,人工智能,算法)