自适应学习率调整算法

AdaGrad

独立调整模型所有参数的学习率,从训练过程的开始不断的减小learning rate
较大的梯度---rapid decrease 较小的梯度---relaticely small decrease

缺点是过度地降低了学习率,凸函数中性能更好

自适应学习率调整算法_第1张图片
image

RMSProp

通过引入超参数alpha,控制量对历史梯度值的依赖程度
区别于AdaGrad将所有的梯度值叠加,RMSProp可避免训练过程中学习率过小

自适应学习率调整算法_第2张图片
image

combine momentum with RMSProp

自适应学习率调整算法_第3张图片
imag

Adam

s for momentum
r for RMSProp

The most straightforward way to add momentum to RMSProp is to apply momentum to the rescaled gradients

自适应学习率调整算法_第4张图片
imag

你可能感兴趣的:(自适应学习率调整算法)