adagrad

Adagrad是解决不同参数应该使用不同的更新速率的问题。Adagrad自适应地为各个参数分配不同学习率的算法。其公式如下:
adagrad_第1张图片
gradient比较大的时候,走的地方比较陡峭,希望步长小一点,避免走过,gradient比较小的时候,走的地方比较平缓,希望步长大一点。

你可能感兴趣的:(pytorch,深度学习)