【深度学习】AdaGrad算法

深度学习优化方法-AdaGrad

  • 特点:

提供不同的学习率,针对每个参数的学习率都不同

  • 怎么计算:

每一个参数的每一次迭代的梯度取平方累加后在开方,用全局学习率除以这个数,作为学习率的动态更新。

  • 其他更新学习率的方法

梯度下降算法、
随机梯度下降算法(SGD)、
小批量梯度下降算法(mini-batch SGD)、
动量法(momentum)、
Nesterov动量法
他们有一个共同的特点是:对于每一个参数都用相同的学习率进行更新

你可能感兴趣的:(deep,Learning,深度学习,算法,人工智能)