AI数学基础23——Adam=Momentum+RMSprop

动量梯度下降法详细展示了如何优化神经网络的训练速度,尽可能减少抖动,以最快速度找到代价函数的最小值。

这也展示优化神经网络梯度下降法的目的:尽可能减少抖动,以最快速度找到代价函数的最小值;

方法是:引入超参数。

Adam,优化算法是已经被证明了,可以适用于大多数神经网络的优化算法,其本质是Momentum优化算法和RMSprop优化算法合并在一起用,如下图所示:


在一次迭代计算中:

红色框部分就是Momentum优化算法

绿色框部分就是RMSprop优化算法

引入了β1,β2, ε这三个超参数。

学习率α需要调整(tune);

β1常用的缺省值是0.9

β2常用的缺省值是0.999

 ε常用的缺省值是10e-8

Andrew Ng 说:“基本很少人去调整β1,β2, ε这三个超参数,基本都用缺省值,只需要调整α”

参考文献:Andrew Ng《Adam Optimazation Algorithm》

你可能感兴趣的:(AI数学基础23——Adam=Momentum+RMSprop)