Adam

Adam方法同样融合了 AdaGrad和RMSProp,更新公式如下:

wt=wt1αmt^vt^+ϵ

其中 t 表示次数, mt^ mt 的纠正, vt^ vt 的纠正
mt^=mt1βt1
vt^=vt1βt2

β1 β2 是常数,控制指数衰减, mt 是梯度的指数移动均值,通过梯度的一阶矩求得。 vt 是平方梯度,通过梯度的二阶矩求得。 mt vt 的更新如下:
mt=β1mt1+(1β1)gt
vt=β2vt1+(1β2)g2t

gt 为一阶导。以上所有参数的默认设置为: α=0.001β1=0.9β2=0.999ϵ=108

在文章中,指明 mt^/vt^ 当值很小时,也意味这对目前的方向越不确定,就会有更小的步长,也是一种自动退火的形式。
参考:
Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

你可能感兴趣的:(机器学习算法,统计学)