SGD, AdaDelta, Ada-Grad, Adam, NAG, RMSprop 六种梯度下降方法横向对比
转载自:原文第一节SGD随机梯度下降Stochasticgradientdescent利用负梯度方向来更新权重W:加入了动量momentumμ后:第二节AdaDelta出自M.Zeiler-ADADELTA:Anadaptivelearningratemethod.用一阶导去估计海森矩阵的方法,但是是来源于Ada-Grad方法,具有5个优点:1.自适应,省去了人工设定学习率的过程;2.只用到一阶信