【深度学习中常见的优化器总结】SGD+Adagrad+RMSprop+Adam优化算法总结及代码实现
文章目录一、SGD,随机梯度下降1.1、算法详解1)MBSGD(Mini-batchStochasticGradientDescent)2)动量法:momentum3)NAG(Nesterovacceleratedgradient)4)权重衰减项(weight_decay)5)总结1.2、Pytorch实现:torch.optim.SGD1.3、示例二、Adagrad:自适应梯度2.1、算法详解2