神经网络优化器

神经网络的目的是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程称为最优化。解决这个问题使用的算法叫做优化器。

1、 BGD、SGD、MSGD

BGD:最原始梯度下降算法,计算需使用整个数据集的损失(慢)
SGD:每次选取一个batch数据,每个数据点的loss都会对模型进行更新(震荡,易受噪声影响)
MSGD:计算一批样本的平均来更新,一般为这种。

分别针对学习率和各个参数设置更新策略。

动量法:运动大小跟过去状态相关。(优化梯度更新方向)

牛顿法:先用当前速度更新模型,在用更新的临时模型对参数动量进行矫正。

自适应法:对每个参数设置不同的学习率。

你可能感兴趣的:(神经网络)