优化器是用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。
随机梯度下降是最简单的优化器,它采用了简单的梯度下降法,只更新每一步的梯度,但是它的收敛速度会受到学习率的影响。
优点: 简单性,在优化算法中没有太多的参数需要调整,通过少量的计算量就可以获得比较好的结果。
缺点: 在某些极端情况下容易受到局部最小值的影响,也容易出现收敛的问题。
SGDR指的是Stochastic Gradient Descent with Warm Restarts(带有热重启的随机梯度下降)。它是一种优化器调度策略,旨在帮助模型在训练过程中更好地收敛,避免陷入局部最优解。
优点:
缺点:
Adam是改进的SGD,它加入了更新的动量和自适应的学习率,可以帮助更快地收敛。
优点:
缺点: 它需要消耗更多的内存,而且可能会出现收敛问题。
AdamW是Adam的变体,用来处理大型数据集,它以一定的比率来缩减模型参数的梯度,从而减少计算量,提高训练速度。
优点:
缺点: 学习率容易受到网络噪声的影响,从而影响优化过程。
因此,SGD和Adam是构建模型优化的常用方法,而AdamW是他们的变体,用于处理大型数据集。
未完,会继续补充!