优化器optimizer

用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。

总结

  • 从SGD到Adam做了哪些改进

自适应的学习率、动量

  • 从SGD到Adam做了哪些改进

Adamw 即 Adam + weight decate ,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后反向传播,而Adamw直接将正则项的梯度加入反向传播的公式中

你可能感兴趣的:(八股,神经网络,人工智能,深度学习)