黄金时代 —— 深度学习(基础/补充)

文章目录

  • 优化
    • 梯度下降
      • AdamW


  • 前置博客-深度学习基础

优化

梯度下降

AdamW

  • Adam + weight decate
  • Adamw 即 Adam + weight decate ,效果与 Adam + L2 正则化相同,
    在这里插入图片描述
  • 但是计算效率更高,之前的 L2 正则化需要在 loss 中加入正则项再算梯度,反向传播,AdamW 直接将正则项的梯度加入反向传播的公式中,减少在 loss 中加正则项这一步
    黄金时代 —— 深度学习(基础/补充)_第1张图片
  • Adamw 即 Adam + weight decate ,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后在反向传播,而Adamw直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步

你可能感兴趣的:(2020年,-,面试笔记,CV,深度学习,人工智能,机器学习)