总结smooth L1为什么好!

smooth L1 loss能从两个方面限制梯度:

  • 当预测框与 ground truth 差别过大时,梯度值不至于过大;
  • 当预测框与 ground truth 差别很小时,梯度值足够小。

考察如下几种损失函数,其中
总结smooth L1为什么好!_第1张图片
损失函数对 x 的导数分别为:
总结smooth L1为什么好!_第2张图片
观察 (4),当 x 增大时 L2 损失对 x 的导数也增大。这就导致训练初期,预测值与 groud truth 差异过于大时,损失函数对预测值的梯度十分大,训练不稳定。

根据方程 (5),L1 对 x 的导数为常数。这就导致训练后期,预测值与 ground truth 差异很小时, L1 损失对预测值的导数的绝对值仍然为 1,而 learning rate 如果不变,损失函数将在稳定值附近波动,难以继续收敛以达到更高精度。

最后观察 (6),smooth L1 在 x 较小时,对 x 的梯度也会变小,而在 x 很大时,对 x 的梯度的绝对值达到上限 1,也不会太大以至于破坏网络参数。 smooth L1 完美地避开了 L1 和 L2 损失的缺陷。其函数图像如下:
总结smooth L1为什么好!_第3张图片
由图中可以看出,它在远离坐标原点处,图像和 L1 loss 很接近,而在坐标原点附近,转折十分平滑,不像 L1 loss 有个尖角,因此叫做 smooth L1 loss。

总结:

  • 当预测值与目标值相差很大时, 梯度容易爆炸,将原先L2梯度里的x−t,替换成了±1, 这样就避免了梯度爆炸, 也就是它更加健壮。
  • 作者最正统的解释,因为回归的targets没有明确的限制,因此可能会出现较大的错误的偏移去主导loss的情况,最终造成梯度爆炸,使用smooth L1能够更好地避免这种情况。Smooth L1 Loss结合了L2 Loss收敛更快,且在0点有导数,便于收敛的好处。也在边界区域结合了L1 Loss的好处,让网络对异常值更加robust,能够在偏移值较大时还能拉回来。
  • smooth L1 loss让loss对于离群点更加鲁棒,相比于L2损失函数,smooth L1 loss 对离群点、异常值(outlier)不敏感,可控制梯度的量级使训练时不容易跑飞。

参考:

  • 请问 faster RCNN 和 SSD 中为什么用smooth L1 loss,和L2有什么区别? - 知乎用户的回答1
  • 请问 faster RCNN 和 SSD 中为什么用smooth L1 loss,和L2有什么区别? - 知乎用户的回答2
  • 请问 faster RCNN 和 SSD 中为什么用smooth L1 loss,和L2有什么区别? - 知乎用户的回答3

你可能感兴趣的:(深度学习,深度学习,神经网络)