Bounding box(bbox)回归是CV中的一项基本任务,最常用的损失函数是IOU Loss 和相关变体。文章将现有的基于IoU Loss推广到一个新的Power IoU系列 Loss,它具有一个幂次IoU项和一个附加的幂次正则项。这种新的损失系列为α-IoU Loss。
在多个目标检测基准和模型上的实验表明,α- iou损失
目标检测通常包含分类预测和回归预测(bounding box的预测)。早前的bbox回归采用的是L_n范式,最近的相关工作则直接采用IOU Loss作为定位损失。
IOU Loss损失对bbox scales是不变的,所以能够更好的训练检测器,但是当预测框和真实框没有重叠的时候存在梯度消失的问题,从而导致降低收敛速度和检测精度。所以就有了IOU Loss的相关变体: Generalized IoU (GIoU), Distance-IoU (DIoU) and Complete IoU (CIoU)。
GIoU在IoU loss 中加入了惩罚项来减轻梯度消失的问题,DIoU和CIoU在惩罚条件下考虑了预测框和真实框之间的中心点距离和长宽比。
文章对现有的基于IoU Los采取幂变换提出了一个新的IoU losser family:
并且通过实验发现,在大多数情况下,取α=3的效果最好。
文章贡献:
Object Dection Models
|---anchor-based
|--- two-stage models
|---RCNN
|---HTC
|---TSD
|---one-stage models
|---YOLO series
|---RetinaNet
|---SSD
|---anchor-free
|--- CornerNet
|---CenterNet
|---ExtremeNet
|---CentripetalNet
|---FCOS
|---Transformer
先前的基于L_n范式的bbox回归损失对于不同规模的bbox是比较敏感的,最近的相关工作是基于IoU loss和相关其变体,因为IoU是定位度量,所以对于bbox的尺度是不改变的。如BIoU、GIoU、DIoU和CIoU。
Lα-IoU的幂变换保留了L-IoU的关键性质,包括非负性、不可分辨恒等式、对称性和三角不等式。
对于:
img—input—>模型M_i—predict—>B_i
img—input—>模型M_j—predict—>B_j
ground truth: B_gt
若有:IoU(B_i, B_gt)< IoU(B_j, B_gt)
Lα-IoU有如下特性:
1.次序保持
可知L-IoU和Lα-IoU都是单调递减函数。
2.相对损失权重
当α >1时,加权因子随IoU的增加而单调增加(从1到α),在0<α <1时,随IoU的增加而单调减少(从1衰减到α)。实验证明了Lα-IoU(α >1)可以帮助模型更专注于High IoU目标,以提高定位和检测的性能。
3.相对梯度权重
当α>1时,上述reweighting factor 单调地随IoU的增加而增加,而在0<α<1时单调地随IoU的增加而减少。这种相对梯度重新加权方案允许模型根据目标的IoU学习具有自适应速度(即不同梯度)的目标。
理论上,当α=2时加速了在AP50时对所有正向IoU目标的学习。然而,实验表明,在大多数情况下,α =3的α-IoU损失比α=2的α-IoU损失更具竞争力。
性质4
当α>1时,α增加了绝对损失量,这为优化所有层次的目标创造了更多空间。
性质5
α对高IoU目标设置了绝对梯度权值,从而加速对高IoU目标的学习。
Lα-IoU的绝对性质和相对性质都与物体的IoU值相适应,这种重新加权方案将提供更大的灵活性,以实现不同水平的bbox回归精度。
利用lα- iou进行训练是一个动态过程,需要同时基于绝对和相对性质来解释。在α >1中,简单的例子将首先学习,并逐渐提高速度,直到iou = 1,而困难的例子将逐渐学习,并随着其IoU的提高而加速。
图3表明,提高高IOU对象的损失和梯度的权重可以促进后期的训练。
首先验证了Lα-IoU损失在VOC和MS COCO数据集上训练基于Anchor和Anchor-Free模型的有效性。同时,对比yolov5s和yolov5x的map值提升,我们可以发现Lα-IoU损失更倾向于轻量化的模型。
Lα-IoU损失在噪声场景下也优于所有的Baseline,当没有噪声时并不总是这样(对比表1)。此外,Lα-IoU损失在更严重的噪声中更稳健。当噪声率η从0.1增加到0.3时,mAP/mAP75:95从2.97%/10.26%增加到6.39%/24.09%,证实了Lα-IoU损失在噪声场景中的优势。
图6显示了YOLOv5s在PASCAL VOC上的结果,包括各种噪声场景。很明显,Lα- iou损失在所有情况下都表现得很好,其中α = 3在大多数情况下表现最好。