论文:https://arxiv.org/abs/2303.04989
代码:https://github.com/httle/ARS-DETR
解读:ARS-DETR:遥感领域的DETR(ICCV2023) - 知乎 (zhihu.com)
现有的目标检测方法通常使用度量AP50来度量模型的性能。论文认为AP50的角度偏差公差较大,本质上不适合旋转目标检测。因此,论文提倡使用高精度度量,如AP75,来衡量模型的性能。(论文的检测器在AP75上效果比较好,在AP50上效果不行)
本文提出了基于Transformer的高宽比敏感的旋转目标探测器,称为ARS-DETR,它在高精度面向目标检测中具有竞争力的性能。具体来说:
AP50是面向对象检测中最常用的度量,许多工作都根据AP50来比较性能。然而,论文表示怀疑:AP50能否很好地反映定向目标探测器的性能?通过可视化分析,长宽比较小的物体对角度偏差不敏感,而长宽比较大的物体则相对敏感。且遥感领域比较注重旋转框的角度,相比AP50,AP75能更好地衡量旋转框的角度。
这些框虽然中心点贴近目标,但是角度差很多,然而这些框的AP50都还不错图1显示了一些探测器的可视化。可以发现,一些边界框的中心点、长度和宽度都非常接近对象,但角度偏差很大。即便如此,它们中的大多数仍将被检测为阳性,并将在AP50方面实现高性能。因此,这种异常现象促使论文提倡使用更严格的度量(如AP75)来评估性能,并将重点放在更有意义的高精度定向对象检测上。
不同高宽比下的SkewIoU与角度偏差之间的关系,ar表示长宽比。不同高宽比的边界框的SkewIoU变化趋势明显分为两种类型:
综上所述,长宽比较小的物体对角度偏差不敏感,而长宽比较大的物体则相对敏感。
在AP50上差距很小的检测器在AP75上表现出明显差距(-H表示将预测结果转换为一个水平边界矩形)遥感领域比较注重旋转框的角度,AP75能够更好的衡量旋转框的角度.
角度作为定向目标检测中的一个独特参数,在高精度检测中起着至关重要的作用。基于分类的方法在高精度定向目标检测中的强大潜力。但仍然存在一些问题,例如完全忽略角度和边界框之间的相关性,引入超参数(例如CSL[36]中的窗口半径)等。因此,角度预测的准确性在一定程度上受到了阻碍。
DETR将对象检测视为一个集合预测任务,并通过二分图匹配分配标签,这实现了与Faster RCNN等分类检测器相当的性能。现有的DETR变体显著提高了检测性能和收敛速度,显示出Transformer在高精度物体检测方面的巨大潜力。尽管已经提出了一些基于DETR的面向对象检测方法[,但它们仍然使用回归来预测角度,并且没有考虑边界不连续引起的问题。同时,他们以一种天真的方式预测角度,并没有探索如何将床角度信息输入DETR。如何在面向对象检测中更自然地使用DETR仍然是一个研究课题。
本文提出了一种基于纵横比敏感的可变形DETR的面向目标检测,称为ARS-DETR。具体而言,无超参数纵横比感知圆平滑标签(AR-CSL)被设计为根据对象的纵横比来表示相邻角度的关系。考虑到不同物体对角度的敏感性,AR-CSL使用每个角度偏差下具有不同纵横比的物体的SkewIoU来平滑角度标签。然后,还提出了一个旋转的可变形注意力模块,将形成的角度嵌入到基于DETR的检测器中,以对齐特征。
最后,采用了纵横比感知损失和匹配策略,使检测器的训练可以动态调整,这可以大大减轻模型训练的负担。大量实验表明,ARS-DETR在不同数据集上的高精度定向目标检测中确实是一种优秀的检测器。
贡献在于:
不使用基于回归的损失函数,而是将角度预测转换为一个分类任务,从而使边界问题自然消失。CSL将该角度划分为180个类别,并将第一角度类别和最后一个角度类别作为相邻的角度类别,从而消除了边界不连续的影响。然后,采用高斯窗口函数进行平滑,从而反映相邻角度类别之间的相关性,使其对角度估计误差有一定的容忍度。
CSL有两个问题:
固定的窗口函数和超参数(即半径)在一定程度上损害了基于分类的定向对象检测器的适用性。本节从编码形式的角度来解决上述问题。
考虑到SkewIoU可以动态地反映不同物体的相邻角度之间的相关性,设计了一种感知纵横比的圆形平滑标签(AR-CSL)技术,使用SkewIoU而不是固定的窗口函数来平滑标签,以获得更合理的角度预处理。具体来说,根据等式1计算每个角度偏差下边界框的SkewIoU,并将计算值作为当前角度类别bin的标签。
AR-CSL有两点优势:
在DETR中迭代角度信息的两种方法。(a) 尽管角度信息在每一层之后都会迭代更新,但它并没有嵌入到DETR中。(b) 在本文方法中,角度信息将在每一层之后被替换为新的值,并且角度信息将有助于对齐特征。
下图显示了一种基于DETR的定向检测器(Naive method),其仅在头部上添加额外的角度参数,以实现旋转边界盒估计。然而,它并没有将角度信息嵌入检测器中,以利用检测器的最大潜力。这种方法会导致整个检测器的特征错位,特别是在其可变形注意力模块中,如图第6(a)和第7(b)。
(a)使用水平参考框,采样点被限制在参考框内(b)使用旋转参考框,采样点适配目标如图7(a)所示,可变形注意力模块中的采样点将根据相应的参考框进行调整,使采样点限制在参考框内,并尽可能落在物体内。然而,如图7(b)所示,当对象为定向类型时,如果仍然使用水平参考框,则采样点无法准确对齐对象。为此,论文设计一个可旋转变形注意力模块,根据嵌入的角度信息旋转采样点,使采样点与特征对齐,如图7(c)和图7(d)所示。对齐采样点的可视化也如图6(b)所示。此外,论文没有逐层细化角度,而是在每层之后独立预测一个新的角度,如图所示第5(b)。
为了进一步提高基于DETR的模型的性能,采用了DINO的去噪(DN)训练策略。然而,在将噪声θ0添加到对象的角度上有一点不同。将λ定义为噪声标度,而不是类所采用的将类标签随机翻转到其他标签的方法.
修改了DETR中的角度损失函数和匹配代价:
修改后,将高宽比较大的物体与角度更相似的边框进行匹配,角度损失计算也会增加对角度精度的要求。因此,该模型可以灵活地调整不同高宽比对象的训练策略。