面向对象的目标检测在航空图像,场景文本和面部等方面的重要性近来已引起视觉界的越来越多的关注。在本文中,我们证明了现有的基于回归的旋转检测器存在边界不连续的问题,这是直接造成的通过角度周期性或角顺序。通过仔细研究,我们发现根本原因是理想的预测超出了定义的范围。我们设计了一个新的旋转检测基线,通过将角度预测从回归问题转换为分类任务而解决了边界问题,而精度损失很少,从而与以前在旋转检测中使用粗粒度的工作相比,设计了高精度的角度分类。我们还提出了一**种圆形平滑标签(CSL)**技术来处理角度的周期性并增加对相邻角度的误差容限。我们进一步介绍了CSL中的四个窗口函数,并探讨了不同窗口半径大小对检测性能的影响。在两个大规模的航空影像公共数据集(即DOTA,HRSC2016和场景文本数据集ICDAR2015和MLT)上进行了广泛的实验和视觉分析,证明了该方法的有效性。
对象检测是计算机视觉中的基本任务之一。特别是,旋转检测在航空影像[2,4,41,42,44],场景文字[12,18,19,24,27,49]和面部[11,33, 34]。旋转检测器可以提供准确的方向和比例信息,这在诸如航空图像中的对象变化检测以及多方向场景文本的顺序字符识别等应用中将很有帮助。
最近,已经提出了一系列从经典检测算法[3,7,20,21,32]演变而来的高级旋转检测器。在这些方法中,基于区域回归的检测器占据了主流,并且通过旋转边界框或四边形来实现多方向对象的表示。尽管这些旋转检测器取得了令人鼓舞的结果,但仍然存在一些基本问题。具体来说,我们注意到五参数回归法和八参数回归法都存在边界不连续的问题,这通常是由角度周期性或角顺序引起的。但是,内在的原因并不限于包围盒的特定表示。在本文中,我们认为基于回归方法的边界问题的根本原因是理想的预测超出了定义范围。因此,模型在边界处的损失值突然增加,使得模型无法以最简单,最直接的方式获得预测结果,并且经常需要进行其他更复杂的处理。因此,这些检测器通常在边界条件上有困难。对于使用旋转边界框进行检测,角度预测的准确性至关重要。轻微的角度偏差会导致重要的“交集相交”(IoU)下降,从而导致对象检测不准确,尤其是在宽高比较大的情况下。
已经有一些解决边界问题的工作。例如,IoU-smooth L1 [44]损失引入了IoU因子,而模块化旋转损失[30]增加了边界约束,从而消除了边界损失的突然增加并降低了模型学习的难度。但是,这些方法仍然是基于回归的检测方法,并且仍不能解决上述根本原因。
在本文中,我们旨在找到更基本的旋转检测基线以解决边界问题。具体来说,我们将对象角度的预测视为分类问题,以更好地限制预测结果,然后设计圆形平滑标签(CSL)来解决角度的周期性并增加相邻角度之间的误差容限。尽管从连续回归到离散分类的转换,精度损失对旋转检测任务的影响可以忽略不计。我们还介绍了CSL中的四个窗口函数,并探讨了不同窗口半径大小对检测性能的影响。经过大量实验和视觉分析,我们发现在不同的检测器和数据集上,基于CSL的旋转检测算法确实比基于角度回归的方法更好。请注意,后续章节中提到的基于回归和基于CSL的方法是根据角度的预测形式进行划分的。
总而言之,本文的主要贡献有四个方面:
我们总结了不同基于回归的旋转检测方法中的边界问题[2、4、41、42],并显示出根本原因是理想预测超出了定义范围。
我们设计了一个新的旋转检测基线,该基线将角度预测从回归问题转换为分类问题。特别是,据我们所知,我们设计了第一个基于高精度角度(小于1度)分类的管道进行旋转检测,这与以前的粗分类粒度(大约10度)方法相反[33]。与基于回归的方法相比,我们的方法几乎没有精度损失,并且可以有效消除边界问题。
我们还提出了圆形平滑标签(CSL)技术,它是一个独立的模块,通过将分类替换为回归,也可以很容易地在现有基于回归的方法中重用,以解决边界条件和宽高比较大的对象的角度预测。
在DOTA和HRSC2016上的大量实验结果表明了我们探测器的最新性能,并且我们的CSL技术作为独立组件的功效已在不同探测器上得到验证。
水平区域物体检测。经典对象检测旨在利用水平边界框检测图像中的常规对象,并且已经提出了许多高性能的通用对象检测。 R-CNN [8]率先提出了基于CNN检测的方法。随后,提出了基于区域的模型,例如Fast R-CNN [7],Faster R-CNN [32]和R-FCN [3],该模型在降低计算存储量的同时提高了检测速度。 FPN [20]专注于图像中对象的比例变化,并提出了特征金字塔网络来处理不同比例的对象。 SSD [23],YOLO [31]和RetinaNet [21]是代表性的单级方法,它们的单级结构使它们具有更快的检测速度。与基于锚的方法相比,近年来许多无锚方法变得非常流行。 CornerNet [15],CenterNet [5]和ExtremeNet [48]尝试预测对象的一些关键点,例如角或极点,然后将它们分组到边界框中。但是,水平检测器不能提供准确的方向和比例信息,这在实际应用中会产生问题,例如航拍图像中的对象变化检测和多方向场景文本的顺序字符识别。
面向任意对象的检测。航拍图像和场景文字是旋转探测器的主要应用场景。多方向目标检测的最新进展主要是通过使用旋转边界框或四边形来表示多方向目标的经典目标检测方法的改编来推动的。由于遥感影像场景的复杂性以及大量小的,杂乱的和旋转的物体,多级旋转检测器的稳健性仍然占主导地位。其中,ICN [2],ROITransformer [4],SCRDet [41],R3Det [41]是最先进的检测器。滑翔顶点[40]和RSDet [30]通过四边形回归预测实现了更准确的对象检测。对于场景文本检测,RRPN [27]使用旋转的RPN生成旋转的建议并进一步执行旋转的边界框回归。 TextBoxes ++ [18]在SSD上采用了顶点回归。 RRD [19]通过分别解耦旋转不变特征和旋转敏感特征的分类和边界框回归,进一步改进了TextBoxes ++。尽管基于回归的面向任意对象的检测方法占据了主流,但我们发现由于超出定义范围的情况,这些方法大多数都存在一些边界问题。因此,我们设计了一种新的旋转检测基线,该基线基本上通过将角度预测从回归问题转换为分类问题而几乎没有精度损失,从而消除了边界问题。
定向信息的分类。通过分类获得方位信息的方法更早地用于具有任意平面内旋转(RIP)角度的多视图面部检测。在[11]中采用分治法,它使用几个小的神经网络分别处理小范围的面部外观变化。在[33]中,首先使用路由器网络来估计每个候选面部RIP角度。 PCN [34]逐步校准每个人脸候选者的RIP方向,并在早期将RIP范围缩小一半。最后,PCN为每个面部候选者做出准确的最终决定,以确定它是否是面部并预测精确的RIP角度。在其他研究领域,[14]采用序数回归进行有效的未来运动分类。 [43]通过对四边进行分类获得船舶的方位信息。以上方法都是通过分类获得的近似方位范围,但不能直接应用于需要精确方位信息的场景,如航空影像和场景文本。
我们给出了如图1所示的方法的概述。该实施例是基于RetinaNet [21]的单级旋转检测器。该图显示了一个多任务处理管线,包括基于回归的预测分支和基于CSL的预测分支,以促进两种方法性能的比较。从图中可以看出,基于CSL的方法对于学习对象的方向和比例信息更为准确。应当指出,本文提出的方法适用于大多数基于回归的方法,该方法已在FPN [20]检测器中进行了实验验证。
当前,参数回归是旋转对象检测的一种流行方法,主要包括基于五参数回归的方法[4,12,27,41,42,44]和基于八参数回归的方法[18、25、30、40 ]。常用的基于五参数回归的方法通过添加额外的角度参数θ来实现面向任意方向的边界框检测。图2(a)显示了一个90度角范围[27、41、42、44]的矩形定义(x,y,w,h,θ),其中θ表示相对于x轴的锐角,对于另一面我们称之为w。它应与图2(b)所示的另一个定义(x,y,h,w,θ)区别开,其角度范围为180°[4,27],其θ由金属的长边(h)确定。矩形和X轴。基于八参数回归的检测器直接回归对象的四个角(x1,y1,x2,y2,x3,y3,x4,y4),因此预测是四边形的。四边形回归的关键步骤是预先对四个角点进行排序,即使预测正确,这也可以避免很大的损失,如图所示。
尽管基于参数回归的旋转检测方法已经在不同的视觉任务中获得了竞争性能,并且已成为许多出色检测方法的基础,但这些方法实质上遭受了不连续边界问题的困扰[30,44]。边界不连续性问题通常是由五参数方法中的角度周期性和八参数方法中的角顺序引起的,但无论边界框的表示选择如何,都存在更多的根本原因。
边界不连续性问题通常会使模型在边界处的损失值突然增加。因此,方法必须诉诸于特定且通常是复杂的技巧来减轻此问题。因此,这些检测方法在边界条件下常常不准确。我们根据其代表形式的不同,在三种典型的基于回归的方法中描述边界问题(前两种是指五参数方法):
基于90°回归的方法,如图3(a)所示。它显示了一种理想的回归形式(蓝色框相对于红色框逆时针旋转),但是由于角度的周期性(PoA)和边的可交换性(EoE),这种情况的损失非常大,请参见有关详细信息,请参见图3(a)和公式3、4、5。因此,必须以其他复杂形式对模型进行回归(例如,缩放w和h时,将蓝色框顺时针旋转到灰色框),从而增加了回归的难度。
基于180°回归的方法,如图3(b)所示。类似地,该方法也存在由边界处的PoA引起的损耗急剧增加的问题。该模型最终将选择将投标顺时针旋转一个大角度,以获得最终的预测边界框。
基于点的方法,如图3(c)所示。通过进一步分析,由于角点的提前排序,八参数回归方法中仍然存在边界不连续性问题。考虑边界情况下八参数回归的情况,理想的回归过程应为{(a→b),(b→c),(c→d),(d→a)},但实际回归从蓝色参考框到绿色地面真相框的过程是{(a→a),(b→b),(c→c),(d→d)}。实际上,这种情况也属于PoA。相比之下,蓝色到红色边界框的实际和理想回归是一致的。
基于以上分析,提出了一些解决这些问题的方法。例如,IoU平滑L1 [44]损失引入了IoU因子,而模块化旋转损失[30]增加了边界约束,从而消除了边界损失的突然增加并降低了模型学习的难度。但是,这些方法仍然是基于回归的检测方法,并且根本没有给出解决方案。在本文中,我们将从一个新的角度出发,将回归替换为分类,以实现更好,更强大的旋转检测器。我们基于回归值复制了一些经典的旋转检测器,并在边界条件下进行了可视化比较,如图4(a)至图4(e)所示。相反,基于CLS的方法没有边界问题,如图4(i)所示。
基于回归方法的边界问题的主要原因是理想的预测超出了定义的范围。因此,我们将物镜角度的预测视为分类问题,以更好地限制预测结果。一种简单明了的解决方案是将对象角度用作其类别标签,并且类别数与角度范围有关。图5(a)显示了用于标准分类问题(单标签编码)的标签设置。从回归到分类的转换可能会导致一定的准确性损失。以角度范围为180°的五参数方法为例,每个间隔的ω(默认ω= 1°)度是一个类别。我们可以计算出最大精度损失M ax(loss)和预期精度损失E(loss):
根据以上公式,可以看出旋转检测器的损耗很小。例如,当两个长宽比为1:9的矩形相差0.25°和0.5°(默认预期误差和最大精度损失)时,它们之间的“联合相交”(IoU)只会减小0.02和0.05。但是,onehot标签在旋转检测方面有两个缺点:
当边界框使用基于90°回归的方法时,EoE问题仍然存在。此外,基于90°回归的方法具有两种不同的边界情况(垂直和水平),而基于180°回归的方法仅具有垂直边界情况。
因此,我们设计了一种圆形平滑标签(CSL)技术,以通过分类获得更鲁棒的角度预测,而不会遇到包括EoE和PoA在内的边界条件。从图5(b)可以清楚地看到,CSL涉及具有周期性的圆形标签编码,并且分配的标签值是平滑的且具有一定的容差。 CSL的表达如下: