论文地址:Remote Sensing | Free Full-Text | Sparse Label Assignment for Oriented Object Detection in Aerial Images
近年来,航空图像中的目标检测受到了广泛关注。当前主流的基于锚的方法直接根据预设锚的(IoU)将训练样本分为正和负。这种标签分配策略为训练分配密集的样本,这会导致次优的学习过程,并导致模型遭受严重的重复检测和漏检。在本文中,我们提出了一种稀疏标签分配策略(SLA)来根据检测的后验IoU选择高质量的稀疏锚。这样,分类和回归之间的不一致性得到了缓解,通过平衡训练可以获得更好的性能。接下来,为了准确地检测小而密集的目标,我们使用位置敏感特征金字塔网络(PSFPN)和坐标注意模块来提取位置敏感特征以实现精确定位。最后,提出了距离旋转IoU损失,以消除训练损失和评估指标之间的不一致性,从而获得更好的 bounding box 回归。在DOTA、HRSC2016和UCAS-AOD数据集上进行的大量实验证明了所提出方法的优越性。
关键词:航空影像;面向对象检测;标签分配;卷积神经网络
目标检测是计算机视觉领域中一项重要而富有挑战性的任务。随着深度学习的快速发展,人们提出了一系列基于卷积神经网络(CNN)的模型来实现精确的目标检测[1–7]。与自然场景中的目标不同,航空图像中的目标往往密集排列,并且在尺度、纵横比和方向上有很大的变化,这使得很难实现精确检测。
近年来,许多引入额外方向预测的旋转检测器被提出,以检测航空图像中任意方向的物体[8–15]。这些探测器首先密集地预设大量先前的盒子(也称为锚),以与地面真相(GT)对象对齐。然后根据 intersection-over-union(IoU)选择正样本进行边界盒回归。这个过程也称为标签分配。由于航拍图像中的物体在尺度、形状和方向上有很大的变化,因此需要铺设更多的锚,以便更好地匹配这些物体。因此,本文将这种密集训练样本选择策略称为密集标签分配。
密集标签分配给航空图像中的目标检测带来了许多棘手的问题。首先,大多数大规模预定义锚都是背景,这加剧了训练期间前景-背景的不平衡[16],尤其是对于单级检测器。其次,密集预测在目标检测中存在分类与回归不一致的问题,从而降低了检测性能。具体来说,密集排列的锚通常会导致多个阳性样本预测同一个对象的情况。然而,这些阳性的高分类分数的检测不能保证精确的定位结果,这已经在以前的许多工作中得到了证明[17–20]。因此,在非最大抑制(NMS)过程之后,可能会出现错误的重复检测。例如,如图1所示,图的上部显示了大对象的局部重复检测。可以看出,由于其相对较低的分类分数(0.94对0.96),高质量检测(蓝色)被低质量检测(绿色)抑制。此外,无法抑制局部错误检测框(得分为0.91的检测框)。
图1。航空图像中重复检测和漏检的可视化。
此外,航空图像中的密集目标检测由于密集标签分配而存在漏检问题。图1的底部显示了密集布置船舶的漏检示例。定位精度差的输出检测框(分数为0.93的绿色框)会抑制更准确的预测(分数为0.90和0.76的蓝色框),从而导致船舶漏检。在上述情况下,密集的阳性样本导致高重叠检测。然而,相应的分类分数不能有效区分它们的定位精度,从而导致检测性能差。
鉴于上述问题,我们认为密集标签分配不利于航空图像中的目标检测。在本文中,我们提出了一种稀疏标签分配(SLA)策略,以实现更好的训练样本选择,并改进航空图像中密集排列的面向对象检测。首先,我们进行前向传播以获得与预设锚对应的后向检测。然后,根据定位精度对检测盒进行后验非最大值抑制(P-NMS)。对于剩余的检测,其相应的初始锚定是高质量的正样本,可用于损失计算。这些选定的锚具有不同的IoU分布,彼此之间的重叠有限,这可以减少由于分类和回归之间的弱相关性而导致的误判。此外,我们对负样本进行了IoU平衡代表性采样,以缓解一级检测器中前景和背景之间的不平衡。
由于航空图像中的物体之间通常没有大的重叠,因此在这种情况下,后向非最大值抑制效果很好。因此,稀疏标签分配更适合于航空图像中的目标检测。
为了准确检测密集排列的独立目标,我们进一步提出了位置敏感特征金字塔网络(PS-FPN)来提高定位性能。PS-FPN使用坐标注意模块将定位信息编码为多尺度特征。然后将位置敏感特征映射用于高质量的目标检测。最后,采用一种新的距离旋转IoU(D-RIoU)损失函数进行旋转 bounding box回归,以加快收敛速度,并实现训练损失与定位精度的一致性。
所提出的稀疏标签分配策略有助于高精度的目标检测,且额外开销很小。我们提出的方法可以应用到现有的模型中,以获得更好的检测性能。在航空影像公共基准数据集、HRSC2016[21]和DOTA[22]上进行的大量实验证明了我们模型的优越性。
本文的贡献可以总结如下:
- 我们认为,密集标签分配策略在航空图像中会导致严重的错误重复检测和漏检,从而降低检测性能;
- 提出了一种新的稀疏标签分配(SLA)策略来实现基于后验IoU分布的训练样本选择。后验非最大值抑制和代表性采样分别用于选择阳性和阴性,以提高检测性能;
- 为了提高定位性能,采用位置敏感特征金字塔网络(PS-FPN)提取特征图。此外,还提出了一种新的距离旋转IoU(D-RIoU)损耗来解决训练损失与定位精度之间的失调问题。
本文的其余部分组织如下。第2节回顾了通用目标检测和航空图像中目标检测的相关工作。第三部分详细介绍了我们的方法。第四部分展示了所提出方法的消融实验以及在不同数据集上的性能。第五部分总结了本文。
近年来,基于卷积神经网络的方法极大地提高了目标检测的性能。提出了一系列基于CNN的检测器,以实现高质量的目标检测[1–3,6,7]。这些方法可分为两类:两级检测器和一级检测器。两级检测器首先生成一些候选区域,然后对这些区域进行分类和回归,以获得最终检测,例如更快的R-CNN[1]和R-FCN[2]。两级检测器通常具有较高的精度,但推理速度较慢。单级检测器通过一步预测实现目标检测,如YOLO级数[3,5,6],SSD[7]。单级检测器的推理速度更快,但检测精度往往略低于两级框架。
为了获得更好的检测性能,当前的检测器倾向于密集地预设大量锚盒,以实现与ground-truth(GT)对象的良好空间对齐。然后,选择带有GT框的高IoU样本作为阳性样本进行训练。这种基于偏移量的回归方法有效地限制了参数的搜索空间,加速了网络收敛[1]。然而,为了获得足够的先验语义知识,需要大量预定义的锚来实现与GT框的良好空间对齐。它会在训练过程中造成严重的失衡,并导致性能下降。为了解决这些问题,人们提出了一系列抽样方法来缓解训练样本之间的这种不平衡。例如, focal loss[16]减少了简单样本的权重,以避免损失被大量的简单负样本控制。Li等人[23]利用梯度协调机制来平衡来自不同样本的梯度流。Libra R-CNN[24]提出了IoU平衡采样,以减少标签分配过程中的不平衡。
2.2. 航空图像中的目标检测
航空图像中的目标检测因其广泛的应用场景而受到广泛关注。随着CNN方法的重大突破,航空图像中的目标检测也取得了长足的进步。
与自然图像中的物体不同,航空图像中的物体通常在尺度、纵横比、方向上有很大的变化,并且有许多场景包含密集排列的小物体。因此,在航空图像中很难检测到目标。以前的一些探测器直接引入了基于通用探测器的额外角度预测,以定位航空图像中的定向对象[8,25,26]。虽然已经取得了进展,但这些方法没有考虑到航空器图像中物体的尺度、形状和方向的巨大变化,因此不能进一步提高检测性能。
近年来,人们提出了一系列从多方面提高旋转检测器性能的工作。一些研究设计了更好的功能来提高检测精度[27–30]。例如,CAD Net[27]构造了注意力调节特征,以及全局和局部上下文,以检测不同尺度的对象。Wang等人[28]提出了一种统一的特征合并网络,以在多个尺度上聚合上下文信息,从而更好地检测小目标。CFC Net[29]通过分别构建适合分类和回归任务的特征来提高性能。Fu等人[30]提出了一种特征融合架构,通过生成多尺度特征层次来处理多尺度对象的问题。浅层特征与语义表示相结合,顶层特征与低层信息相结合,有助于检测不同尺度的目标。
定向对象的表示是航空图像中目标检测的一个独特问题,最近的一些工作[31–36]已经讨论过这个问题。Yang等人[31]提出,旋转矩形表示法存在边界问题,这使得网络难以收敛。为了解决这个问题,我们提出了圆形平滑标签[31]和密集编码标签[32]来将角度回归转换为细粒度角度分类,以避免超出范围的角度。钱等人[33]和明等人[34]构造了面向对象的多重表示,以统一边界条件,从而更好地进行 bounding box 回归优化。Yang等人[35]讨论了定位精度与定向矩形边界问题造成的损失之间的不一致性,并提出了 Gaussian Wasserstein distance loss损失来实现一致回归优化。
还有一些工作可以通过标签分配改进航空图像中的目标检测。航空图像中的目标检测方法通常遵循通用目标检测的标签分配方法。也就是说,根据预设的IoU阈值选择正样本和负样本[4]。虽然已经提出了一些新方法来改进标签分配策略[37–39],但这些工作没有考虑航空图像目标的特性。最近,有人提出了一些用于旋转空中目标检测的标签分配方法[10,20,40]。Ming等人[20]观察了 bounding box回归前后定位能力的不一致性,并提出了一种动态锚学习策略,用于自适应地选择最佳锚来进行旋转目标检测。Zhong等人[10]将旋转边界框解耦为水平边界框,以减少锚匹配过程中角度的不稳定性。Xiao等人[40]使用自适应IoU阈值来训练样本选择,以保持正锚和负锚之间的平衡。
我们方法的总体框架如图2所示。我们提出的模型由三部分组成:用于训练样本选择的稀疏标签分配策略(SLA)、用于特征提取的位置敏感特征金字塔网络(PS-FPN)和用于网络训练的距离旋转IoU损失(D-RIoU)。以下各节将详细介绍这些模块。
图2。我们模型的总体框架。
当前的旋转检测器使用密集排列的锚来实现航空图像中的目标检测。然而,大量的预设锚对于检测任务来说是多余的。一方面,冗余的负面因素导致训练损失主要由低质量的背景所主导。另一方面,如第1节所述和图3A所示,冗余阳性会导致分类分数和回归精度不一致。训练样本的冗余性和不平衡性是制约单级检测器性能的关键因素之一。
之前的一些工作已经证明,在训练期间,探测器可以在不使用密集锚的情况下获得良好的性能[6,41,42]。例如,YOLOv3[6]只使用一个IoU最高的锚作为训练的阳性样本。多锚学习方法[42]构造锚包,并从每个锚包中选择最具代表性的锚作为训练样本。
受这些工作的启发,我们引入了稀疏标签分配策略来使用稀疏锚来缓解航空图像中的重复检测和漏检问题。稀疏标签分配包括两部分:阳性的后验抑制和阴性的IoU平衡代表性抽样。
对于正样本,密集排列的锚产生密集预测。然而,分类和回归之间的不一致性妨碍了从密集预测中选择准确的检测。提出了后验非最大抑制(P-NMS)算法,根据检测的定位精度选择高质量的正样本。算法如算法1所示。具体地说,我们首先选择GT的IOU高于阈值(通常为0.5)的锚作为初步阳性样本。接下来,我们计算GT盒和检测盒之间的后验IoU,这些IoU是从初始正值回归而来的。最后,将IoU分数视为检测的置信度,并对检测执行非最大抑制。对于P-NMS后剩余的检测盒,我们将相应的初始锚作为阳性样本进行训练。
图3。显示不同的标签分配策略,包括(a)密集标签分配(DLA)和(b)稀疏标签分配(SLA)。
SLA通过对后验预测执行后验NMS,减轻了分类和回归不一致导致的错误检测。
注意,在训练的早期阶段,检测结果是不稳定的[20]。因此,在这一阶段,IoU分数也不可靠。我们采用了动态调度的NMS阈值来逐渐增加抑制强度。NMS的阈值调整策略如下:
其中N0是预定义的NMS阈值。t 代表训练过程,t∈[0, 1]. 通过等式(1),训练过程中后NMS的阈值逐渐降低,因此,抑制强度逐渐增加。这样,我们不仅可以保证训练过程的稳定性,还可以通过抑制冗余的正样本来提高检测性能。例如,如图3A所示,使用DLA训练的模型预测两个高度重叠的检测。然而,我们不能保证输出更准确的一个(蓝色框)。如图3B所示,这个问题可以通过SLA来解决,方法是用次优预测来抑制积极因素。SLA确保要素地图上每个位置的稀疏有效预测。
因为P-NMS进一步减少了正样本的数量,加剧了前景和背景样本之间的不平衡。对负样本进行稀疏采样也很重要。直观的方法是对阴性样本执行NMS操作,但由于以下两个原因,在实践中不可行:
- 首先,负片的数量远大于正片,在负片上实现NMS需要大量内存,而且非常耗时;
- 其次,检测器不会对阴性样本进行回归监督,因此GT框和阴性预测之间的IoU没有意义。
我们对阴性样本使用代表性抽样来实现平衡训练。算法如算法2所示。我们首先将锚分为三类:阳性样本、硬样本和背景样本。阳性样本通过算法1从初始阳性样本中获得。背景样本是包含大量背景的锚。这些底片的IoU小于阈值TBG(在我们的实验中设置为0.1)。硬样本包含部分对象,且难以分类,其IOU位于[Tbg,Tneg](在我们的实验中,Tnegis设置为0.4)。接下来,根据阳性样本的数量,以1:α:β的比率对不同类型的样本进行随机抽样。例如,在P-NMS后没有相反的结果,然后我们随机选择硬样本中的α·NPS样本,以及背景样本中的β·NPS样本。用于训练的负片总数为(αβ)·Np。一方面,代表性抽样保证了负样本数随正样本数的变化而动态变化,这有助于避免大量负样本主导的训练损失。另一方面,硬示例的采样增强了分类器的鲁棒性,以减少错误检测。
航空影像通常包含许多小而密集的物体。对于这些对象,坐标预测中的微小偏差可能会导致性能严重下降,因此准确定位尤为重要。我们提出位置敏感特征金字塔网络(PS-FPN),通过坐标注意模块(CAM)将定位信息嵌入特征金字塔(见图2)。
注意机制在计算机视觉领域得到了广泛的应用,并取得了巨大的成功[43–45]。然而,许多注意方法使用全局平均池(GAP),这对定位信息的编码是有害的。例如,SE block[44]和CBAM[45]采用GAP和GAM将特征张量压缩到通道方向向量中,以捕获通道方向的相关性,如图4所示。受Hou等人[43]为移动网络主干构建空间选择性注意图的启发,我们将坐标注意模块(CAM)嵌入到特征金字塔中,以提取位置敏感特征图。凸轮的结构如图4所示。
给定输入特征mapF∈RC×H×W,我们首先构建方向敏感特征,如下所示:
其中和分别是大小为1×W和的平均池核。Fx∈RC×H×1和Fy∈RC×1×W是具有方向敏感特性。例如,对于给定的输入特征F,其大小为C×H×W,Pool1×W与kerenl的大小为1×W的F进行合并,然后我们得到大小为C×H×1的输出特征。
接下来,我们连接张量并压缩它以减少参数:
Fx和Fy的级联是C×1×(W+H)。然后,通过1×1卷积运算对其进行压缩,以减少信道到C/r,从而产生M∈RC/r×1×(W+H)进一步拆分为和对位置信息进行编码,然后按如下方式重新加权输入特征:
其中σ是S形函数。然后将方向注意图加权到原始特征,以获得方向敏感特征mapF0。CAM使用水平和垂直合并将空间坐标信息编码为特征。因此,与使用全局平均池的注意机制相比,CAM编码的特征金字塔可以更准确地提取目标的定位信息,实现精确的边界盒预测。
图4。不同注意机制的结构。X-GAP和Y-GAP分别是X和Y方向上的平均池。
请注意,FPN不同特征图的感受野是不同的。使用共享权重学习多尺度目标的定位编码是不合适的。因此,我们使用独立的CAM模块对每个级别的多尺度特征进行位置编码。与许多带来大量计算成本的重非局部或自关注方法不同,CAM是轻量级的,只引入了几个卷积层,但获得了可观的性能增益。
航空图像中目标检测的另一个棘手问题是训练损失和定位精度之间的不一致。当前主流的回归损失函数是smooth-L1loss,它使用预测框和GT框相对于锚的偏移量进行训练。然而,平滑L1不能准确地表示检测的定位精度。例如,如图5所示,两个不同的检测框与GT框具有相同的旋转IoU(RIoU),但它们的回归损失不同。在smooth-L1 Loss的监督下,探测器更加关注图5右侧的情况。然而,左侧的检测框相对于GT框只有一个很小的角度偏移,这很容易优化。回归损失函数与检测定位精度之间的不一致性阻碍了回归优化,使网络难以收敛。
图5。平滑损失和定位精度之间不一致的示例。两个具有相同旋转IOU的检测盒具有不同的损耗,这导致训练的次优优化过程。
IoU损失在通用目标检测方面取得了巨大成功[46,47]。在面向对象检测中,直接使用旋转IoU来指导回归是可行的,但不是最优的。航空图像包含许多具有大纵横比的对象,例如桥梁、大型车辆和船舶。检测盒中心和GT盒中心之间的微小偏差将导致旋转IoU急剧下降。因此,在航空图像目标检测中,中心点的准确预测至关重要。
我们提出了距离旋转IoU(D-RIoU)损耗来解决上述问题。DRIoU loss使用旋转IoU指导回归过程,同时考虑中心点的偏差。公式如下:
其中PandGdenote预测框和GT框分别为。RIoU(·)计算与G之间的旋转IoU。d(·)计算pandg中心点之间的距离。cis是PANDG的最小封闭矩形的对角线。图6A显示了两个定向包围盒的最小包围矩形。
D-RIoU损耗的性能评估如图6b所示。G-RIoU损失是从通用目标检测中的GIoU损失[46]扩展而来的,如下所示:
其中g-RIoU是P的最小包围盒,g.g-RIoU有助于优化与GT盒没有交叉区域的锚。可以看出,用D-RIoU损失训练的模型实现了更快的网络收敛和更好的性能。这是因为D-RIoU损失关注对象中心点的收敛,这对于面向对象检测至关重要。
根据拟定的D-RIoU损失,模型的训练损失如下:
其中cls(t,t∗)是用于分类的二进制交叉熵(BCE)损失。坦特∗分别是预测分数和分类标签。LDRIoU(p,g)是方程(8)中定义的边界盒回归的D-RIoU损失。
HRSC2016[21]是一个具有挑战性的高分辨率船舶检测数据集,共有1061幅图像。图像大小从300×300到1500×900不等。该数据集包含大量具有大纵横比的旋转船舶。所有对象都使用定向边界框进行注释。整个数据集分为训练集、验证集和测试集,分别包括436张、181张和444张图像。
我们在HRSC2016数据集上进行了消融研究和主要实验。图像的大小分别调整为384×384和768×768,用于训练和测试。我们使用Adam优化器进行训练,学习率设置为2×10−4.我们在RTX 2080Ti GPU上对模型进行了25000次迭代训练,批量大小设置为8。
UCAS-AOD[48]是一个飞机和汽车数据集检测数据集。它包含1510张图片,包括1000张飞机图片和510张汽车图片。这些对象使用定向边界框和水平边界框进行注释。由于数据集没有正式划分,我们以5:2:3的比例将整个数据集随机划分为训练集、验证集和测试集。
图像的大小调整为768×768。我们使用Adam优化器进行训练,学习率设置为2×10−4.我们在RTX 2080Ti GPU上对模型进行了20000次迭代训练,批量大小设置为8。
DOTA[22]是航空图像中最大的面向对象检测公共数据集。DOTA中的图像大小在800×800到20000×20000像素之间,包含各种比例、方向和形状的对象。它包括2806个航空图像和188282个带注释的实例。共有15个类别,包括飞机(PL)、棒球场(BD)、桥梁(BR)、地面田径场(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、储罐(ST)、足球场(SBF)、环岛(RA)、港口(HA)、游泳池(SP)和直升机(HC)。整个数据集分为训练集、验证集和测试集,比例分别为1/2、1/6和1/3。
请注意,点A中的图像太大,我们将原始图像裁剪为768×768块,步幅为200,用于训练和测试。Adam优化器用于训练,学习率设置为2×10−4.我们在RTX 2080Ti GPU上对模型进行了500000次迭代,批量设置为8。
我们在HRSC2016数据集上进行了实验,以证明所提出的模块的有效性。我们使用带有ResNet50的视网膜网作为基线模型。图像的大小调整为384×384,不采用数据扩充。实验结果如表1所示。
表1。提出的组件对HRSC2016数据集的影响。
我们进行了实验来评估稀疏标签分配的效果,结果如表2所示。在P-NMS和1:2:100的采样率下获得了最佳性能,达到了86的AP50。08%,AP7555。60%. 可以发现,负信号的代表性采样和正信号的抑制可以有效地提高以AP75为代表的高精度检测性能。然而,不合适的超参数可能会导致召回率略有下降,从而导致AP50下降。例如,不考虑硬样本(ID1—ID5)的模型达到了比基线高的AP75,但它们的AP50略低。
ID13(85.72%)和ID15(86.08%)的性能比较表明,后验NMS(自适应阈值由公式(1)获得)可以避免早期训练阶段的不稳定性,优化高质量检测。具有固定后阈值的NMS可能会导致忽略高质量的阳性结果,并降低召回率(例如ID12的召回率为85.09%)。
对于负片的代表性抽样,IoU区间划分和抽样比率都很重要。使用硬样本进行训练有助于提高分类网络的鲁棒性,并避免给低质量检测带来高可信度。从表2可以看出,未使用硬样本训练的模型(ID1-ID5)的检测性能低于使用的模型(ID6-ID15)。此外,当采样率为1:2:100时,该模型可以获得更好的性能,因为该比率更符合锚点的实际IoU分布。
表2。HRSC2016数据集上稀疏标签分配的分析。
PS-FPN的烧蚀研究如表3所示。PS-FPN可以进一步提高基于SLA的检测性能。比较参数的最佳性能达到86。在信道压缩率为32的HRSC2016数据集上为73%。请注意,如果不同级别的特征映射采用使用共享参数的CAM,则性能会下降0。32%. 位置编码对物体的尺度敏感,因此参数无关CAM可以更好地适应不同尺度的特征,从而实现更精确的坐标编码。
表3。HRSC2016数据集上的位置敏感特征金字塔网络分析。
我们比较了不同基于RIoU的损失函数的性能,结果如表4所示。基线模型是用平滑L1loss进行视网膜网训练的,这里图像的大小调整为768×768。RIoU(线性)和RIoU(对数)如下:
可以看出,与smooth-L1相比,大多数基于RIoU的丢失可以提高高质量的检测性能。例如,RIoU(log)的AP75为2。比smooth-L1高76%。然而,G-RIoU在面向对象检测中表现不佳。G-RIoU的AP75甚至比smooth-L13更低。64%. 我们得出结论,这是由以下两个问题造成的:1.在为训练分配正面标签时,我们确保每个对象至少分配一个具有最大IoU的锚。因此,与物体不相交的锚根本不会用于回归,因此G-RIoU损失与RIoU损失类似(线性);2.两个旋转矩形之间的交点对角度和纵横比非常敏感,因此在训练过程中,最小的封闭矩形很难收敛。用我们的D-RIoU损失训练的模型达到了AP5087。92%,AP7559。15%,比主流的smooth-L1高出1%。53%和4%。分别为27%。它也优于其他基于RIoU的损失,这证明了中心距离的监控有利于面向对象的检测。
表4。在HRSC2016数据集上分析不同的培训损失。
我们可视化了在DOTA上使用不同损失函数训练的模型的一些检测结果,如图7所示。微小的位置偏差会导致小目标相对于大目标的定位结果较差,但平滑损失会同等对待,导致小目标检测的检测性能较差。如图7的第一行所示,在检测密集排列的对象时,使用平滑L1损失进行回归训练的模型存在漏检和定位不准确的问题。相比之下,D-RIoU loss使用旋转IoU来规范化不同尺度对象的回归损失,因此小目标检测的性能非常好(参见图7第二行的第二列和第三列)。此外,D-RIoU损失还施加了额外的中心点监督,这有助于大长宽比物体的回归(参见图7的第二行和第一列)。
表5显示了HRSC2016数据集上不同方法的性能比较。我们的方法优于其他比较方法,实现了89的mAP。51%. 即使使用384×384的较小输入大小和轻量级的ResNet-50作为主干,我们的模型仍然可以实现87.14%的映射。
表5。与HRSC2016数据集上其他方法的比较。
我们还比较了高质量检测性能,如表6所示。由于稀疏标签分配方法有效地缓解了冗余训练样本导致的性能下降,我们的方法在高精度检测中表现良好。该模型实现了最高的AP7568。在比较的单级探测器中占12%,这证明了我们方法的优越性。
我们可视化了一些检测结果,如图9所示。稀疏标签分配适用于定向目标检测,因为航空图像中目标之间通常没有大的重叠。可以看出,即使对于密集排列的小物体(如图9中的小型车辆和飞机),我们的方法也能输出高质量的检测结果。
我们在DOTA数据集上与一些高级算法进行了性能比较,结果如表8所示。我们的方法实现了76的映射。36%,是比较模型中最高的。我们的基线模型是一级检测器RetinaNet,但在采用所提出的模块后,它比一些先进的两级方法实现了更好的性能。
一些检测的可视化如图10所示。可以看出,DOTA数据集中的对象在尺度上有很大的变化,并且有许多场景中对象密集排列。我们的模型不存在对大型对象的重复检测,并实现了精确检测(参见图10中第一排和第二列的足球场,以及第二排和第一列的环岛)。这可以归因于SLA,它缓解了分类和回归之间的不一致性,并有助于抑制冗余检测。此外,航空图像中密集排列的小物体也很难检测,例如小型车辆和小型船舶。由于PS-FPN提取的定位特征和对D-RIoU损失的有效监控,我们的方法在稠密目标检测中取得了优异的检测性能。如图10的最后一行所示,我们的模型准确地检测到航空图像中密集的小物体,几乎没有漏检。
图10。DOTA数据集上某些检测结果的可视化。
本文分析了目前航空图像中目标检测的密集标签分配策略的不足,提出了一种稀疏标签分配策略(SLA)。SLA使用检测的后IoU执行后非最大值抑制(P-NMS),选择稀疏且高质量的锚进行训练。这样,分类和回归之间的不一致性得到了缓解,训练样本的不平衡性得到了解决。为了进一步提高航空图像中密集小目标的检测性能,我们提出了一种位置敏感特征金字塔网络(PS-FPN)。PS-FPN使用坐标注意模块,通过方向特定池提取位置敏感特征,以实现精确定位。最后,提出了距离旋转IoU损失函数(D-RIoU)用于训练,以规范化不同尺度对象的损失贡献。此外,D-RIoU损失中附加的中心点约束有助于实现大宽高比目标的精确检测。在航空图像数据集上进行的大量烧蚀实验证实了我们方法的优越性。我们得到了76的地图。DOTA数据集的36%,89%。HRSC2016数据集的51%和89%。基于简单视网膜网的UCAS-AOD数据集的43%,优于许多先进的旋转检测器。未来,我们将进一步研究回归过程中锚的优化过程,探索高质量锚的分布,这有助于实现更好的边界盒回归,以获得更高的检测性能。