SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects

对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet

论文地址:https://arxiv.org/abs/1811.07126
代码地址:https://github.com/DetectionTeamUCAS
作者解读:https://zhuanlan.zhihu.com/p/107400817

  

摘要

  物体检测一直是计算机视觉的基石。尽管已经取得了相当大的进步,但是对于具有小尺寸,任意方向和密集分布的物体仍然存在挑战。除了自然图像之外,这些问题对于非常重要的航拍图像尤其明显。本文介绍了一种用于小型,杂乱和旋转物体的新型多类别旋转探测器,即SCRDet。具体而言,设计了一个采样融合网络,它将多层特征融合到有效的锚点采样中,以提高对小物体的灵敏度。同时,通过抑制噪声和突出物体特征,共同探索有监督的像素关注网络和信道关注网络,用于小而杂乱的物体检测。为了更准确地进行旋转估计,将IoU常数因子添加到平滑L1 loss中以解决旋转边界框的边界问题。在两个遥感公共数据集DOTA,NWPU VHR-10以及自然图像数据集COCO,VOC2007和场景文本数据ICDAR2015上进行了大量实验,展示了我们探测器的最先进性能。代码和模型将在https://github.com/DetectionTeamUCAS上提供。
  

1. Introduction(介绍)

  物体检测是计算机视觉中的基本任务之一,并且已经设计出各种通用检测器[12,15,11,26,30,5,31]。 在一些基准测试中取得了有希望的成果,包括COCO [24]和VOC2007 [9]等。然而,大多数现有的探测器并没有特别关注在开放环境中进行稳健物体探测的一些有用方面:小物体,杂乱排列和任意取向。
  在现实世界的问题中,由于相机分辨率和其他原因的限制,感兴趣的物体可以具有非常小的尺寸,例如 用于检测交通标志,街道上公共摄像机下的小脸。 而且,物体的范围可以非常密集,例如 商场里的商品。 此外,物体不能再像COCO,VOC2007那样水平放置,例如, 用于场景文本检测,其中文本可以在任何方向和位置。
  特别是,上述三个挑战对于遥感图像来说非常明显,分析如下:
  1)小物件。 航拍图像通常包含被复杂周围场景淹没的小物体;
  2)杂乱的布置。 用于检测的物体通常密集排列,例如车辆和船舶;
  3)任意方向。 航拍图像中的对象可以以各种方向出现。 它受到遥感中常见的大纵横比问题的进一步挑战。
  在本文中,我们主要讨论我们在遥感环境中的方法,而方法和问题是一般的,我们已经测试了不止是航拍图像的各种数据集,如实验中所示。
  许多现有的通用探测器如FasterRCNN [31]已广泛用于航空物体探测。 然而,这种检测器的设计通常基于边界框基本上处于水平位置的隐含假设,这不是航拍图像(和其他检测任务,例如场景文本检测)的情况。 通过流行的非极大抑制(NMS)技术作为后处理进一步突出了这种限制,因为它将抑制在水平线上以任意方向检测密集排列的物体。 此外,基于水平区域的方法在方向估计上具有粗分辨率,这是提取用于遥感的关键信息。
  我们提出了一种用于小型,杂乱和旋转物体的新型多类别旋转探测器,称为SCRDet,其被指定用于解决以下问题:1)小物体:设计采样融合网络(SF-Net),其结合了特征融合和特征锚采样; 2)噪声背景:开发了一种受监督的多维注意网络(MDA-Net),它由像素注意力网络和信道注意力网络组成,用于抑制噪声和突出前景。 3)任意方向的杂乱且密集的物体:通过引入用于估计的角度相关参数来设计角度敏感网络。 将这三种技术作为一个整体,我们的方法在公共数据集上实现了最先进的性能,包括两个遥感基准DOTA和NWPU VHR-10。 本文的贡献是:
  1)对于小物体,通过特征融合和锚点采样设计出定制的特征融合结构。
  2)对于杂乱的小物体检测,开发了一种有监督的多维注意网络,以减少背景噪声的不利影响。
  3)为了更加稳健地处理任意旋转的物体,通过添加IoU常数因子来设计改进的平滑L1损失,该因子被定制以解决旋转边界框回归的边界问题。
  4)也许更重要的是,在4.2节中我们表明所提出的技术是通用的,也可以应用于自然图像并结合一般检测算法,这些算法超越了最先进的方法或通过组合进一步改进了现有方法。
  

2. Related Work(相关工作)

  现有的检测方法主要是假设检测对象沿图像中的水平线定位。 在开创性工作[12]中,提出了一个用于区域检测的多阶段R-CNN网络,随后在准确性和效率方面进行了改进,包括快速R-CNN [11],更快的R-CNN [31] 和基于区域的完全卷积网络(R-FCN)[5]。 另一方面,还有一系列最近的作品直接回归边界框,例如: 单次物体探测器(SSD)[26]并且您只需查看一次(YOLO)[30]即可提高速度。
  如上所述,存在关于小物体,密集布置和任意旋转的挑战性场景。然而,尽管它们在实践中具有重要性,但上述探测器并未特别解决它们。特别是对于航拍图像,由于其对国家和社会的战略价值,还努力开发定制的遥感方法。RP-Faster R-CNN框架是在[14]中为小型物体开发的。虽然可变形卷积层[6]和R-FCN由[40]组合,以提高检测精度。最近,[40]中的作者采用自上而下和跳过的连接来生成一个精确分辨率的单个高级特征映射,从而提高了可变形的快速R-CNN的性能。然而,这种基于水平区域的检测器仍然面临着在尺度,方向和密度方面的上述瓶颈的挑战,这需要超出水平区域检测设置的更多原理方法。另一方面,有一个遥感工作的线程,用于检测任意方向的物体。然而,这些方法通常适合于特定的对象类别,例如,车辆[36],船[41,42,28,43,27],飞机[25]等。虽然最近有一些方法可用于多类别旋转区域检测模型[2,8],但它们缺乏处理小尺寸和高密度的原则性方法。
  与自然图像的检测方法相比,场景文本检测[19,29]的文献往往更注重面向对象。 虽然这种方法在处理基于航空图像的物体检测方面仍然存在困难:一个原因是大多数文本检测方法仅限于单类物体检测[44,34,7],而通常有许多不同的类别可以识别远程传感。 另一个原因是航拍图像中的物体通常比场景文本中的物体更接近,这限制了基于分割的检测算法[7,44]的适用性,否则它们在场景文本上运行良好。 此外,通常存在大量密集分布的对象,这些对象需要有效的检测。
  本文综合考虑了上述各方面,提出了航空图像中多类任意导向目标检测的原理方法。
  

3. The Proposed Method(提出的方法)

  我们首先概述了我们的两阶段方法,如 图1 所示。在第一阶段,通过添加SF-Net和MDA-Net,特征图预计包含更多的特征信息和更少的噪声。 对于角度参数的位置灵敏度,该阶段仍然使水平框回归。 通过改进的五参数回归和第二阶段中每个提议的旋转非最大抑制(R-NMS)操作,我们可以获得任意旋转下的最终检测结果。
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第1张图片

图1:SCRDet包括SF-Net和MDA-Net,针对小而杂乱的对象的和针对旋转对象的旋转分支

  

3.1. Finer Sampling and Feature Fusion Network(更精细的采样和特征融合网络)

  在我们的分析中,检测小物体有两个主要障碍:物体特征信息不足和锚样本不足。 原因是由于使用了池化层,小对象在深层中丢失了大部分特征信息。 同时,高级特征图的较大采样步幅倾向于直接跳过较小的对象,导致采样不充分。
  特征融合: 一般认为低级特征映射可以保留小对象的位置信息,而高级特征映射可以包含更高级别的语义提示。 特征金字塔网络(FPN)[23],自上而下调制(TDM)[35]以及与对象性先验网络(RON)[21]的反向连接是涉及高级和低级特征组合的常见特征融合方法不同形式的地图。
  更精细的采样: 不适当的训练样本和不平衡会影响检测性能。 通过引入预期的最大重叠(EMO)分数,[45]中的作者计算锚和对象之间的预期最大交集(IoU)。 他们发现锚点(S_A)的较小步幅是,EMO得分越高,统计上导致所有物体的平均最大IoU提高。 图2 示出了分别给出步幅16和8的小物体采样的结果。 可以看出,较小的S_A可以采样更高质量的样本,很好地捕获小物体,这对探测器训练和推理都有帮助。

SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第2张图片

图2:使用不同锚步幅S_A的锚定采样。 橙黄色边界框表示锚点,绿色表示地面实况,红色框表示具有最大IoU地面实况的锚点。

  基于以上分析,我们设计了精细采样和特征融合网络(SF-Net),如图3 所示。在基于锚点的检测框架中,S_A的值等于特征图相对于原始图像的缩减因子。换句话说,S_A的值只能是2的指数倍。SF-Net通过改变特征图的大小来解决这个问题,使得S_A的设置更灵活,以允许更多的自适应采样。为了减少网络参数,SF-Net仅使用Resnet [16]中的C3和C4进行融合,以平衡语义信息和位置信息,同时忽略其他不太相关的特征。简单来说,SF-Net的第一个通道上采样C4,使其S_A = S,其中S是预期的锚步幅。第二个通道也将C3上采样到相同的大小。然后,我们通过一个初始结构传递C3,以扩展其接收领域并增加语义信息。初始结构包含各种比率卷积核,以捕获对象形状的多样性。最后,通过逐个元素地添加两个通道来获得新的特征映射F3。表1 显示了不同S_A下DOTA的检测精度和训练开销。我们发现最优的S A取决于特定的数据集,尤其是小物体的尺寸分布。在本文中,S的值通常设置为6,以便在准确度和速度之间进行权衡。

SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第3张图片

图3:SF-Net。 F3具有较小的S_A,同时充分考虑了不同尺度的特征融合和适应性。

SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第4张图片

表1:在不同步幅S_A下,在DOTA上进行18K迭代时,每幅图像的准确性和平均训练开销。

  

3.2. Multi-Dimensional Attention Network(多维注意力网络)

  由于诸如航空图像之类的现实世界数据的复杂性,RPN提供的建议可能会引入大量的噪声信息,如图4b所示。 过多的噪声会使对象信息不知所措,对象之间的边界将变得模糊(请参见图4a),从而导致漏检和误报增加。 因此,有必要增强对象提示并削弱非对象信息。 已经提出了许多注意力结构[18、17、37、38]来解决遮挡,噪声和模糊的问题。 但是,大多数方法是无监督的,难以指导网络学习特定目的。
  为了更有效地捕捉复杂背景下的小物体的客观性,我们设计了一种有监督的多维注意力学习器(MDA-Net),如图5所示。具体地说,在像素注意力网络中,特征图F3通过具有不同比率卷积核的初始结构,然后通过卷积运算学习两通道显着性图(参见图4d)。显着图分别表示前景和背景的分数。然后,在显着图上执行Softmax操作,并选择一个通道与F3相乘。最后,如图4c所示,获得新的信息特征图A3。应该注意的是,Softmax函数之后的显着性图的值在[0,1]之间。换句话说,它可以减少噪声并相对增强对象信息。由于显着性图是连续的,因此不会完全消除非对象信息,这对于保留某些上下文信息并提高鲁棒性是有利的。为了指导网络学习此过程,我们采用了监督学习方法。首先,我们可以很容易地根据地面真实情况将二值图作为标签(如图4e所示),然后将二值图的交叉熵损失和显着性图用作注意力损失。此外,我们还使用SENet [18]作为辅助的频道关注网络,减少率的值为16。
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第5张图片

图4:多维注意力网络的可视化。 (a)边界模糊。 (b)输入关注网络的特征图。 (c)注意网络的输出特征图。 (d)显着性图。 (e)二进制图。 (f)事实真相。

SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第6张图片

图5:设计的MDA-Net由通道关注网络和像素关注网络组成。

  

3.3. Rotation Branch(旋转分支)

  RPN网络为第二阶段提供了粗略的建议。 为了提高RPN的计算速度,我们在训练阶段将NMS操作的最高得分12,000回归框作为得分,并获得2,000作为建议。 在测试阶段,NMS从10,000个回归框中提取了300个建议。
  在第二阶段,我们使用五个参数(x,y,w,h,θ)表示面向任意方向的矩形。 在[-π/ 2,0)范围内,θ定义为与x轴的锐角,在另一侧,我们将其表示为w。 此定义与OpenCV一致。 因此,轴对齐边界框上的IoU计算可能会导致倾斜交互式边界框的IoU不正确,从而进一步破坏边界框的预测。 提出了一种考虑三角剖分的偏斜IoU计算[29]的实现,以解决该问题。 我们使用旋转非最大抑制(R-NMS)作为基于偏斜IoU计算的后处理操作。 对于数据集中形状的多样性,我们为不同类别设置了不同的R-NMS阈值。 此外,为了充分利用预训练权重ResNet,我们用C5块和全局平均池(GAP)替换了两个完全连接的层fc6和fc7。 旋转边界框的回归为:
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第7张图片
其中x,y,w,h和θ分别表示框的中心坐标,宽度,高度和角度。 变量x,x_a和x’分别用于地面真实框,锚定框和预测框(同样适用于y,w,h和θ)。

  

3.4. Loss Function(损失函数)

  使用多任务损失,其定义如下:
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第8张图片
其中N表示提案数量, t n t_n tn表示对象的标签, p n p_n pn是由Softmax函数计算的各个类别的概率分布, t n ′ t'_n tn是一个二进制值( t n ′ t'_n tn = 1表示前景, t n ′ t'_n tn = 0表示背景,背景无回归)。 v ∗ j ′ v'_{∗j} vj表示预测的偏移矢量, v ∗ j v_{∗j} vj表示地面真相的目标矢量。 u i j u_{ij} uij u i j ′ u'_{ij} uij分别代表遮掩像素的标签和预测。 IoU表示预测框和地面真相的重叠。 超参数 λ 1 λ_1 λ1 λ 2 λ_2 λ2 λ 3 λ_3 λ3控制权衡。 另外,分类损失 L c l s L_{cls} Lcls是Softmax交叉熵。 回归损失 L r e g L_{reg} Lreg是平滑的L1损失,如[11]中所定义,注意损失 L a t t L_{att} Latt是像素方向的Softmax交叉熵。
  尤其是,存在旋转角度的边界问题,如图6所示。它表明了一种理想的回归形式(蓝色框相对于红色框逆时针旋转),但是这种情况的损失非常大角度的周期性。因此,模型必须以其他复杂形式回归(例如,在缩放w和h时顺时针旋转蓝色框),从而增加了回归难度,如图7a所示。为了更好地解决这个问题,我们在传统的平滑L1损失中引入了IoU常数因子 ∣ − l o g ( I o U ) ∣ ∣ L r e g ( v j ′ , v j ) ∣ \frac{|-log(IoU)|}{|L_{reg}(v'_j,v_j)|} Lreg(vj,vj)logIoU ,如公式3。可以看出,在边界情况下,损失函数近似等于|-log(IoU)|≈0,消除了loss的突然增加,如图7b所示。新的回归损失可以分为两部分, L r e g ( v j ′ , v j ) ∣ L r e g ( v j ′ , v j ) ∣ \frac{L_{reg}(v'_j,v_j)}{|L_{reg}(v'_j,v_j)|} Lreg(vj,vj)Lreg(vj,vj)确定梯度传播的方向,并且| − log(IoU)|表示梯度的大小。此外,使用IoU优化位置精度与IoU主导的度量标准是一致的,它比坐标回归更直接,更有效。
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第9张图片

图6:旋转角的边界不连续。

SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第10张图片

图7:比较两个Loss的检测结果

  

4. Experiments(实验)

  在具有Nvidia Geforce GTX 1080 GPU和8G内存的服务器上基于TensorFlow实施测试。 我们在航标和自然图像上进行实验,以验证我们技术的通用性。 请注意,我们的技术与特定的网络骨干正交。 在实验中,我们使用Resnet-101作为遥感基准的骨干,而FPN和 R 2 R^2 R2CNN分别用于COCO,VOC2007和ICDAR2015。

4.1. Experiments on Aerial Images(航空影像实验)

4.1.1. Datasets and Protocls(数据集和协议)

  基准DOTA [39]用于航空影像中的物体检测。 它包含来自不同传感器和平台的2,806张航拍图像。 图像大小范围从800×800到4000×4000像素,并且包含显示各种比例,方向和形状的对象。 然后,专家使用15个常见对象类别对这些图像进行注释。 完全注释的DOTA基准包含188,282个实例,每个实例都标有任意四边形。 DOTA有两个检测任务:水平边界框(HBB)和定向边界框(OBB)。 随机选择一半原始图像作为训练集,将1/6作为验证集,将1/3作为测试集。 我们将图像划分为800×800个子图像,重叠200个像素。
  公开基准NWPU VHR-10 [4]包含用于检测的10类地理空间对象。 该数据集包含800个超高分辨率(VHR)遥感图像,这些图像是从Google Earth和Vaihingen数据集裁剪而来的,然后由专家手动注释。
  我们使用预训练的ResNet-101模型进行初始化。 对于DOTA,该模型总共进行了300k次迭代训练,并且学习率在从3e-4到3e-6的100k和200k迭代期间发生了变化。 对于NWPU VHR-10,训练数据集,验证数据集和测试数据集的分割率分别为60%,20%和20%。 该模型经过总计20k次迭代训练,学习率与DOTA相同。 此外,重量衰减和动量分别为0.0001和0.9。 我们使用MomentumOptimizer作为优化器,除了训练过程中的随机图像翻转外,不执行任何数据增强。
  对于参数设置,将第3.1节中讨论的预期锚跨度S设置为6,并将基础锚大小设置为256,并将锚定比例设置为 2 − 4 2^{-4} 24 2 1 2^1 21。 由于DOTA和NWPU VHR-10中的多类别对象具有不同的形状,因此我们将锚定比率设置为[1 / 1、1 / 2、1 / 3、1 / 4、1 / 5、1 / 6、1 / 7 ,1/9]。 这些设置确保可以为每个ground-truth分配正样本。 当IoU> 0.7时,将锚定为正样本,如果IoU <0.3,则将锚定为负样本。 此外,由于大纵横比矩形中的角度和IoU之间的灵敏度,第二阶段中的两个阈值都设置为0.4。 对于训练,两个阶段的最小批量大小为512。等式3中的超参数设置为 λ 1 λ_1 λ1 = 4, λ 2 λ_2 λ2 = 1, λ 3 λ_3 λ3 = 2。
  
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第11张图片

表2:在DOTA数据集上对我们提出的方法中的每个组成部分进行烧蚀研究(? Ablative study,不知道咋翻)。 类别的简称定义为:PL-飞机,BD-棒球钻石,BR-桥梁,GTF-地面赛道,SV-小型车,LV-大型车,SH-Ship,TC-网球场,BC-篮球 球场,ST储油罐,SBF足球场,RA-Roundabout,HA港口,SP游泳池和HC直升机。

  
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第12张图片

表3:在DOTA数据集上评估OBB和HBB任务的性能。

  
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第13张图片

表4:NWPU VHR-10上HBB任务的性能。

  
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第14张图片

表5: “MDA-Net†”是指没有监督学习的MDA-Net。 “baseline†”表示有监督的baseline。

  

4.1.2 Ablation Study

  基准设置。 我们选择基于Faster-RCNN的R 2 CNN [19]作为消融研究的基线,但不仅限于此方法。 为了公平起见,所有实验数据和参数设置均严格一致。 我们使用平均平均精度(mAP)作为性能指标。 此处报告的DOTA的结果是通过将我们的预测提交到官方DOTA评估服务器(见引用1)获得的。

引用1: https://captain-whu.github.io/DOTA/

  MDA-Net的效果。 如3.2所述,注意结构有利于抑制噪声影响并突出显示对象信息。 从表2还可以看出,加入像素注意力网络后,大多数物体的检测结果均有不同程度的提高,总mAP增加了3.67%。 MDA-Net进一步提高了宽高比目标的检测精度,例如桥梁,大型车辆,船舶,港口等。 与像素关注相比,MDANet将mAP提升了约1%,达到65.33%。 表5显示了监督学习是MDANet的主要贡献,而不是计算。
  **SF-Net的效果。**减小锚的步幅大小和特征融合是改进对小物体的检测的有效手段。在表2中,我们还研究了[45]中介绍的技术。移位锚点(SA)和移位抖动(SJ)都遵循使用单个特征点使多个子区域的边界框回归的想法。实验表明,根据原始论文的观察,这两种策略几乎无法提高准确性。扩大特征图是减少 S A S_A SA的好策略,包括双线性上采样(BU),带跳过连接的双线性上采样(BUS),膨胀卷积(DC)。尽管这些方法考虑了采样对小物体检测的重要性,并且其检测性能已得到不同程度的改善,但 S A S_A SA设置仍然不够灵活,无法获得最佳采样结果。 SF-Net有效地建模了特征融合和 S A S_A SA设置的灵活性,它实现了68.89%的最佳性能,特别是受益于对小物体(如车辆,船舶和储罐)的改进。
  IoU平滑L1丢失的影响。 IoU平滑L1损耗消除了角度的边界影响,使模型更容易回归到对象坐标。 这个新的损失将检测精度提高到69.83%。
  图像金字塔的效果。 基于图像金字塔的培训和测试是提高性能的有效手段。 ICN [2]方法使用图像级联网络结构,类似于图像金字塔的想法。 在这里,我们将原始图像随机缩放为[600×600、800×800、1,000×1,000、1、200×1,200],并将其发送到网络进行训练。 为了进行测试,每个图像都以四个比例进行测试,并通过R-NMS进行组合。 如表2所示,图像金字塔可以显着提高检测效率并达到72.61%的mAP。 DOTA上每个类别的检测结果如图8所示。

图8:DOTA示例。 我们的方法在小尺寸,任意方向和高密度的对象上表现更好。

4.1.3. Peer Methods Comparison(对等方法比较)

  OBB任务。 除了DOTA提供的官方基准,我们还与RRPN [29],R 2 CNN [19],R-DFPN [41],ICN [2]和RoI-Transformer [8]进行了比较,它们都适用于多 分类旋转对象检测。 表3显示了这些方法的性能。 RoI-Transformer,ICN和SCRDet在小物体检测方面的出色性能归因于特征融合。 SCRDet考虑了融合中接收场的扩展和噪声的衰减,因此对于大型物体,它比ICN和RoI-Transformer更好。 我们的方法在现有已发表结果中排名第一,达到mAP的72.61%。
  HBB任务。 我们使用DOTA和NWPU VHR-10来验证我们提出的方法并屏蔽代码中的角度参数。 表3和表4分别显示了两个数据集的性能。 在DOTA文献中,我们在现有方法中也排名第一,约为75.35%。 对于NWPU VHR-10数据集,我们将其与9种方法进行比较,并以91.75%的质量实现了最佳检测性能。 我们的方法可在一半以上的类别上实现最佳检测精度。

4.2. Experiments on Natural Images(自然图像实验)

  为了验证我们模型的通用性,我们进一步验证了在通用数据集和通用检测网络FPN [23]和 R 2 C N N R^2CNN R2CNN [19]上提出的技术。 我们选择COCO [24]和VOC2007 [9]数据集,因为它们包含许多小对象。 我们还使用ICDAR2015 [20],因为存在用于场景文本检测的旋转文本。
  由表6可以看出,在COCO [24]和VOC2007 [9]数据集上,带有MDA-Net的 F P N ∗ FPN^* FPN可以分别增加0.7%和2.22%。 如图9所示,MDA-Net在密集和小物体检测方面均具有良好的性能。 平滑损耗并未对水平区域检测带来很大的改善,因此也反映了其与旋转检测边界问题的相关性。
SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第15张图片

表6:拟议结构对通用数据集的有效性。 符号∗表示我们自己的实现。 对于VOC 2007,所有方法均在VOC2007训练集上进行训练,并在VOC 2007测试集上进行测试。 对于COCO,所有结果都是在最小集合上获得的。 对于ICDAR2015,将结果提交到官方网站即可获得结果。

图9:COCO的检测结果。 第一列是 F P N ∗ FPN^∗ FPN + MDA-Net的结果,第二列是 F P N ∗ FPN^∗ FPN 。 红色框表示丢失的对象,橙色框表示错误警报。

  根据[19],对于ICDAR2015, R 2 C N N R^2CNN R2CNN-4的单一比例达到74.36%。 由于它不是开源的,因此我们重新实现它,并根据无多个合并大小结构的纸张中旋转框的定义将其版本称为 R 2 C N N R^2CNN R2CNN- 4 ∗ 4^* 4,我们的版本可以实现77.23%的mAP。 然后,我们为 R 2 C N N R^2CNN R2CNN- 4 ∗ 4^* 4配备我们提出的技术,并将其称为 S C R D e t − R 2 C N N SCRDet-R^2CNN SCRDetR2CNN。 它在单个规模上实现了最高的性能80.08%。 再次证明了本文提出的结构的有效性。 根据图10, S C R D e t − R 2 C N N SCRDet-R^2CNN SCRDetR2CNN可以显着改善密集对象检测的召回率。

图10:COCO和ICDAR2015的检测结果。 第一列是采用我们的技术( S C R D e t − R 2 C N N SCRDet-R^2CNN SCRDetR2CNN)的 R 2 C N N R^2CNN R2CNN- 4 ∗ 4^* 4的结果,第二列是vanilla的 R 2 C N N R^2CNN R2CNN- 4 ∗ 4^* 4的结果。 红色箭头表示错过的对象。

  

5. Conclusion(结论)

  我们提出了一种端到端的多类别检测器,该检测器指定用于任意旋转的对象,这在航空影像中很常见。 考虑到特征融合和锚点采样的因素,增加了具有较小 S A S_A SA的采样融合网络。 同时,该算法通过监督的多维注意力网络来减弱噪声的影响并突出显示对象信息。 此外,我们实施旋转检测以保留方向信息并解决密集的问题。 我们的方法在两个公共遥感数据集上获得了最先进的性能:DOTA和NWPU VHR-10。 最后,我们在自然数据集(例如COCO,VOC2007和ICDAR2015)上进一步验证了我们的结构。

你可能感兴趣的:(论文翻译)