目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet

论文简介

论文中文翻译:《对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet》

论文名称:《SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects》

录用日期:2019年8月10日


摘要

  • 目标检测一直是计算机视觉中的一个重要组成部分。虽然已经取得了相当大的进展,但对于小尺寸、任意方向和密集分布的物体仍然存在挑战。除了自然图像外,这类问题对非常重要的航空图像尤其突出。本文提出了一种新型的多类别旋转检测器,用于小的、杂乱的和旋转的物体。设计了一种融合多层特征和有效锚点采样的采样融合网络,提高了对小目标的灵敏度。同时,通过抑制噪声和突出目标特征,共同探索有监督像素注意网络和通道注意网络,用于小杂波目标检测。为了得到更准确的旋转估计,在平滑L1损失中加入IoU常数因子来解决旋转包围盒的边界问题。两个遥感公共数据集DOTA, NWPU vdr -10以及自然图像数据集COCO, VOC2007和scene textdataicdar2015上的大量实验显示了我们的探测器的最先进性能。代码和模型将在https://github.com/DetectionTeamUCAS上获得

一、介绍

  • 目标检测是计算机视觉的基本任务之一,各种通用检测器[12,15,11,26,30,5,31]已经被设计出来。希望的结果在COCO[24]和VOC2007[9]等基准上实现。然而,大多数现有的检测器并没有特别注意在开放环境中用于健壮的对象检测的一些有用方面:小的对象、杂乱的排列和任意的方向。
  • 在现实世界的问题中,由于摄像头分辨率等原因的限制,感兴趣的对象可以是非常小的尺寸,例如用于检测交通标志,街道上公共摄像头下的小人脸。此外,物品的范围可以非常密集,例如购物中心的商品。此外,对象不能再定位水平,如在COCO, VOC2007,场景文本检测,文本可以在任何方向和位置。
  • 特别是遥感图像面临着上述三大挑战,具体分析如下:
  1. 小目标:航拍图像通常包含小物体,与周围复杂的场景相映成景;
  2. 凌乱的安排:探测对象往往密集排列,如车辆、船舶等;
  3. 任意方向:航拍图像中的物体可以以不同的方向出现。遥感中普遍存在的大宽高比问题进一步挑战了这一问题。
    在本文中,我们主要讨论了我们的方法在遥感的背景下,而方法和问题是通用的,我们已经测试了各种数据集超出航空图像将在实验中显示。
  • 许多现有的通用探测器如FasterRCNN[31]已经被广泛应用于空中目标检测。然而,这类检测器的设计往往基于隐含的假设,即边界框基本处于水平位置,这对于航空图像(以及其他检测任务,如场景文本检测)不是这样的。流行的非最大抑制(NMS)技术进一步突出了这种限制处理,因为它会抑制在水平线上任意方向上密集排列的物体的检测。此外,基于水平区域的方法在方向估计上具有粗糙的分辨率,这是遥感提取的关键信息。
  • 我们提出了一种新的多类别旋转检测器scdet,用于解决以下问题:
  1. 小对象:采样融合网络(SF-Net),结合特征融合和更精细的锚点采样;
  2. 噪声背景:为了抑制噪声、突出前景,开发了由像素注意网络和通道注意网络组成的监督多维注意网络(MDA-Net)。
  3. 任意方向上的杂乱密集物体:通过引入角度相关参数进行估计,设计了一个角度敏感网络。

结合这三种技术,我们的方法在公共数据集上取得了最先进的性能,包括两个遥感基准DOTA和NWPU VHR-10。本文的贡献如下:

  1. 针对小目标,通过特征融合和锚点采样,设计出适合的特征融合结构。
  2. 针对杂乱的小目标检测,开发了一个有监督的多维注意网络,以减少背景噪声的不利影响。
  3. 通过增加iou常量因子,改进了平滑L1损耗,从而解决了旋转包围盒回归的边界问题。
  4. 也许更重要的是,在4.2节中,我们展示了所提出的技术是通用的,也可以应用于自然图像,并与通用的检测算法相结合,它超越了目前最先进的方法,或通过组合进一步改进现有的方法。

二、相关工作

  • 现有的检测方法主要假设待检测目标位于图像中的水平线上。在开创性的工作[12]中,提出了一个用于基于区域的检测的多级R-CNN网络,并在精度和效率方面进行了一系列改进,包括Fast R-CNN[11]、Faster R-CNN[31]和基于区域的完全卷积网络(R-FCN)[5]。另一方面,也有一些最近的工作直接返回边界框,例如Single-Shot Object Detector (SSD)[26]和you only look once (YOLO)[30],从而提高了速度。
  • 正如上面所讨论的,对于小的物体、密集的排列和任意的旋转,存在一些具有挑战性的场景。然而,尽管上述探测器在实践中很重要,但它们并没有得到特别的解决。特别是航空图像,由于其对国家和社会的战略价值,还努力发展适合遥感的方法。RP-Faster R-CNN框架是在[14]中针对小对象开发的。[40]将变形卷积层[6]和R-FCN结合,提高了检测精度。最近,[40]中的作者采用了自顶向下和跳过连接的方法来生成一个高分辨率的单一高级别特征图,从而提高了可变形的Faster R-CNN的性能。然而,基于水平区域的探测器仍然面临着上述规模、方向和密度等瓶颈的挑战,这就需要在水平区域检测的设置之外采用更有原则的方法。另一方面,对于任意方向的目标的探测,在遥感方面有一个工作思路。但是,这些方法往往针对特定的对象类别,如vehicle [36], ship [41, 42, 28, 43, 27], aircraft[25]等。虽然最近有一些多类别旋转区域检测模型的方法[2,8],但它们缺乏处理小尺寸高密度的原则性方法。
  • 与自然图像的检测方法相比,关于场景文本检测的文献[19,29]往往更注重物体的方向。而这些方法在处理基于航空图像的目标检测时仍然存在困难:原因之一是大多数文本检测方法都局限于单类别目标检测[44,34,7],而对于遥感来说往往有很多不同类别需要识别。另一个原因是航空图像中的目标往往比场景文本中的目标更接近,这限制了基于分割的检测算法的适用性[7,44],而在其他情况下,基于分割的检测算法可以很好地处理场景文本。此外,通常存在大量密集分布的目标,需要有效的检测。
  • 本文对上述各方面进行了综合考虑提出了一种有原则的航空图像多类别任意目标检测方法。

三、提出的方法

  • 我们首先给出我们的两阶段方法的概述,如图1所示。在第一阶段,通过添加SF-Net和MDA-Net,期望feature map包含更多的feature信息和更少的噪点。对于角度参数的位置灵敏度,这一阶段仍然回归水平框。通过改进的五参数回归和第二阶段各方案的旋转非最大抑制(R-NMS)操作,我们可以得到任意旋转下的最终检测结果。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第1张图片
    scdet包括针对小型和杂乱对象的SF-Net和MDA-Net,以及针对旋转对象的旋转分支。

3.1 精细采样与特征融合网络

  • 在我们的分析中,检测小目标存在两个主要障碍:对象特征信息不足和锚点样本不足。这是因为由于使用了池化层,小对象在深层丢失了大部分特征信息。同时,高级别特征图较大的采样步幅往往会直接跳过较小的对象,导致采样不足。
特征融合
  • 一般认为,低级特征映射可以保留小对象的位置信息,而高级特征映射可以包含更高层次的语义线索。特征金字塔网络(FPN)[23]、TopDown调制网络(TDM)[35]和反向连接目标先验网络(RON)[21]是常用的特征融合方法,这些方法包括以不同形式组合高、低层次特征图。
更好的抽样
  • 训练样本不足和不平衡会影响检测性能。通过引入期望最大重叠(EMO)评分,作者在[45]中计算了锚点和对象的union (IoU)的期望最大交集。他们发现,锚步(SA)越小,EMO得分越高,统计上导致改善所有对象的平均最大IoU。下图分别显示了给定步长16和步长8的小目标采样结果。可以看出,SA样本越小,越高质量的样本就能很好地捕捉到小目标,这对检测器的训练和推理都有帮助。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第2张图片
    不同锚步SA的锚点采样。黄橙色边界框代表anchor,绿色代表ground-truth,红色框代表ground-truth中IoU最大的anchor。

  • 基于以上分析,我们设计了如下图所示的精细采样与特征融合网络(SF-Net)。在基于锚点的检测框架中,SA的值等于特征地图相对于原始图像的约简因子。换句话说,SA的值只是2的指数倍数。SF-Net通过改变feature map的大小来解决这一问题,使得SA的设置更加灵活,可以进行更多的自适应采样。目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第3张图片
    SF-Net——F3的SA较小,同时充分考虑了特征融合和对不同尺度的适应性

  • 为了减少网络参数,SF-Net仅在Resnet[16]中使用C3和C4进行融合,平衡语义信息和位置信息,而忽略了其他不太相关的特征。简单地说,SF-Net的第一个通道对C4进行采样,使其SA= S,其中S是预期的锚步。第二个通道也将C3的样本提升到相同的大小。然后,我们通过C3通过启始结构来扩展其接受域并增加语义信息。初始结构包含各种比值卷积核,以捕获对象形状的多样性。最后,将两个通道按元素顺序相加,得到一个新的特征映射F3。下表给出了不同SA下DOTA的检测精度和训练开销。我们发现最优的SA依赖于特定的数据集,特别是关于小物体的尺寸分布。为了兼顾精度和速度,本文普遍将S的值设为6。目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第4张图片
    不同步幅SA下DOTA上18K迭代的精度和平均训练开销

3.2 多维关注网络

  • 由于航空图像等真实数据的复杂性,RPN提供的方案可能会引入大量的噪声信息,如下图(b)所示。过大的噪声会淹没目标信息,目标之间的边界会变得模糊【下图(a)】,导致漏检和虚警增加。因此,有必要加强对象线索,削弱非对象信息。许多注意结构[18,17,37,38]已经被提出来解决遮挡、噪声和模糊问题。然而,大多数方法都是无监督的,难以指导网络学习的特定目的。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第5张图片
    多维注意力网络的可视化:a. 模糊边界 b. 注意网络输入特征图 c. 注意网络输出特征图 d. 显著地图 e. 二进制映射 f. 地面实况
  • 为了在复杂背景下更有效地捕获小对象,我们设计了一个监督多维注意力精简器(MDA-Net),如下图所示。具体来说,在像素注意网络中,feature map F3经过不同比值卷积核的初始结构,然后通过卷积运算学习出一个双通道显著性map(上图d)。显著性地图分别表示前景和背景的分数。然后,Softmax操作在显著性映射上执行,并选择其中一个通道与F3相乘。最后得到一个新的信息特征图A3,如上图c所示。需要注意的是,Softmax函数后的显著性映射的值在[0,1]之间。换句话说,它可以降低噪声,相对增强目标信息。由于显著图是连续的,非对象信息不会被完全消除,有利于保留一定的上下文信息,提高鲁棒性。为了指导网络学习这一过程,我们采用了监督学习方法。首先,我们可以根据地面实况很容易得到一个二值图作为标签(如上图e所示),然后用二值图和显著性图的交叉熵损失作为注意力损失。此外,我们还使用SENet[18]作为频道注意网络进行辅助,减少比的值为16。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第6张图片
    设计的mda网络由通道注意网络和像素注意网络组成

3.3 旋转的分支

  • RPN网络为第二阶段提供了粗略的建议。为了提高RPN的计算速度,我们在培训阶段以网管操作回归箱中12000个的最高分作为建议,得到2000个。在测试阶段,NMS从10,000个回归箱中提取了300个建议。
  • 在第二阶段,我们使用5个参数(x, y, w, h, θ)来表示任意方向的矩形。在[−π/2,0)范围内,θ定义为与x轴的锐角,另一侧定义为w。这一定义与OpenCV一致。因此,在轴向边界盒上计算欠条可能会导致歪斜交互边界盒的欠条不准确,进而破坏边界盒的预测。针对这一问题,提出了一种基于三角剖分的歪斜欠条计算[29]的实现方法。我们使用旋转非最大抑制(R-NMS)作为基于倾斜IoU计算的后处理操作。对于数据集中形状的多样性,我们为不同的R-NMS设置了不同的阈值类别。另外,为了充分利用预处理权值ResNet,我们将fc6和fc7两个全连接层替换为C5 block和global average pooling (GAP)。旋转包围盒的回归为:
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第7张图片
    其中x、y、w、h、θ分别表示方框的中心坐标、宽度、高度和角度。变量x, xa, x分别是ground-truth box, anchor box和predicted box (y, w, h, θ)。

3.4 损失函数

  • 使用 multi-task loss ,定义如下:目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第8张图片其中N表示提案的个数,tn表示对象的标签,pn是由Softmax函数计算出的各类的概率分布,tn是一个二进制值(tn = 1表示前景,tn = 0表示背景,不回归)。V *j表示预测的偏移向量,V *j表示groundtruth的目标向量。Uij, uij分别表示掩模像素的标签和预测。IoU表示预测框与ground-truth的重叠。超参数λ1, λ2, λ3控制权衡。此外,分类损失Lclsis Softmax交叉熵。回归损失Lregis平滑L1损失定义在[11],注意损失Lattis像素级Softmax交叉熵。
  • 特别是旋转角度存在边界问题,如图6所示。它显示了一个理想的回归形式(蓝盒子对于红框逆时针旋转),但由于角度的周期性,这种情况的损失是非常大的。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第9张图片
    因此,模型还需要进行其他复杂形式的回归(如缩放w和h时蓝框顺时针旋转),增加了回归的难度,如图7a所示。为了更好地解决这个问题,我们在传统平滑L1损耗中引入了IoU常数因子|−log(IoU)| / |Lreg(vj,vj)|,如multi-task loss定义式所示。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第10张图片
    可以看出,在边界情况下,损失函数近似等于|−log(IoU)|≈0,消除了损失的突然增加,如图7b所示。新的回归损耗可以分为两个部分,Lreg(vj,vj) / | Lreg(vj,vj)|决定梯度传播的方向,|−log(IoU)|决定梯度的大小。此外,利用欠条优化定位精度与欠条主导度量相一致,比坐标回归更直接有效。

四、实验

  • 测试是由TensorFlow[1]在Nvidia Geforce GTX 1080 GPU和8G内存的服务器上实现的。我们在空中基准和自然图像上进行实验,以验证我们的技术的通用性。注意,我们的技术与特定的网络骨干正交。在实验中,我们使用Resnet-101作为遥感基准的骨干,使用FPN和R2CNN分别作为COCO、VOC2007和ICDAR2015的基准。

4.1 航空影像实验

4.1.1 数据和规范
  • 基准DOTA[39]用于航空图像中的目标检测。它包含了来自不同传感器和平台的2806张航空图像。图像大小范围从800×800到4,000×4,000像素,并包含显示各种规模、方向和形状的对象。然后专家用15种常见的对象类别对这些图像进行注解。完全注释的DOTA基准包含188,282个实例,每个实例都用任意四边形标记。DOTA有两个检测任务:水平边界框(HBB)和面向边界框(OBB)。随机选取一半的原始图像作为训练集,1/6作为验证集,1/3作为测试集。我们将图像分成800 × 800的子图像,重叠200像素。
  • 公共基准NWPU VHR-10[4]包含10类用于检测的地理空间对象。这个数据集完全从谷歌Earth和V aihingen数据集中裁剪出800张高分辨率(VHR)遥感图像,并由专家手工标注。
  • 我们使用预先训练的ResNet-101模型进行初始化。对于DOTA,该模型总共经过300k次迭代训练,从3e-4到3e-6,在100k和200k次迭代过程中学习率发生变化。对于NWPU VHR-10,训练数据集、验证数据集和测试数据集的分割率分别为60%、20%和20%。该模型总共经过20k次迭代训练,学习速率与DOTA相同。重量衰减为0.0001,动量为0.9。我们使用MomentumOptimizer作为优化器,除了在训练过程中随机翻转图像外,没有进行数据增强。
  • 对于参数设置,我们将3.1节中讨论的期望锚步距S设置为6,并将基准锚尺寸设置为256,锚尺度设置为2−4至21。由于DOTA和NWPU VHR-10中的多分类对象形状不同,我们将锚定比设置为[1/1,1/2,1/3,1/4,1/5,1/6,1/7,1/9]。这些设置确保每个ground-truth都能分配阳性样本。当IoU > 0.7时,锚点被赋值为正样本,当IoU < 0.3时,锚点被赋值为负样本。此外,由于大长宽比矩形中角度与欠条之间的敏感性,第二阶段的两个阈值分别设置为0.4。对于训练,两个阶段的小批量大小是512。Eq. 3中的超参数设置为λ1= 4, λ2= 1, λ3= 2。
4.1.2 Ablation Study
基线设置
  • 我们选择Faster-RCNN-based R2CNN[19]作为消融研究的基线,但不限于此方法。为了公平起见,所有实验数据和参数设置严格一致。我们使用平均精度(mAP)作为性能的衡量标准。这里报告的DOTA结果是通过向官方DOTA评估服务器1提交我们的预测而获得的。
MDA-Net效果
  • 如第3.2节所述,注意结构有利于抑制噪声的影响,突出对象信息。从表2也可以看出,加入像素注意网络后,大部分目标的检测结果都有不同程度的改善,总mAP增加了3.67%。MDA-Net进一步提高了桥梁、大型车辆、船舶、港口等大纵横比目标的检测精度。目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第11张图片
    与像素注意力相比,MDANet使mAP增加了约1%,达到65.33%。表5显示了监督学习是MDANet的主要贡献而不是计算。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第12张图片
SF-Net效果
  • 减小锚点的步长和特征融合是提高小目标检测的有效手段。在表2中,我们还研究了[45]中提供的技术。移位锚点(shift anchor, SA)和移位抖动(shift jittering, SJ)都遵循了利用单个特征点回归多个子区域的边界框的思想。实验表明,这两种策略都很难按照原论文的观察结果提高准确率。扩大特征映射是一种很好的减少SA的策略,包括双线性上采样(BU)、双线性上采样带跳跃连接(BUS)和扩展卷积(DC)。虽然这些方法都考虑到了采样对小目标检测的重要性,检测性能都有了不同程度的提高,但是SA的设置仍然不够灵活,不能获得最好的采样结果。SF-Net有效地模拟了特征融合和SA设置的灵活性,取得了68.89%的最佳性能,尤其受益于车辆、船舶、储罐等小目标的改进。
IoU-Smooth L1损耗的影响
  • IoU-Smooth L1 Loss消除了角度的边界效应,使模型更容易回归到物体坐标。这种新的损耗使检测精度提高到69.83%。
图像金字塔效应
  • 基于图像金字塔的训练和测试是提高成绩的有效手段。ICN[2]方法采用图像级联网络结构,这和图像金字塔的概念很相似。这里我们将原始图像随机缩放到[600×600, 800×800, 1000 × 1000, 1200 × 1200],然后发送到网络进行训练。为了进行测试,每个图像在四个尺度上进行测试,并由R-NMS组合。如表2所示,图像金字塔可以显著提高检测效率,达到72.61%的mAP。各类在DOTA上的检测结果如图8所示。
4.1.3 对等的方法比较
OBB Task
  • 除了DOTA给出的官方基线外,我们还比较了适用于多类别旋转目标检测的RRPN[29]、R2CNN[19]、R-DFPN[41]、ICN[2]和RoI-Transformer[8]。表3显示了这些方法的性能。RoI-Transformer、ICN和SCRDet在小目标检测中的优异性能归功于特征融合。SCRDet 在融合过程中,减小了接收场的扩张和噪声的衰减,因此对大型目标的融合效果优于ICN和RoI-Transformer。我们的方法在现有发表的结果中排名第一,达到了72.61%的mAP。
HBB Task
  • 我们使用DOTA和NWPU VHR-10来验证我们提出的方法,并在代码中屏蔽了角度参数。表3和表4分别显示了两个数据集的性能。在已有的DOTA文献中,我们也排名第一,75.35%左右。对于NWPU VHR-10数据集,我们将其与9种方法进行比较,获得了最好的检测性能,达到91.75%。我们的方法在超过一半的类别上达到了最好的检测精度。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第13张图片
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第14张图片

4.2 自然图像实验

  • 为了验证模型的通用性,我们在通用数据集和通用检测网络FPN[23]和R2CNN上进一步验证了所提出的技术[19]。我们选择COCO[24]和VOC2007[9]数据集,因为它们包含很多小对象。我们也使用ICDAR2015[20],因为有旋转的文本用于场景文本检测。
  • 由表6可知,在COCO[24]和VOC2007[9]数据集上,FPN∗加MDA-Net可以分别增加0.7%和2.22%。目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第15张图片
    提出的结构在通用数据集上的有效性。符号∗表示我们自己的实现。对于VOC2007,所有方法都在VOC2007训练集上进行训练,并在VOC2007测试集上进行测试。对于COCO,所有的结果都是在极小集上得到的。ICDAR2015的结果通过提交到官方网站获得。
    如图9所示,MDA-Net在密集和小目标检测方面都有很好的性能。ioussmooth loss对水平区域检测改进不大,这也反映了它对旋转检测边界问题的针对性。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第16张图片
  • 在ICDAR2015中,根据[19],R2CNN-4单标度达到74.36%。由于它不是开源的,我们重新实现了它,根据论文中旋转框的定义,我们的版本称为R2CNN-4∗,没有多池大小结构,我们的版本可以实现77.23%的mAP。然后,我们用我们提出的技术装备R2CNN-4∗,并将其称为SCRDet-R2CNN。在单尺度下达到最高性能80.08%。再次证明了本文提出的结构的有效性。从图10可以看出,SCRDet-R2CNN对于密集目标检测具有明显的较好的召回效果。
    目标检测论文——对小的、杂乱的和旋转的物体进行更稳健的检测:SCRDet_第17张图片
    COCO和ICDAR2015的检测结果。第一列是R2CNN-4∗使用我们的技术(SCRDet-R2CNN)的结果,第二列是普通的R2CNN-4∗。红色箭头表示遗漏的对象

五、结论

  • 针对航空图像中常见的任意旋转目标,提出了一种端到端多分类检测器。考虑特征融合和锚点采样等因素,提出了一种添加较小SA的采样融合网络。同时,该算法通过一个有监督的多维注意力网络来减弱噪声的影响,突出目标信息。此外,我们还实现了旋转检测,以保持方向信息,解决密集的问题。我们的方法在两个公共遥感数据集:DOTA和NWPU VHR-10上实现了最先进的性能。最后,我们在COCO、VOC2007和ICDAR2015等自然数据集上进一步验证了我们的结构。

你可能感兴趣的:(计算机视觉,神经网络)