ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects

SCRDet

    • 前言
    • 一、背景介绍
    • 二、SCRDet算法流程
      • 1. SF-Net
      • 2. MDA-Net
      • 3. Rotation Branch
    • 三、损失函数
      • 3.1 Loss Function
      • 3.2 Regrssion Loss
      • 3.3 Attention Loss
      • 3.4 Classification Loss
    • 四、实验部分
      • 4.1 DOTA Dataset 的标注格式
      • 4.2 Visualization of the MDA-Net
      • 4.3 Ablation Study
      • 4.4 Peer Methods Comparison
      • 4.5 Experiments on Natural Images
    • 五、结论

前言

论文地址:https://arxiv.org/abs/1811.07126

开源代码:https://github.com/DetectionTeamUCAS/R2CNN-Plus-Plus_Tensorflow

一、背景介绍

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第1张图片
目标检测计算机视觉的基石。尽管现在已经取得了很大的进步,但是对于小型目标、杂乱密集和任意旋转方向的目标检测依然存在着巨大的挑战。本文介绍的方法不仅适合用在航拍数据集上,也可以使用在自然图像数据集中,即SCRDet。具体来说,设计了一种采样融合网络,它将多层特征融合到有效的anchor采样中,以提高对于小型目标的检测灵敏度。与此同时,通过抑制噪声和突出物体的特征,使用有监督的像素注意力网络和通道注意力网络,用于小而杂乱的目标检测。为了更准确地进行旋转估计,将IoU常数因子添加到smooth L1 loss中,用来解决旋转边界框的边界问题。

二、SCRDet算法流程

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第2张图片

SCRDet 模型由SF-net,MDA-net和rotation branch 组成。这是一种Two stage网络,由sf net 和mda net 提取特征图,在rotation branch 进行位置回归与分类。

算法过程:输入一张图片,首先使用resnet提取特征图,用C3和C4两层在sf-net中进行特征融合和精确的特征采样,提取更多的语义信息和位置信息,经过两个通道的元素相加,得到特征图。然后该特征图F3经过像素注意网络和通道注意网络后,与输入F3进行卷积运算,得到输出新的特征图A3。然后,A3作为Rotation Branch的输入,进行RPN提取候选框,候选框映射到特征图中后进行ROI Align ,然后进行目标分类与位置回归,得到最后预测的结果。

1. SF-Net

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第3张图片

输入一张800×800×3的图像,根据缩放因子提取出C2、C3、C4不同尺寸的特征图,将C3和C4在SF-NET中进行特征融合,得到新的特征图F3。SA是特征图相对于原始图像的缩放因子,分别是C2维度是200×200×256,C3维度是100×100×512,C4维度是50×50×1024。

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第4张图片

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第5张图片

根据上面的实验结果可以得出下面两个结论:

1.c3和c4特征融合,丰富特征信息;
2.增加特征图大小(减小Sa)来提高anchor数。

2. MDA-Net

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第6张图片

MDA-NET分别由两部分注意力机制组成,最上面是像素注意力网络,F3经过inception模块使用不同的卷积核进行不同尺度的特征提取,然后经过卷积操作得到双通道的显著性映射(前景和背景),对目标区域进行二值化处理,得到含有目标区域的二值化图(显著性高的区域赋1值,其他不重要的区域赋0值,将图像变成由0\1组成像素点图像)。将二值图进行softmax后把数值限制在[0,1]之间。
下面是通道注意力机制(SEnet的结构),使用GAP输出C个特征通道的数值分布,然后将特征的维度降低到输入的1/r,经过relu激活后再通过一个FC将维度变为原来的维度。然后通过sigmoid获得[0,1]之间归一化的权重。
最后将三个部分相乘,得到新的特征图。

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第7张图片

MDA-Net 可以简化为上图所示,即在通道注意力网络和像素注意力网络两个方面对特征图F3进行突出主体目标和弱化非主体,获得新的特征图A3。

3. Rotation Branch

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第8张图片

其中,

  1. x,y :真实框的中心坐标

  2. w,h:真实框 的宽和高

  3. θ:真实框 的旋转角度

  4. xa :anchor box

  5. x’ :预测框

与典型的候选框计算不同,多了一个角度的公式,用于计算候选框的旋转角度。

上图展示了一个理想的形式,蓝色框逆时针旋转到红色框,但是由于角度的周期性,这种损失会非常大。因此模型必须以其他的形式进行回归(当缩放w和h时,蓝色盒子顺时针旋转),这样提高了回归的难度.

下面介绍损失函数的时候会提到怎么解决这个问题。在传统的smooth L1 loss中 加入IoU常数因子。在边界的情况下,损失函数|-log(IoU)|接近0,消除了损失突然增加的情况。

三、损失函数

3.1 Loss Function

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第9张图片

3.2 Regrssion Loss

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第10张图片

由于存在参数angle角度的缘故,增加IoU常数因子,可以解决复杂的回归问题,如图b所示。
在传统的smooth L1 loss中 加入IoU常数因子,在边界的情况下,损失函数|-log(IoU)|接近0,消除了损失突然增加的情况。新的损失函数是由两部分组成的,一部分是梯度的方向,另一部分是梯度的大小。此外,利用IOU优化定位精度与IOU为主的度量一致,比坐标回归更直观、有效。

3.3 Attention Loss

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第11张图片

3.4 Classification Loss

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第12张图片

四、实验部分

4.1 DOTA Dataset 的标注格式

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第13张图片

imagesource 表示图像来源,gsd 表示地面的采样距离,前八个数值为矩形框的四个坐标(x1,y1,x2,y2,x3,y3,x4,y4),后面表示分别是数据集的类比和检测难易程度的标注。

4.2 Visualization of the MDA-Net

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第14张图片
a)表示具有模糊边界的图像,b)表示输入的特征图,c)表示输出的新特征图,d)表示具有显著性的特征图,e)表示根据显著性特征图进行二值化得出的二值图,f)表示Ground-truth.

4.3 Ablation Study

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第15张图片
SF-Net有效地建模了特征融合和SA设置的灵活性,达到了68.89%的最佳性能,特别是通过对小目标的改进,达到了最好的性能,比如说:车、船、储罐。MDA-Net 进一步提高了大纵横比的检测精度。

4.4 Peer Methods Comparison

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第16张图片

Table 3显示了这些方法的性能,ROI-Transformer、ICN和SCRDet在小目标检测中的优异性能归功于特征融合。SCRDet 由于融合过程中感受野的扩展和噪声的衰减,所以对于大型物体来说,它比ICN和ROI-transformer更好。我们的方法在现有出版物中排名第一。 结果:MAP达到72.61%。

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第17张图片

SCRDet方法在超过一半的类别上达到了最佳的检测精度。

4.5 Experiments on Natural Images

ICCV2019 | 目标检测论文阅读 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_第18张图片
结论:
由图可知,在COCO、VOC2007数据集上使用MDA-net和FPN∗分别提高了0.7%和2.22%。MDA-net在密集对象和小目标中都具有良好的性能检测。
在ICDAR2015数据集中,SCRDet相对于R2CNN-4方法也提高了2.85%。

五、结论

1、提出了一个端到端的多分类检测模型,不仅能够用于航拍图像,还可以用于COCO、VOC等常规数据集的检测。
2、提出了SF-Net,把两个不同层的feature map进行融合,并增加了一种具有较小SA的采样融合网络。
3、提出Pixel Attention和Channel Attention机制,在网络中生成权重以突出目标特征,弱化背景特征。
4、在ROI之后进行任意角的坐标检测,以保存定位信息,解决了密集图像漏检的问题。

你可能感兴趣的:(论文阅读)