CV——day84 多尺度变形注意与多层特征聚合遥感目标检测

多尺度变形注意与多层特征聚合遥感目标检测

  • 多尺度变形注意与多层特征聚合遥感目标检测
  • I. INTRODUCTION
  • II. METHODOLOGY
    • A. 多尺度变形注意模块(MSDAM)
    • B. 多级特性聚合模块(MLFAM)
      • 1)全局特征提取
      • 2)功能缩放和聚合
      • 3)特征细化与恢复
  • III. EXPERIMENTS
    • A.数据集描述和评估指标
    • B.实施细节
    • C.模块分析
  • IV. CONCLUSION

多尺度变形注意与多层特征聚合遥感目标检测

Multiscale Deformable Attention and Multilevel Features Aggregation for Remote Sensing Object Detection

I. INTRODUCTION

CV——day84 多尺度变形注意与多层特征聚合遥感目标检测_第1张图片

multiscale deformable attention module (MSDAM) ——多尺度变形注意模块

CV——day84 多尺度变形注意与多层特征聚合遥感目标检测_第2张图片

如图1(b)所示,鉴于FPN生成的多级特征(记为P2-P5), MLFAM(multilevel features aggregation module ,多级特性聚合模块)首先,提取整个图像的全局上下文(记为Pg)。然后,对Pg和P2-P5进行DConvs (deformable convolutions, DConvs)聚合和细化,得到具有可变形接受域的特征图。最后,利用改进后的特征映射增强FPN的多级输出,生成新的金字塔表示A2-A5,用于后续的目标检测。

这样,新生成的金字塔中的每个特征图都包含了FPN中不同层捕获的全局上下文信息和互补信息,因此对RSOD(遥感图像检测)更加有效。

II. METHODOLOGY

A. 多尺度变形注意模块(MSDAM)

A. Multiscale Deformable Attention Module (MSDAM)

CV——day84 多尺度变形注意与多层特征聚合遥感目标检测_第3张图片

C5采用跨尺度特征融合(CSFF),注意机制,使网络在突出目标特征的同时抑制背景特征。C5可能无法为遥感图像生成精确的注意图,原因有二。

  1. 神经网络的有效接收域比理论接收域小得多,特别是在深层;特征图C5的有效接受域较小,无法编码足够的信息来预测精确的注意图。
  2. 遥感图像中的对象实例具有变形和大尺度变化的特点,固定形状、单尺度感受场的特征图C5很难很好地拟合这些对象并预测精确的遥感图像注意图。

如图2所示,我们提出了一种基于DConv的新型MSDAM。在输入特征图 C5的情况下,MSDAM

首先使用了1×1 Conv层,将其通道数从2048减少到512。相应生成的特征图记为C0_5。

其次,将四个连续的3×3 DConvs应用于C0_5,生成四个接受野逐渐增加的特征图,这样就可以捕捉到足够的信息。

接着,将C1_5 - c4_5沿通道轴级联得到具有多尺度可变形接收域的新特征图,并在新特征图上应用3 × 3卷积层和sigmoid激活函数生成注意图A 。

最后,将特征图C5与其对应的注意图A相乘,得到注意调制特征图C_out。

B. 多级特性聚合模块(MLFAM)

B. Multilevel Features Aggregation Module

由于FPN中每个方案的特征都具有固定形状的接受域,因此FPN可能无法准确定位不同变形程度的遥感物体。因此,我们提出MLFAM,如图1(b)所示,首先提取整个图像的全局上下文,然后将其与FPN学习到的P2-P5进行聚合。

CV——day84 多尺度变形注意与多层特征聚合遥感目标检测_第4张图片

聚合后的特征通过变形卷积进一步细化,得到具有可变形接受域的特征映射。最后,MLFAM利用改进后的特征增强FPN的原始特征,为后续的目标检测生成更强大的表示A2-A5。具体而言,MLFAM包括全局上下文提取、特征缩放和聚合、特征细化和恢复三个步骤。

1)全局特征提取

给定最高级别的特征图 P5, MLFAM使用全局上下文模块(GCM)来提取输入图像的全局上下文。

具体来说,GCM首先使用全局平均池聚合特征地图P5的空间信息,生成空间上下文描述符Pavg 5。然后,GCM通过Pavg 5通过一个全连通层,得到整个图像的全局上下文。

GCM的总体过程如下: Pg = FC(AvgPool(P5)) (1)

Avgpool是全局平均池的操作,FC表示全连接层。

2)功能缩放和聚合

为了聚合新生成的全局上下文Pg和从FPN获得的多级特征P2-P5, MLFAM将它们调整为中等大小,具体来说,通过平均池化层,P2和P3的大小被调整为与P4相同的大小,分别生成P∗_ 2 和 P∗_3。相反,P5使用双线性插值将其大小调整为P4的大小,Pg中的值沿着空间维度广播以匹配P4的大小,从而分别产生P∗ _ 5和P∗ _ g。一旦特征被重新缩放,通过以下的平均操作得到聚合的特征:

image-20230318104902504

3)特征细化与恢复

由于遥感对象通常具有不同程度的变形,具有固定形状接受域的聚合特征Pagg很难很好地处理遥感对象。因此,Pagg通过两个连续的3×3 DConvs进一步细化,得到一个具有可变形接收域的新特征图。经过提炼,然后利用平均池化或双线性插值对提炼后的特征进行缩放,增强FPN的多级输出,生成更强大的金字塔特征A2-A5。

III. EXPERIMENTS

A.数据集描述和评估指标

在DIOR和RSOD数据集上对该方法进行了验证。这两个数据集的详细描述如下。

**1) DIOR数据集:**DIOR数据集是用于光学遥感图像对象检测的大规模、公开可用的基准数据集。它由23463张图片和192472个实例组成,涵盖了20个对象类。

**2) RSOD数据集:**RSOD是另一个遥感数据集。它包含976张图片和6950个对象实例,包括4个对象类别,包括油箱、飞机、天桥和游乐场。RSOD数据集的空间分辨率范围也很广,从0.3到3 m不等。

B.实施细节

在这封信中,我们采用了以ResNet-50为骨干的FPN[3]基线方法。所有模型在4个NVIDIA GTX TITAN X GPU(每个GPU 3张图像)上使用小批量随机梯度下降(SGD)优化方法进行训练。权重衰减和动量分别设置为0.0001和0.9。调整输入图像的大小,使其较长的一侧有800像素。对于DIOR数据集,初始学习速率设置为0.02,在9 - 11 epoch时降低到0.002,在12 epoch时降低到0.0002。对于RSOD数据集,epoch的总数设置为22。学习速率最初设定为0.005,并在第16和20代除以10。

C.模块分析

CV——day84 多尺度变形注意与多层特征聚合遥感目标检测_第5张图片

不同组合的MSDAM和MLFAM对FPN目标检测的视觉比较。(a) FPN结果。(b) FPN + MSDAM结果。© FPN + MLFAM结果。(d) FPN + MSDAM + MLFAM结果。真阳性、假阳性和假阴性分别用绿色、蓝色和红色矩形表示。

CV——day84 多尺度变形注意与多层特征聚合遥感目标检测_第6张图片

不同的目标检测方法的视觉比较。(a) DCN结果。(b)双头R-CNN结果。© RFEB检测FPN结果。(d)所提方法的结果。真阳性、假阳性和假阴性分别用绿色、蓝色和红色矩形表示。

IV. CONCLUSION

在本文中,我们提出了一种MSDAM和一种MLFAM,并将它们插入FPN中,以提高不同形状和大小的遥感目标的检测性能。在DIOR和RSOD数据集上进行的大量实验表明,本文提出的方法在检测精度方面优于目前最先进的基线方法。

你可能感兴趣的:(CV,深度学习,CNN,目标检测,计算机视觉,深度学习)