Multiscale Deformable Attention and Multilevel Features Aggregation for Remote Sensing Object Detection
multiscale deformable attention module (MSDAM) ——多尺度变形注意模块
如图1(b)所示,鉴于FPN生成的多级特征(记为P2-P5), MLFAM(multilevel features aggregation module ,多级特性聚合模块)首先,提取整个图像的全局上下文(记为Pg)。然后,对Pg和P2-P5进行DConvs (deformable convolutions, DConvs)聚合和细化,得到具有可变形接受域的特征图。最后,利用改进后的特征映射增强FPN的多级输出,生成新的金字塔表示A2-A5,用于后续的目标检测。
这样,新生成的金字塔中的每个特征图都包含了FPN中不同层捕获的全局上下文信息和互补信息,因此对RSOD(遥感图像检测)更加有效。
A. Multiscale Deformable Attention Module (MSDAM)
C5采用跨尺度特征融合(CSFF),注意机制,使网络在突出目标特征的同时抑制背景特征。C5可能无法为遥感图像生成精确的注意图,原因有二。
如图2所示,我们提出了一种基于DConv的新型MSDAM。在输入特征图 C5的情况下,MSDAM
首先使用了1×1 Conv层,将其通道数从2048减少到512。相应生成的特征图记为C0_5。
其次,将四个连续的3×3 DConvs应用于C0_5,生成四个接受野逐渐增加的特征图,这样就可以捕捉到足够的信息。
接着,将C1_5 - c4_5沿通道轴级联得到具有多尺度可变形接收域的新特征图,并在新特征图上应用3 × 3卷积层和sigmoid激活函数生成注意图A 。
最后,将特征图C5与其对应的注意图A相乘,得到注意调制特征图C_out。
B. Multilevel Features Aggregation Module
由于FPN中每个方案的特征都具有固定形状的接受域,因此FPN可能无法准确定位不同变形程度的遥感物体。因此,我们提出MLFAM,如图1(b)所示,首先提取整个图像的全局上下文,然后将其与FPN学习到的P2-P5进行聚合。
聚合后的特征通过变形卷积进一步细化,得到具有可变形接受域的特征映射。最后,MLFAM利用改进后的特征增强FPN的原始特征,为后续的目标检测生成更强大的表示A2-A5。具体而言,MLFAM包括全局上下文提取、特征缩放和聚合、特征细化和恢复三个步骤。
给定最高级别的特征图 P5, MLFAM使用全局上下文模块(GCM)来提取输入图像的全局上下文。
具体来说,GCM首先使用全局平均池聚合特征地图P5的空间信息,生成空间上下文描述符Pavg 5。然后,GCM通过Pavg 5通过一个全连通层,得到整个图像的全局上下文。
GCM的总体过程如下: Pg = FC(AvgPool(P5)) (1)
Avgpool是全局平均池的操作,FC表示全连接层。
为了聚合新生成的全局上下文Pg和从FPN获得的多级特征P2-P5, MLFAM将它们调整为中等大小,具体来说,通过平均池化层,P2和P3的大小被调整为与P4相同的大小,分别生成P∗_ 2 和 P∗_3。相反,P5使用双线性插值将其大小调整为P4的大小,Pg中的值沿着空间维度广播以匹配P4的大小,从而分别产生P∗ _ 5和P∗ _ g。一旦特征被重新缩放,通过以下的平均操作得到聚合的特征:
由于遥感对象通常具有不同程度的变形,具有固定形状接受域的聚合特征Pagg很难很好地处理遥感对象。因此,Pagg通过两个连续的3×3 DConvs进一步细化,得到一个具有可变形接收域的新特征图。经过提炼,然后利用平均池化或双线性插值对提炼后的特征进行缩放,增强FPN的多级输出,生成更强大的金字塔特征A2-A5。
在DIOR和RSOD数据集上对该方法进行了验证。这两个数据集的详细描述如下。
**1) DIOR数据集:**DIOR数据集是用于光学遥感图像对象检测的大规模、公开可用的基准数据集。它由23463张图片和192472个实例组成,涵盖了20个对象类。
**2) RSOD数据集:**RSOD是另一个遥感数据集。它包含976张图片和6950个对象实例,包括4个对象类别,包括油箱、飞机、天桥和游乐场。RSOD数据集的空间分辨率范围也很广,从0.3到3 m不等。
在这封信中,我们采用了以ResNet-50为骨干的FPN[3]基线方法。所有模型在4个NVIDIA GTX TITAN X GPU(每个GPU 3张图像)上使用小批量随机梯度下降(SGD)优化方法进行训练。权重衰减和动量分别设置为0.0001和0.9。调整输入图像的大小,使其较长的一侧有800像素。对于DIOR数据集,初始学习速率设置为0.02,在9 - 11 epoch时降低到0.002,在12 epoch时降低到0.0002。对于RSOD数据集,epoch的总数设置为22。学习速率最初设定为0.005,并在第16和20代除以10。
不同组合的MSDAM和MLFAM对FPN目标检测的视觉比较。(a) FPN结果。(b) FPN + MSDAM结果。© FPN + MLFAM结果。(d) FPN + MSDAM + MLFAM结果。真阳性、假阳性和假阴性分别用绿色、蓝色和红色矩形表示。
不同的目标检测方法的视觉比较。(a) DCN结果。(b)双头R-CNN结果。© RFEB检测FPN结果。(d)所提方法的结果。真阳性、假阳性和假阴性分别用绿色、蓝色和红色矩形表示。
在本文中,我们提出了一种MSDAM和一种MLFAM,并将它们插入FPN中,以提高不同形状和大小的遥感目标的检测性能。在DIOR和RSOD数据集上进行的大量实验表明,本文提出的方法在检测精度方面优于目前最先进的基线方法。