论文:https://arxiv.org/abs/2309.09003
代码:暂未开源
MindSpore/RingMo-Framework
近年来,RingMo的遥感(RS)视觉基础模型在各种下游任务中取得了优异的性能。然而,对计算资源的高需求限制了这些模型在边缘设备上的应用。有必要设计一个更轻量级的基础模型来支持在轨遥感图像解释。现有方法在实现轻量级解决方案的同时在RS图像解释中保持通用性方面面临挑战。这是由于RS图像中复杂的高频和低频频谱分量,使得传统的单一CNN或视觉变换器方法不适合该任务。
因此,本文提出了RingMo-lite,一个具有CNN-Transformer混合框架的RS多任务轻量级网络,它有效地利用了RS的频域特性来优化解释过程。它由Transformer模块作为低通滤波器,通过双分支结构提取RS图像的全局特征,CNN模块作为堆叠高通滤波器,有效提取细粒度细节。此外,在预训练阶段,所设计的频域掩模图像建模(FD-MIM)结合了每个图像块的高频和低频特性,有效地捕捉了RS数据中的潜在特征表示。
如图所示,与RingMo相比,所提出的RingMo-lite在各种RS图像解释任务中降低了60%以上的参数,在大多数场景中平均精度下降不到2%,与类似大小的模型相比实现了SOTA性能。
RingMo遥感大模型的出现,有效解决了现有方法泛化能力不足的问题。然对计算和存储资源有较大的需求,不够灵活,难以应用于边缘服务器或终端。本文旨在设计一个轻量级的基础模型。
通用视觉处理领域,轻量级视觉基础模型的方法有三类:
RS领域存在两个挑战:
尽管许多网络结构设计方法采用了CNN和Transformer的组合,但它们主要集中在使用CNN来替换Transformer块的部分,以减少计算。现有的大多数方法都没有注意到使用CNN和Transformer从RS图像中提取高频和低频信息的优点。
综上,本文提出了一种适用于各种遥感图像解译任务的新型轻量基础模型RingMo-lite。首先,为了充分提取特定目标区域的细节特征和大规模场景的全局特征,本文设计了一种轻量级的CNN-Transformer双分支混合架构。具体而言,
结合CNN和Transformer两种不同结构的优点,所提出的双分支块在通道维度上解耦了混合结构,综合利用了RS图像中的高频和低频信息,有效地提高了解释精度。
其次,本文设计了一种适用于RS图像高频和低频信息的频域掩蔽图像建模(FD-MIM),通过结合自监督学习提高了轻量级基础模型的预训练效果。FD-MIM对应于所提出的CNN Transformer混合帧工作,有助于在掩蔽期间更好地重建图像细节,并促进所提出的轻量级模型学习适合不同下游任务的丰富特征表示。
如图所示,输入图像最初使用patch partition被分割成不重叠的patch(大小为4×4),并被视为token。把这些patch堆叠,输入线性嵌入层。通过四个stage处理获得图像表示。每个stage包括不同数量的高低频信息融合块(FIFB),具体数量取决于Swin Tiny的(2,2,6,2)配置。
在各个阶段之间引入了补丁合并层(Patch Merging),以抵消token数量的减少。在每个FIFB中,都有一个细分为低频(L-F)分支和高频(H-F)分支。为了优化利用CNNs和Transformers的特征提取能力,FIFB的输入特征被分别发送到两个分支,以捕获低频信息和高频信息,然后融合并馈送到下一个块或补丁合并层。
重新审视ViT和CNN:ViT利用多头自注意在非重叠token之间进行信息交换。作为一种低通滤波器,MSA擅长建模长依赖性和捕获低频信息。然而,MSA在特征图上的空间平滑操作往往会衰减高频信号,导致由低频信息主导的特征表示。相反,CNN在感受野内使用局部卷积(Convs)来获得局部信息。与MSA相反,Convs是高通滤波器,可以有效地提取图像的高频表示。因此,MSA和Convs表现出互补的特点,MSA在捕捉全局依赖和低频信息,而Conv擅长保存局部细节和高频信息。
遥感任务中的频率特征:通常,场景和对象的全局结构在图像中传递低频信息,而边缘和纹理等局部空间细节表现为高频信息。遥感图像固有地包含小目标和广泛的地理特征。密集分布的小尺度目标的像素在空间上变化很大,而大尺度特征相对均匀且缓慢。对于RS图像解释任务,场景分类强调提取全面的全局信息,而目标检测任务则侧重于捕捉细节。此外,更细粒度的任务需要更多的本地细节。基于这些考虑,论文提出了FIFB,它结合了高频和低频信息,从而提高了模型对RS图像的多任务泛化能力。
FIFB:如图4所示,FIFB的输入特征被分别馈送到两个不同的分支:L-F分支和H-F分支。L-F分支基于Swin Transformer的架构,以捕获长距离的广泛依赖关系。
H-F分支将输入特征划分为两个分区:和,以提取高频信息,分别利用最大滤波器的敏锐灵敏度和Convs的细节感知。后拼接F1和F2生成了具有丰富高频信息的综合特征图H。
FIFB过程的输出为低频特征L和高频特征H的融合:
设计一种同时捕获局部和全局图像特征的预训练策略以提高模型的效率和泛化能力是一种常见的做法。一种有前途的方法是使用掩码技术来强调图像中的特定特征。掩模图像建模(MIM)可以结合固有的数据关系,引导模型更好地理解复杂的RS图像。通过利用输入图像的结构和相邻像素之间的相关性,它使模型能够在没有明确标记的情况下学习有意义的表示。
许多MIM方法通常采用随机掩膜策略。选择一定比例的图像补丁,并对其进行掩码补全。RS图像具有独特的成像机制,包含更复杂的背景和许多较小尺度的物体,这限制了RS图像解释中的许多随机掩蔽策略。在此背景下,论文引入了高频和低频域掩蔽图像建模(FD-MIM)的概念。FD-MIM对应于所提出的CNNTransformer混合框架。所提出的方法可以提取掩蔽图像的潜在表示,并使用它们来重建掩蔽区域的原始信号。通过在复杂的RS图像中适当地保留高频和低频域信息,它有助于在掩蔽的同时更好地重建图像的细节。学习的编码器适用于各种光学RS下游任务,L1回归损失用于计算重建结果和像素之间的差异。