(MCT-Net:用于高光谱和多光谱图像融合的多层交叉transformer)
考虑到光学成像的局限性,图像采集设备通常在空间信息和光谱信息之间进行折衷。高光谱图像(HSI)具有丰富的光谱信息,能够对成像目标进行精细的识别和分类;多光谱图像(MSI)具有丰富的空间信息,能够提供精细的几何特征。因此,融合HSI和MSI以实现信息互补已成为一种普遍的方式,这增加了所获得信息的可靠性和准确性。然而,与传统的光学多聚焦图像融合和MSI全色锐化不同,现有的HSI和MSI融合方法在实现跨模态信息交互和缺乏空间位置信息的有效利用方面存在问题。为解决上述问题,实现高光谱与多光谱图像更有效的信息融合,提出了一种新的多层次交叉变换算法(MCT-Net)。提出的MCT-Net由两个组件组成:(1)多层次跨模态交互模块(MCIM),其首先提取HSI和MSI的深层多尺度特征,然后应用多层次交叉变换(MCT)在相同尺度上进行它们之间的跨模态信息交互,以重构MSI所缺失的光谱信息和HSI所缺失的空间信息;(2)特征聚合重构模块(FARM),其组合来自MCIM的特征,使用条带卷积进一步恢复边缘特征,并通过级联上采样重构融合结果。
高光谱图像(HSIs)广泛用于描述材料的光谱差异,因为其具有从可见光波长到近红外波长的数百个连续窄光谱带。鉴于其准确表示对象属性信息的能力,HSI在诸如图像分类、对象检测、频带选择和变化检测等任务中发挥重要作用。与HSI相比,多光谱图像(MSI)具有高空间分辨率和低光谱分辨率。由于成像平台的限制,采集设备通常需要在光谱分辨率和空间分辨率之间进行折衷设计。遥感平台可以捕获具有低空间分辨率和高光谱分辨率(LR-HSI)的HSI或具有高空间分辨率和低光谱分辨率(HR-MSI)的MSI,但是难以捕获具有高空间分辨率(HR-HSI)的HSI。因此,利用空间和光谱信息融合的方法获得高分辨率的遥感影像越来越受到人们的关注。现有的MSI和HSI融合方法基本上包括传统方法和基于深度学习的方法。早期将LR-MSI和全色(PAN)图像进行融合,以提高图像的光谱和空间分辨率,称为全色锐化图像融合算法。随后,随着高光谱成像技术的发展,全色锐化图像融合技术逐渐扩展到HSI和MSI融合领域。Chen等人总结并提出了一个由两部分组成的全色锐化框架。该算法的关键是将HSI光谱划分为若干区域,然后将每个区域的MSI和HSI进行融合,得到融合图像。Selva等人提出了一种超锐化方法,利用线性回归将每个HSI波段的高分辨率图像作为MSI波段图像的线性组合,并成功地将基于多分辨率分析(MRA)的全色锐化方法应用于HSI和MSI融合。结果表明,利用合成的高分辨率波段进行超锐化可以获得更好的融合效果。当MSI谱带数目较少时,基于全色锐化的方法通常表现出较好的性能。然而,缺少MS波段的光谱区域通常具有较低的PSNR值,因为这些光谱波段通常与对应的高分辨率图像具有低相关性。如果单纯地将全色锐化算法应用于HSI和MSI的融合,很难得到满意的结果。
另一种融合HSI和MSI的流行方法称为基于子空间的融合方法。该方法基于子空间中两幅输入图像的光谱信息融合,为以后的融合方法提供了启示。近年来,光谱分解已被用于多传感器多分辨率图像融合。基于非混合的融合方法的思想是在相关传感器属性(如点扩展函数(PSF)和光谱响应函数(SRF))的约束下,分别从HSI和MSI获得端元信息和高分辨率丰度矩阵。Veganzones等人证明了由于融合过程中潜在的稀疏回归问题是一个严重的不适定问题,因此解混方法可以减少可能的映射,达到提高融合结果质量的目的。Wei等人提出了一种基于贝叶斯的多波段融合技术。该方法是一种基于子空间的方法。由于子空间系数的估计精度随子带数目的增加而提高,因此基于子空间的方法比超锐化方法更适合于HSI和MSI融合。但这些方法过于依赖人工设计的融合规则,缺乏通用性,因此不能通过空间和光谱模态有效传递信息。
基于深度学习的方法由于其强大的特征提取能力,在HSI和MSI融合中显示出巨大的潜力。该方法主要利用多层深度神经网络学习HR-MSI、LR-HSI与对应的HR-HSI之间的对应关系,完成融合任务。通常认为,基于深度学习的融合方法不仅利用输入图像的信息,而且利用学习到的对应关系作为先验知识来重建MSI和HSI中缺失的光谱和空间信息。因此,与传统的基于人工定义先验信息的融合方法相比,基于深度学习的融合方法能够获得更好的性能。近年来,随着卷积神经网络的发展,出现了许多基于卷积神经网络的融合方法。Yang等人提出了一种将CNN和空间注意力相结合的HSI和MSI融合方法。空间注意在提取微小纹理和增强空间结构方面能发挥更好的作用。Cai等人介绍了两种特定的结构设计,超分辨率模块和渐进学习,这使得网络能够连续捕获不同尺度的空间细节,并将其连续注入到上采样的多光谱图像中。虽然现有的基于神经网络的融合算法通过卷积核学习局部线性映射来提高泛化能力,但它们缺乏对空间位置信息的有效利用,无法提取图像中的长程依赖性,从而导致缺乏一些全局上下文信息。受transformer在自然语言处理领域的成功启发,一些学者最近提出了视觉transformer(ViT)并将其应用于融合任务。Zhu等人融合了多模态MRI数据的深度语义信息和边缘信息进行脑肿瘤分割,设计了基于swin变换的语义分割模块,并在swin变换中引入了移位面片标记化策略,使得在小规模数据集上训练更加容易。Vibashan等人提出了一种图像融合变换器(IFT),其将局部信息与全局信息相结合以提高融合性能。Cai等人提出了一种用于超光谱图像重建的掩模引导光谱式变换器。他们开发了一种光谱式多头自注意(S-MSA)来捕捉光谱之间的相似性和依赖性。ViT方法在建立长距离依赖模型方面表现良好,其自注意机制能够有效地关注全局上下文信息,有助于进一步提高融合性能。然而,现有的基于变换的HSI和MSI融合方法大多使用单一模态的特征提取和融合最后阶段的特征拼接。该方法忽略了空间模态和光谱模态之间的跨模态信息交互,不利于融合任务的完成。
基于上述研究,提出了一种新的多层次交叉变换算法(MCT-Net)用于高光谱图像和多光谱图像融合。MCT-Net由两大部分组成,包括多层次跨模态交互模块(MCIM)和特征聚合重构模块(FARM)。由于不同尺度的特征在重建图像上承载着各自的功能,低层次的细节特征映射反映了丰富的空间信息,而高层次的语义特征映射反映了具体的位置信息。由于遥感图像具有较大的尺度空间,充分利用其层次信息显得尤为重要。因此,在MCIM阶段,我们采用双分支结构来充分提取HR-MSI和LR-HSI的层次特征。首先对双支输入图像进行上采样和下采样操作以实现多尺度信息提取。对于相同尺度的特征地图,提出了一种多层次交叉变换(MCT)来获取两幅图像的全局上下文信息,实现光谱信息和空间信息的充分融合。在FARM阶段,联合收割机MCT的输出特征图和输入特征图,利用条带卷积块恢复空间细节特征,并通过级联上采样操作逐步重建HRHSI。
1)提出了一种新的HSI和MSI融合网络结构MCT-NET。MCT-NET将CNN和transformer与多层次跨模态交互模块(MCIM)和特征聚合重构模块(FARM)相结合,实现融合图像的空间-光谱信息保留。
2)提出了一种多层次交叉transformer(MCT),在传统transformer的自注意机制中加入了交叉注意思想,不仅解决了融合过程中空间信息的长程依赖性,而且实现了空间模态和谱模态的跨模态信息融合。
3)在编码器端采用条带卷积块来细化边缘特征,这对空间重构至关重要。条带卷积块使用四个条带卷积从四个不同方向捕获长程上下文信息:水平、垂直、左对角线和右对角线。
近年来,传统的方法对HSI和MSI的融合做出了很多贡献。传统的融合方法大致可以分为基于全色锐化的融合方法和基于子空间的融合方法。基于全色锐化的方法是将全色锐化方法应用于HSI和MSI融合任务的那些方法。Grohnfeldt等人提出了一种基于稀疏表示(SR)的全色锐化方法,用于HSI和MSI融合。该方法在MSI谱带数目较小时能取得较好的效果。但是,当MSI条带较多时,融合效果并不理想。这是因为缺失条带的MSI与高分辨率图像的相关性较低。如果将全色锐化融合方法简单地应用于MSI和HSI融合领域,融合效果并不理想。基于子空间的融合方法通过一组基向量或底层物质(端元)的光谱特征将原始图像映射到其低维子空间,实现降维,从而获得优异的融合性能。作为一种经典方法,基于矩阵分解的算法将3-D HSI(宽度、高度和谱带维度)扩展为2-D矩阵(空间和带数目维度)。HR-HSI由端元矩阵和丰度矩阵重建,端元矩阵和丰度矩阵由LR-HSI和HR-MSI估计。CNMF 是一种基于非负矩阵分解的方法。该算法首先将HR-MSI和LR-HSI分解为混合像元,然后利用LR-HSI的丰度矩阵和HR-MSI的端元矩阵重建高质量的HR-HSI。Lanaras等人通过将两幅输入图像解混为观测材料的纯反射光谱和相关的混合系数,改进了光谱解混,提高了融合图像的质量。这种通过融合两个输入图像子空间中的光谱信息来获得HR-HSI的思想是后来发展的许多HSI和MSI融合方法的主要灵感来源。Kwan等人提出了一种有效的非深度融合算法,该算法集成了混合颜色映射(HCM)算法以及用于单个图像超分辨率的即插即用算法。首先对LR图像采用单幅超分辨率算法提高分辨率,在网络中引入点扩散函数,然后采用HCM进行图像融合。深度学习方法由于其简单高效的特点,近年来得到了广泛的应用,越来越多的深度学习方法被应用到图像融合中。Palsson等人首先提出了一种3D卷积神经网络来融合MSI和HSI以获得HR-HSI。他们在融合前对HSI进行了降维操作。这可以大大改善网络的计算量,提高算法对噪声的鲁棒性。Dian等人提出了一种融合LR-HSI和HR-MSI的深HSI锐化方法(DHSIS)。DHSIS将残差学习加入到CNN网络中以学习图像先验,并将学习到的先验组合到LR-HSI和HR-MSI的融合框架中,因为CNN单独对空间或谱维度进行上采样可能不会产生满意的结果。Han等人提出了两种新的CNN结构,SSFCNN和ConSSFCNN,充分利用空间和光谱融合的优势实现高光谱图像的超分辨率。LR-HSI和HR-MSI的融合任务是建立从低分辨率到高分辨率的映射关系。这是一个病态问题,具有大的可能映射空间,以及高度的复杂性和非线性。受深度神经网络非线性关系的启发,Yuan等人将多尺度特征提取、残差学习和基本卷积神经网络相结合,提出了一种用于遥感全色锐化的卷积神经网络MSDCNN。为了更好地利用MSI中的空间多尺度信息,Xu等人提出了在不同尺度上融合HSI和MSI。他们还提出了一个称为RMSE角度和拉普拉斯(RAP)损失的损失函数来解决空间和频谱失真。许多基于神经网络的方法将全色锐化问题转化为超分辨率问题来解决,采用像素级融合的方法,先将PAN和MSI叠加,再映射到高分辨率图像上完成全色锐化。Liu等人提出了一种称为TFNet的方法,该方法使用特征级融合,首先提取并融合PAN和MSI的特征,最后重建图像。在TFNET的基础上,通过增加跳连接操作,提出了ResTFNet,取得了较好的重建效果。Zhang等人通过巧妙设计空间损失函数和光谱损失函数,提出了SSR-Net,取得了较好的融合效果。由于训练样本的缺乏,近年来出现了许多无监督融合算法。Qu等人提出了一种无监督网络u2-MDN,以解决无多模态配准的HSI和MSI融合问题。u2-MDN网络将两种模态的图像投影到同一空间,通过最大化表示和它们自己的原始输入之间的互信息来学习来自两个未配准模态的相关空间信息,并使用协作l2,1-范数来鼓励网络进一步保留光谱信息。
Transformer 最早由Vaswani等人应用于机器翻译,与大多数seq2seq模型类似,Transformer的结构也是由编码器和解码器组成。多头注意可以解决长距离依赖问题,捕捉任意位置之间的关系。transformer完全消除了卷积的使用,最近,视觉transformer框架在各种计算机视觉任务(例如图像分类、对象检测、图像分割)上取得了有前景的性能。Swin transformer是一种分层架构,其表示是使用移位窗口计算的,这使其与广泛的视觉任务兼容。Carion等人提出了一种基于变换的目标检测算法(称为DETR),该算法将检测视为集合预测任务。同时,TransUNet 兼具transformer和U-Net的优点,成为医学图像分割的有力替代。许多工作已经证明了transformer在不同下游任务中的潜力。鉴于transformer在视觉任务中的各种表现,我们尝试将其应用于HSI和MSI融合,以发挥其对长距离依赖建模能力的优势。在HSI和MSI融合中,局部信息和全局信息都很重要,因此transformer更注重局部关系的卷积具有更大的潜力。而且,如何有效地进行HSI与MSI的交互融合一直是该任务的难点,可能是设计高性能HSI与MSI融合算法的瓶颈。在这项工作中,我们采用了更适合HSI和MSI融合的设计理念,而不是仅从一幅图像中提取特征信息。我们进一步提出了MCT,它在变压器解决方案的基础上实现了HSI和MSI之间的交叉关注操作,提供了更高的性能改进。
提出MCT-Net的总体架构如图1所示。MCT-Net由多层次跨模态交互模块(MCIM)和特征聚合重构模块(FARM)两大部分组成。在MCIM中,分别通过线性插值和卷积运算对LR-HSI和HR-MSI分别进行上采样和下采样,以提取体现在低级细节特征中的空间信息和体现在高级语义特征中的语义信息。MCT用于全局特征提取和相同尺度特征地图的信息交互与融合。在FARM中,设计了一种多层次特征融合策略。这里,将提取的不同尺度的特征组合在一起,在重复叠加上采样层和条带卷积操作之后,逐步重构HR-HSI。
LR-HSI和HR-MSI具有不同的性质。由于LR-HSI具有较高的光谱分辨率,因此具有更丰富的光谱信息。HR-MSI由于其较高的空间分辨率而具有更丰富的空间细节。同时,遥感图像与自然图像相比,具有更大的尺度范围。为了充分提取HSI的频谱信息和MSI的空间信息,首先采用双分支结构对HR-MSI和LR-HSI进行上采样和下采样,从不同尺度和不同模态进行特征提取。对于输入图像HR_MSI ∈ RH×W×c,LR_HSI ∈ Rh×w×C,首先对LR_HSI进行×4上采样(双线性上采样),得到与HR_MSI具有相同空间分辨率的LR0 ∈ RH×W×C。由于transformer的计算复杂度在序列长度上是二次的,因此直接将输入图像平坦化为序列以输入到transformer是不切实际的。为了解决这个问题,ViT提出将图像分割成固定大小的面片,然后将每个面片重新整形为一个序列,这可以满足transformer的计算要求。本文采用3 × 3卷积(步长为2)进行下采样,并进行两次卷积运算,每次下采样4次,逐步获得输入图像的低分辨率高级特征。例如,对HR_MSI进行降采样,得到与LR_HSI尺度相同的HR1 ∈ R H / 4 × W / 4 × C R^{H/4 × W/4 × C} RH/4×W/4×C 。然后,对HR1和LR_HSI进行同样的下采样操作,得到一对相同尺度的特征映射,HR2 ∈ R H / 8 × W / 8 × 2 C R^{H/8 × W/8 ×2C} RH/8×W/8×2C,LR2 ∈ R H / 8 × W / 8 × 2 C R^{H/8 × W/8 ×2C} RH/8×W/8×2C。以此类推,我们可以得到n对相同大小的特征图。第n次下采样后的特征映射可以表示为HRn ∈ R H / 4 n × W / 4 n × n C R^{H/4n × W/4n ×nC} RH/4n×W/4n×nC和LR_n ∈ R H / 4 n × W / 4 n × n C R^{H/4n × W/4n ×nC} RH/4n×W/4n×nC。在逐步下采样的过程中,提取出丰富的局部空间信息,然后将HRn和LRn输入到MCT中,进一步在全局空间对长距离依赖性进行建模。通过迭代充分提取和融合两种特征图的信息,实现空间模态和光谱模态的跨模态信息融合。
为了实现光谱模态和空间模态之间的跨模态信息融合,并对全局特征表示的整体图像依赖性进行建模,设计了一种多层次交叉transformer(MCT)。MCT的示意图如图2所示。
MCT采用双分支结构,包括线性投影、前馈网络(FFN)、层范数等,值得一提的是,两个分支之间的信息交互是通过多头部融合注意(MHFA)块进行的。首先对LR-HSI和HR-MSI特征映射进行线性映射,然后对特征映射对两个分支的全局依赖性进行建模,利用MHFA实现空间模态和谱模态的跨模态信息融合。FFN包含一个两层的多层感知器,隐层的扩展率为r。在每个块之前应用层规格化(LN),并且在每个块之后应用残余连接。我们可以将多个MCT连接到网络中,以使两个模态之间的信息交换更加充分。最后生成具有丰富光谱信息和空间信息的特征地图。
Image Sequentialization. 假设给定两个局部特征映射Feature1 ∈ RH×W×C,Feature2 ∈ RH×W×C。为了减少计算负担并降低Feature1和Feature2中包含的冗余信息的不利影响,应用线性投影来将信道维度从C压缩到d(在本文中,d=64和128)。MCT需要一个序列作为输入。因此,我们对输入特征图执行降维操作以获得两个d×N(N = H×W)序列x1和x2。为了对特征图的位置信息进行编码,引入了一种可学习的位置嵌入(PE),并将其分别与特征图x1和x2以直接相加的方式进行融合,然后对特征进行层归一化操作。上述过程可以描述如下:
Multi-head-fusion-attention. 不同分支上的特征映射包含不同的语义信息。为了建立图像在两个特征映射上的整体依赖性模型,实现空间模态和谱模态的跨模态信息融合,引入了多头部融合注意力(MHFA)。所提出的MHFA的体系结构如图3所示。
给定两个特征向量y1和y2,MHFA可以表示为:
其中Q表示查询,K表示键,V是值,C表示输入数据的维度。z1和z2是MHFA的两个输出特征图。MHFA不同于传统的自我注意机制。MHFA的目标是获得查询Q与关键字K之间的相关性,得到注意图,然后在其他注意图的基础上得到特征值。这种交叉注意机制更有利于两个特征图在融合任务中的信息交互,从而提高融合效果。
Feature Mapping. 在特征映射经过层归一化和前馈网络之后,特征映射的维度不能适应下一个网络结构。因此,我们利用特征映射模块将MHFA的输出序列转换回尺寸为H×W×d的标准3D特征图。然后,通过卷积运算减少特征图的通道数,得到与特征图Feature1和Feature2维数相同的特征图k1,k2 ∈ RH×W×C。最后将两个特征图相加得到特征图Out_Feature,以达到更好的信息融合。上述过程可描述为:
所提出的MCT算法可以概括为算法1。
两个具有丰富空间信息和光谱信息的输入经过MCT得到一个充分融合光谱信息和空间信息的输出。此外,我们还在MCT的输入和输出特征之间建立了一个跳连接。空间细节是否准确重构影响重建图像的质量,以及功能是否有效融合利用率的关键是学习多层次特征表示。为此,我们设计了特征聚合重构模块(FARM),将这三个特征映射连接在一起,并通过条带卷积块和级联上采样等操作逐步恢复空间细节信息。
Strip Convolution Blocks. 在条带卷积块中,特征图经历条带卷积操作,之后是上采样和卷积操作。受1D转置卷积的启发,我们在FARM中添加了条带卷积模块。条带卷积块的结构如图4所示。
对于输入特征映射,条带卷积块从四个不同方向捕获长程上下文信息:水平、垂直、左对角线和右对角线。设F ∈ RH×W×C为输入特征。在条带卷积模块中,F在1 × 1卷积之后输入到四个不同形状的条带卷积路径。四个路径的输出特征映射被连接起来。然后进行上采样和1 × 1卷积运算,得到条带卷积块的最终输出。设w∈ R 2 k + 1 R^{2k+1} R2k+1为2k + 1的条带卷积滤波器,D =(Dh,Dw)表示滤波器w的方向,H∈ R H × W × C ′ R^{H×W×C′} RH×W×C′为条带卷积的结果。条带卷积可定义如下:
其中D是带状卷积的方向矢量,对于水平、垂直、左对角和右对角卷积分别为(0,1)、(1,0)、(1,1)和(−1,1)。对于滤波器w,我们设置k = 4,使得每个条带卷积具有9个参数,这与3 × 3卷积滤波器相同。
Cascade Upsampling. 最后,对融合后的图像进行渐进上采样。MCIM中的下采样获得空间细节信息,而FARM中的级联上采样过程将来自下采样层的空间细节信息与来自上采样层的输入信息组合。这一步可以充分利用图像的语义特征,保留每个波段的空间细节,逐步重建HS-HSI结果。因此,我们将第n层融合后的图像Fusn定义为:
本文采用简单常用的均方误差作为损失函数,在不给网络增加太多约束的情况下,取得了较好的收敛效果。重构的HR-HSI Z^ ∈ R H × W × C R^{H×W×C} RH×W×C通过MSE损失进行优化,表示为Lfus。Lfus公式为
本文提出了一种基于transformer的HSI和MSI融合方法,称为MCT-Net,由两个主要部分组成,包括多层次跨模态交互模块(MCIM)和特征聚合重构模块(FARM)。特别地,MCIM包含多个多层次交叉transformer(MCT)。MCT借鉴了交叉注意的思想,使跨模态信息融合的HSI和MSI,我们希望MCT可以带来一些启示,其他功能融合任务。在MCIM中,我们首先从HR-MSI和LR-HSI中提取多尺度空间局部信息,并使用建议的MCT从相同尺度的特征图中提取全局信息。在FARM中,设计了一种多层次的特征融合策略。在这里,提取不同尺度的特点结合在一起,使用带重建卷积和空间细节信息。最后,HR-HSI逐渐重建通过级联上采样操作。在未来,我们将探索将此方法扩展到其他融合任务,并改进此变换器结构以实现高光谱数据的性能和效率之间的折衷。