(用于泛锐化的多尺度空间-光谱相互作用Transformer)
基于深度神经网络(DNN)的泛锐化方法已经产生了最先进的融合性能。然而,基于DNN的方法主要集中在利用卷积神经网络对低空间分辨率多光谱(LR MS)和全色(PAN)图像的局部特性进行建模。映像中的全局从属关系将被忽略。为了同时捕捉图像的局部和全局特性,我们提出了一种多尺度空间-光谱交互作用Transformer(MSIT) 用于全色锐化。具体地说,我们构造了包含卷积变换编码器的多尺度子网络,以分别从LR MS和PAN图像中提取不同尺度下的局部和全局特征。然后,设计空间-光谱交互作用注意模块(SIAM)来合并每个尺度上的特征。在SIAM中,交互注意力被用来有效地解耦空间和光谱信息,以增强所提取特征的互补性和减少冗余。来自不同尺度的特征被进一步集成到多尺度重建模块(MRM) 中以生成期望的高空间分辨率多光谱图像,其中空间和光谱信息被逐尺度地融合。在降维和全尺度数据集上的实验表明,与现有方法相比,该方法在可视化和数值分析方面具有更好的效果。
高空间分辨率多光谱(HR-MS)图像包含丰富的空间和光谱信息,对于环境监测、土地调查等记录场景的判读具有重要意义。然而,由于成像技术的限制,遥感图像很难同时达到空间和光谱两种分辨率。大多数卫星,如QuickBird和GeoEye1,只捕获高空间分辨率全色(PAN)和低空间分辨率多光谱(LR MS)图像。因此,采用全色锐化技术整合PAN和MS图像中的空间和光谱信息,以生成HR MS图像。
二十多年来,提出了很多泛锐化的方法。根据它们的范式,这些方法可以分为四类:基于组件替换(CS)的方法、基于多分辨率分析(MRA)的方法、基于模型的方法和基于深度神经网络(DNN)的方法。对于第一类,使用一些线性变换将上采样的LRMS图像投影到一个新的空间,在该空间中LRMS图像被分解为空间和光谱分量。然后,用直方图匹配的PAN图像代替LR MS图像的空间分量。最后,对新分量进行逆变换,得到高分辨质谱图像。基于CS的方法通常考虑强度-色调-饱和度(IHS)、主成分分析(PCA)和Gram-Schmidt(GS)变换以用于LR MS图像的锐化。为了自适应估计LR MS图像的空间分量,提出了自适应GS(GSA),其中通过最小化均方误差来计算组合权重。为了有效地增强LR MS图像的不同波段中的空间细节,提出了一种波段相关空间细节(BDSD)模型,其中自适应地估计不同波段的组合权重。最近,Vivone等人开发了BDSD的鲁棒版本以获得更好的融合结果。此外,Choi等人提出了部分替换自适应CS(PRACS),其中LR MS图像的空间分量被PAN图像部分替换。对于第一种方法,其实现简单明了。然而,这些方法的融合结果普遍存在光谱失真。
对于基于MRA的方法,假设可以从对应的PAN图像中找到在LR MS图像中丢失的空间信息。因此,将多分辨率分解应用于PAN图像以提取空间细节。然后,将这些细节注入到上采样的LR MS图像中以产生泛锐化图像。在这一类别中,高通滤波器被设计用于提取空间信息,例如Indusion 和广义拉普拉斯金字塔(GLP)。通过集成调制传递函数(MTF),提出了MTF-GLP,用于更准确地提取空间细节。然后,通过结合高通调制(HPM)进一步扩展MTF-GLP。此外,还引入了一些先进的MRA工具来表示PAN和LR MS图像中的空间信息。例如,Shah等人利用非下采样轮廓波(NSCT)来增强LR MS图像中的空间细节。根据分解框架,构建了一些类似MRA的滤波器以推断更合理的空间信息。基于MRA的方法的融合图像在光谱信息方面表现出更好的保留,因为只有空间细节被注入到上采样的LR MS图像中。然而,它们的融合图像的空间性能高度依赖于在经验过程中设计的滤波器。滤波器的设计应考虑成像传感器的MTF。
基于模型的方法,假设LR MS图像是HR MS图像通过空间退化的结果。类似地,PAN图像被认为是HR MS图像的光谱退化结果。因此,源图像和HR MS图像之间的关系可以在空间和光谱退化模型中编码。然后,通过求解源图像和HR MS图像之间的空间和光谱退化模型来获得期望的HR MS图像。为了正则化空间和光谱退化模型的解空间,采用各种先验作为正则化。例如,作为一种流行的先验,稀疏性被广泛研究。Zhang等人设计了一个结构稀疏项,用于空间和光谱退化模型的正则化。Palsson等人将全变差(TV)正则化与上述模型相结合,以融合LR MS和PAN图像。此外,为了找到更有效的先验,Liu等人探索了图像梯度域中的Hessian先验。Ballester等人还提出了一种变分方法P + XS来融合LR MS和PAN图像。有效的先验将对空间和光谱模型的解空间具有强约束。在有效先验的帮助下,可以估计更准确的HR MS图像。然而,在复杂的场景中,这些方法中采用的先验可能是无效的,从而限制了它们的推广。此外,基于模型的方法通常通过迭代优化算法来求解。因此,其复杂性不容忽视。
近年来,DNN在许多领域引起了极大的关注,特别是在计算机视觉任务中,由于其强大的学习能力。对于泛锐化,基于DNN的方法也呈现出最先进的融合性能。Masi等人首先提出了一种泛锐化神经网络(PNN),其灵感来自中的超分辨率卷积神经网络(CNN)。然后,进一步提出了改进的PNN(APNN),以提高PNN的性能。作为一个有效的框架,残差学习用于描述MS图像中的空间结构。例如,Yang等人将残差网络(ResNet)学习的空间细节注入到上采样的LR MS图像中。Wei等人通过残差学习开发了一种深度卷积神经网络,以提高融合结果的准确性。考虑到真实的图像和虚假图像的分布之间的极小极大博弈,还考虑了生成对抗网络(GAN)来融合LR MS和PAN图像。Liu等人采用GAN合成HR MS图像,并建立了两个子网络从LRMS和PAN图像中提取特征。为了减轻对监督数据集的需求,Ma等人采用了两个鉴别器来区分融合图像中的空间和光谱信息。Diao等人提出了一种多尺度GAN框架来逐步生成融合图像,并通过相应的鉴别器对融合图像进行逐尺度鉴别。
尽管DNN在泛锐化方面取得了成功,但由于有限的感受野,基于DNN的方法仅关注图像的局部属性。因此,基于DNN的泛锐化方法难以有效地捕获图像之间的全局相似性,这使得这些方法无法对LR MS和PAN图像中的各种空间和光谱结构进行建模。为了学习图像中的全局信息,通过引入自注意机制开发了一种transformer。到目前为止,transformer在高层次和低层次的视觉任务中表现出巨大的潜力。例如,Yang等人采用变换器来学习低分辨率图像的超分辨率的相关纹理。Chen等人提出了一种预训练的transformer模型,该模型在超分辨率和去噪方面具有最先进的性能。此外,不同尺度下的图像的内容由不同的全局相似性反映。因此,应组合不同尺度下的全局相似性以重建HR MS图像。
为了利用在不同尺度的局部和全局属性,我们提出了一个多尺度的空间-光谱相互作用transformer(MSIT)整合的多尺度特征映射泛锐化。首先,分别从PAN和LR MS图像中提取基于卷积变换编码器的两个多尺度子网络的特征。为了有效地融合来自两个不同尺度的子网络的信息,我们设计了一个空间-光谱交互注意模块(SIAM)。通过空间和光谱注意力的交互作用,减少了两个子网络特征之间的冗余度,同时增强了它们之间的互补性。最后,一个多尺度重建模块(MRM)的构建,以产生融合图像。在该模块中,不同尺度的特征被从粗到细地融合,以恢复融合图像中的空间和光谱信息。在不同数据集上的实验结果表明,所提出的MSIT产生更好的融合结果的客观和主观评价相比,经典和国家的最先进的方法。据我们所知,这是第一个基于Transformer的泛锐化探索PAN和LR MS图像的空间光谱特征,通过相互作用的注意机制。
1)为了同时对局部和全局依赖关系进行建模,我们设计了多尺度卷积变换子网络。PAN和LR MS图像中的空间和光谱特征提取尺度由子网络的局部和全局相似性信息的描述。
2)我们提出了一个空间-光谱交互注意模块,以整合来自不同子网络的功能。在SIAM中,通过自注意机制提取PAN和LR MS图像的级联特征中的空间信息。以相同的方式,强调LR MS图像中的光谱信息。通过SIAM,减少冗余和增强这些特征之间的互补性。
3)为了有效地整合局部和全局信息的功能在不同的尺度上,我们构建了一个多尺度重建模块。在MRM中,不同尺度的特征内容被继承到融合图像中,以恢复细微的空间和光谱信息。
提出的MSIT框架如图1所示。该网络由两个子网络、三个空间-光谱相互作用注意模块和一个多尺度重建模块组成。
首先,通过与多尺度变换器结构相同的子网络学习PAN图像P ∈ R H × W R^{H×W} RH×W和LR MS图像L ∈ R H × W × B R^{H×W×B} RH×W×B的空间和光谱特征。每个子网络由一个基本卷积块和三个卷积变换器(CT)编码器组成。基本卷积块被引入以根据LR MS和PAN图像中的谱带数目来调整差异。H和W分别是图像的高度和宽度。B是MS图像中的条带数。n表示过滤器的数量,经验上设定为32个。s = 2是卷积步长。对于不同子网中提取的特征,分别在空域和谱域对场景信息进行编码。然后,利用SIAM算法对来自不同子网络的空间和光谱信息进行有效融合。该模块利用交互注意力将空间-光谱特征进行组合,避免了特征间的冗余。最后,将不同尺度的SIAM的输出馈送到MRM中,用于重构融合图像H。
在图1中,我们设计了两个用于特征提取的子网络。子网络由级联的CT编码器组成。LR MS和PAN图像首先被馈送到第一卷积层中以获得具有相同数量的通道的特征图。然后,空间和光谱特征通过CT编码器按比例学习。CT编码器的结构如图2a所示。
对于子网络中的第i个CT编码器,大小为H/ 2 i 2^i 2i×H/ 2 i 2^i 2i× 2 i − 1 2^{i-1} 2i−1n首先被送入到一个卷积嵌入块。i是CT编码器的索引或者尺度。特别是,卷积嵌入块中的两个卷积层的步长分别是2和1。y.批量归一化(BN)也被引入到卷积嵌入块中。然后,将特征图嵌入到大小为H/ 2 i + 1 2^{i+1} 2i+1×H/ 2 i + 1 2^{i+1} 2i+1× 2 i 2^{i} 2in的粗尺度中。在子网络中,特征图的数量随着尺度数量的增加而增加,以更有效地学习空间和光谱特征。同时,卷积嵌入块捕获输入图像的局部特性。在卷积嵌入之后,如图2a所示的六个Transformer块用于学习图像中的全局依赖性。首先,来自卷积嵌入块的特征图被平坦化并投影为具有位置信息的嵌入特征。在Transformer块中,线性投影首先与位置信息相加,然后被馈送到层归一化(LayerNorm)。LayerNorm可以写为:
此外,为了降低具有大尺寸的特征图的计算成本,考虑了具有空间缩减的多头注意力(SRA)来对不同子空间中的LRMS和PAN图像的表示进行建模。Ki 和Vi首先被馈送到SRA中以减小它们的大小,具体地说是减小Ki和Vi中的行数。然后,Qi和SRA的输出被视为多个头部注意模块的输入,以计算它们之间的注意力。因此,SRA被引入到图2a中以减少计算成本,并且SRA算子在图2b中示出。
通过第i个CT编码器的SR,我们经由SR S(·)算子缩减 Key Ki和Value Vi的大小:
对于子网络中的三个级联CT编码器,我们将下采样比率ri设置为4、2和1。通过设置,不同比例尺的特征图大小将相同。
当我们获得Ki和Vi的简化版本时,根据Wang等人提出的注意力机制的计算,第i个CT编码器中的SRA可以通过下式计算:
最后,这些特征流入多层感知(MLP)。在CT编码器中,可以有效地描述LR MS和PAN图像中的局部和全局信息,这有助于融合图像的空间和光谱保持。
在MSIT中,通过子网络从PAN和LR MS图像中提取特征图。对于现有的基于DNN的方法,没有明确的注意机制来保证子网络之间的交互。因此,这将导致这些特征之间的一些冗余信息。为了有效地融合空间和光谱特征,我们设计了一个新的注意力模块SIAM,如图3所示。
在SIAM中,首先展开子网络的第i个尺度上的特征图 F i F^{i} FiP和 F i F^{i} FiL。在前两个CT编码器中,展开算子的核大小为4 × 4,步长为4。对于最后一个CT编码器,我们将展开算子的内核大小设置为1×1。然后,通过线性投影和层归一化获得它们对应的Key K i K^{i} KiP和 F i F^{i} FiP的Value V i V^{i} ViP:
其中F(·)表示展开算子。 K i K^{i} KiP和 V i V^{i} ViP分别是 W K , P W^{K,P} WK,Pi和 W V , P W^{V,P} WV,Pi的线性投影后的相应结果。类似地,通过线性投影矩阵 W K , L W^{K,L} WK,Li和 W V , L W^{V,L} WV,Li。我们从LR MS图像的子网络产生 K i K^{i} KiL的Key K i K^{i} KiL和Value V i V^{i} ViL。对于Query Q i Q^{i} QiC,通过下式从 F i F^{i} FiP和 K i K^{i} KiL的级联估计:
其中级联操作由Concat(·)表示。 W Q W^{Q} WQi是Concat( F i F^{i} FiP, K i K^{i} KiL)的线性投影矩阵。然后,子网络之间的空间-频谱交互通过以下方式实现:
以相同的方式,光谱信息由等式(11)进一步突出显示。经过 Q i Q^{i} QiC的注意力估计,这些特征的冗余度降低,互补性进一步增强。最后,与交互注意的功能折叠和连接在一起的融合图像的生成。
当空间和光谱特征融合SIAM在不同的尺度,我们提出了一个MRM从这些功能生成所需的HR MS图像。MRM的架构如图4所示。
在MRM中,粗尺度的特征图通过由卷积和像素混洗组成的块逐步上采样。在该块中,像素混洗用于特征图的上采样,并且上采样率是2或4,这由尺度索引决定。MRM中使用的激活函数为LeakyReLU:
其中x是特征图中的元素,α是预设参数。在特征图被馈送到像素混洗算子之前,特征图中的通道的数量通过先前的卷积层来改进,以增强空间和光谱信息。与传统的上采样方法相比,像素混洗在分辨率提高任务中具有更好的重建性能。然后,将上采样的特征图与精细尺度下的特征图组合以恢复HR MS图像中的空间和光谱细节。通过按尺度融合,精细尺度的特征图被连接以产生HR MS图像。
最后,通过最小化损失来学习所提出的MSIT:
其中LFusion代表损失函数。Rm和Fm分别是参考图像和融合图像。M表示训练图像的数量。具体而言,所提出的MSIT在PyTorch框架上进行训练。此外,我们使用Adam优化器来最小化等式(13)中的损失。批次大小设置为4。学习率和历元数分别设置为0.0001和2000。当所提出的MSIT被训练时,LR MS和PAN图像被馈送到模型中以产生泛锐化MS图像。
在本文中,我们提出了一种新的泛锐化方法的基础上的多尺度空间光谱相互作用变换(MSIT)。为了捕获PAN和LR MS图像中的局部和全局属性,子网络由一系列用于特征提取的多尺度CT编码器构建。然后,SIAM被设计成集成来自子网络的特征。在SIAM中,不同子网络的特征之间通过注意机制实现交互,增强了空间和光谱特征之间的互补性,减少了冗余。最后,在不同尺度的空间和光谱特征被送入MRM的融合图像的重建。在MRM中,粗尺度的特征图被逐渐上采样以与细尺度的对应物相联合收割机。通过MRM的体系结构,可以有效地融合不同尺度的空间和光谱信息。从GeoEye-1和QuickBird卫星减少和全尺寸数据集的实验表明,所提出的MSIT的有效性,在客观和主观评价。该网络采用的多尺度变换器可以很容易地用于其他相关任务的特征提取,如遥感图像超分辨率。对于未来的工作,transformer更有效的结构将被探索,以减少所提出的方法的训练和测试时间。此外,所提出的方法不能有效地保留光谱信息,在一些地区包含丰富的颜色信息,这可能是造成的信息损失MRM。因此,我们还将研究更有效的重建模块,以整合特征图中的空间和光谱信息。