【基于卷积和Transformer:多光谱图像光谱重建】

Spectral Reconstruction From Satellite Multispectral Imagery Using Convolution and Transformer Joint Network

(基于卷积和Transformer联合网络的卫星多光谱图像光谱重建)

基于卫星多光谱(MS)图像的光谱重建(SR)可以以合理的成本获得高空间分辨率的高光谱(HS)图像,极大地扩展了星载HS遥感的应用。作为一个具有挑战性的不适定问题,现有方法难以充分利用空间和光谱的局部和全局信息来指导重建,导致在具有复杂地物和严重光谱混合的大规模场景中重建精度有限。在这篇文章中,我们提出了一种新的卷积和Transformer联合网络(CTJN),以解决复杂场景中高精度SR的挑战。CTJN由浅层特征提取模块(SFEM)和深层特征提取模块(DFEM)级联而成,可以探索局部空间特征和全局光谱特征。此外,设计了高频Transformer块(HF-TB),突出图像的细节特征,避免高频信息丢失,提高特征变化剧烈区域的重建效果。此外,**空间光谱重新校准块(SSRB)**提出执行明确的约束重建点,通过利用相邻像素和相邻光谱之间的相关性。在四个HS-MS数据集和一个MS数据集上的大量实验结果表明,所提出的CTJN在大规模和小规模场景中的性能优于最先进的方法。

INTRODUCTION

高光谱卫星是遥感和地球观测的非常有效的工具。高光谱图像具有丰富的光谱信息,可以准确区分不同的土地覆盖类别,并广泛用于目标检测,异常检测,精细分类和场景分割。然而,由于传感器技术的限制,HS卫星图像的空间分辨率差,光谱混合严重。此外,重访周期长和HS卫星数量少,使得有效获得高空间分辨率HS图像具有挑战性。这些问题严重制约了协调制度数据的应用。相比之下,多光谱(MS)卫星具有更高的空间分辨率和更短的重访周期,这有助于克服HS卫星应用的缺点。
已经开发了几种方法来执行空间超分辨率以获得具有高空间分辨率的卫星HS图像。此外,其他研究试图通过融合HS图像与MS图像来实现光谱超分辨率。这些方法都能有效地提高HS图像的空间分辨率。然而,所提到的方法都需要原始HS图像作为输入,没有一种方法克服了获取卫星HS图像成本高的问题。Li等人以及Li和Gu等人领导了卫星MS到HS重建的研究,并提出了渐进式空间-光谱联合网络(PSJN)和多时相深度学习网络,分别用于重建单个和多时相HS图像。因此,HS图像具有高的空间分辨率和相当大的视图可以获得基于实际的卫星MS数据。
光谱重建(SR)是一个严重不适定的问题,旨在从几个MS波段恢复数百个HS波段。以前的研究依赖于矩阵映射,这是快速重建,但不准确。随后,基于稀疏表示的方法利用先验知识大大提高SR准确性。然而,这些方法需要复杂的计算并对场景的内容施加限制,使得它们不适合大型和复杂的场景。由于深度学习强大的特征提取能力,最近有研究人员将其应用于SR,并取得了改进的结果,并逐渐成为SR的主要方法。
在计算机视觉领域,基于深度学习对输入RGB图像的光谱超分辨率进行了各种研究,处理方法大致可以分为基于卷积神经网络(CNN)和生成对抗网络(GAN)两类。最近,已经提出了一些基于变换的SR方法,并取得了更好的结果。
在具有复杂地物的大规模场景中进行精确的SR仍然具有挑战性。首先,有限的空间分辨率,宽的空间观测宽度,严重的光谱混合阻碍了SR的性能。此外,通过现有的方法重建的光谱曲线是扭曲的区域急剧变化的特征。分析表明,现有的大多数方法仍然难以充分利用空间和频谱的局部和全局信息来指导重建,并且没有关注复杂场景中丰富的高频信息,导致在大型复杂场景中的精度有限
为了解决上述问题,提出了一种新的卷积和Transformer联合网络(CTJN),该网络将3-D-CNN和Transformer结合起来,将局部空间信息与全局光谱信息相关联,用于具有复杂地面特征的大规模场景中的高精度SR。首先,值得注意的是,基于CNN的方法很难捕获光谱的全局相关性,这可能导致在复杂场景中积累错误,我们在光谱维度中使用自注意机制,通过注意力图捕获远程波段之间的关联,同时使用3-D-CNN收集空间和光谱细节。其次,高频Transformer块(HF-TB)的实施,以防止显着的细节信息的损失,这可以改善重建结果的区域与剧烈的特征变化。最后,一个空间-光谱重新校准块(SSRB)的先验知识建立在空间和光谱维度的特征图重新加权

贡献

1)针对复杂地物的大规模场景,提出了一种CTJN方法,该方法能够提取局部空间特征和全局光谱特征。据我们所知,这是首次将3-D-CNN与Transformer集成在遥感领域的SR中。
2)针对特征变化剧烈区域光谱曲线严重失真的问题,提出了一种HF-TB算法,能够突出高频信息,避免图像过于平滑。
3)将先验知识与数据驱动方法相结合,设计了一种SSRB,该方法通过利用相邻像素和相邻光谱之间的相关性对重建点进行显式约束。

RELATED WORK

SR方法大致可以分为知识驱动方法和数据驱动方法。大多数知识驱动的方法利用先验信息建立输入MS图像和输出HS图像之间的关系。大多数数据驱动方法利用大量数据来发现输入和输出之间的潜在关系,以获得准确的SR。
基于知识驱动的方法可以分为两类:基于矩阵映射的方法和基于稀疏表示的方法。基于矩阵映射的方法由于计算成本较低而受到早期研究人员的关注。代表性的方法是主成分分析(PCA)和伪逆(PI)。随着硬件的进步,这些方法逐渐被取代。基于稀疏表示的方法是目前基于知识驱动的主要方法。Arad和Ben-Shahar应用稀疏编码来获取光谱字典,但这种方法未能考虑空间限制,导致重建质量较低。Fotiadou等人提出了一种基于联合特征空间的耦合字典学习模型,以提高重建性能。Yi等人通过分别约束空间和光谱分量改进了重建结果。Gao等人通过从HS和MS图像的重叠区域学习低秩字典来实现SR。Hong等人通过利用局部约束关系重建了高质量的HS图像。然而,这些方法对场景施加了更多的限制,这在具有复杂特征的大规模场景中并不总是满足。此外,这些方法没有深入研究数据之间的相互关系,导致在复杂场景中重建的HS图像精度较差。
基于深度学习的遥感SR方法由于其优越性能而逐渐出现。根据重建过程,它可以大致分为两种类型。第一种是将每个像素视为多个基函数的组合。Liu等人基于光谱解混和光谱库执行SR,同时对场景进行进一步假设,例如,在场景中只有几种不同类型的材质,并且相同的材质具有相同的反射率。然而,由于卫星遥感的空间覆盖范围广,空间分辨率有限,这些限制可能不合理。第二种是直接学习MS和HS之间的映射关系。Mei等人提出了一种空间和光谱联合超分辨率网络(SSJSRN),通过3-D卷积提取空间和光谱局部特征。Zheng等人介绍了一种空间-频谱残差注意力网络(SSRAN),通过2-D卷积和1-D卷积来学习空间和频谱相邻关系。Han等人将聚类与神经网络相结合来生成HS图像。Mu等人通过学习全局空间信息,尝试使用Transformer在两个MS传感器之间进行SR。Liu等人使用GAN来执行SR,而无需事先引入光谱响应。Li和Gu 提出了一种利用渐进重建策略的PSJN,并在大规模场景中取得了良好的效果。大多数方法在一些数据集上取得了领先的结果。然而,这些方法执行的重建与局部信息的空间和光谱,这可能会导致重建误差的积累,在大规模的场景与复杂的地面特征。计算机视觉中的光谱超分辨率类似于遥感中的SR。任务是输入RGB图像并输出从400到700 nm的31个波段的HS图像。自2017年以来,基于深度学习的光谱超分辨率方法逐渐被提出。此外,受益于图像恢复和增强(NTIRE)SR挑战的新趋势,一些优秀的深度学习方法显示出了巨大的潜力。Shi等人通过使用密度连接结构设计了一个HSCNN,并赢得了2018年的挑战。Li等人通过提出具有相机光谱灵敏度损失函数的自适应加权注意力网络(AWAN)赢得了2020年挑战赛的“clean”赛道。Cai等人将Transformer结构应用于SR,并赢得了2022年的挑战。Gao等人和Zheng等人证明了计算机视觉中的光谱超分辨率与遥感中的SR不同。因此,直接将RGB光谱超分辨率应用于遥感领域可能导致次优性能。

METHODOLOGY

Problem Formulation

传感器记录的能量值受太阳辐射、大气吸收、传感器性能和其他因素的影响;它可以表示为在这里插入图片描述
其中,DNi(p)是由第i个传感器记录的第p个区域的能量值。Ki(λ)表示传感器的影响,包括透镜的光谱透射率和传感器的检测效率。I(λ)是太阳辐射的值。R(p,λ)是第p个区域的反射率。Si(λ)表示第i个传感器的光谱响应函数(SRF),并且∫ Si(λ)dλ = 1,Ni是噪声。
辐射定标后,可以认为消除了传感器差异的影响,因此,(1)可以等效为
在这里插入图片描述
其中,L(p,λ)是透镜的光瞳上λ波长处的辐射能量,其可以被公式化为
在这里插入图片描述
HS图像通过用一系列具有非常窄带宽的传感器扫描地面来获得。所记录的能量值可以被认为是传感器的中心波长处的能量值,其可以表示为【基于卷积和Transformer:多光谱图像光谱重建】_第1张图片

其中λi是第i个HS传感器的中心波长。因此,可以认为HS传感器记录的光谱曲线是连续光谱曲线的离散化。
利用多个宽带传感器对地面进行扫描,获得了微波辐射图像,并将每个传感器记录的能量值与辐射能量和SRF进行了关联。它可以表示为【基于卷积和Transformer:多光谱图像光谱重建】_第2张图片
其中M ∈ R K × 1 R^{K×1} RK×1是MS的值,H ∈ R N × 1 R^{N×1} RN×1是HS的值,S ∈ R K × N R^{K×N} RK×N是光谱响应矩阵。对于(6)的逆变换,可以表示为
在这里插入图片描述
当K << N时,(7)是一个严重欠约束不适定问题。Arad和Ben-Shahar证明,当信号被限制在高维空间中的低维流形上并且流形中的同色异谱的频率较低时,频谱恢复是可行的。我们将(7)转换为监督优化问题,其可以表示为在这里插入图片描述
在具有复杂地物的大场景中,仅考虑邻域信息会导致误差积累。因此,我们在设计大规模复杂场景的CTJN模型时,同时考虑了局部空间信息和全局光谱信息。同时使用MS图像和HS图像之间的误差作为损失函数,这可以表示为在这里插入图片描述

Network Architecture

【基于卷积和Transformer:多光谱图像光谱重建】_第3张图片
【基于卷积和Transformer:多光谱图像光谱重建】_第4张图片

网络的总体结构如图1所示。提出的CTJN包括两个主要部分,浅特征提取模块(SFEM)和深特征提取模块(DFEM)。首先,对于输入MS图像,通过1 × 1卷积获得IMSI R c × H × W R^{c×H×W} Rc×H×W,F ∈ R C × H × W R^{C×H×W} RC×H×W,其中H× W表示图像的空间大小,c是MS频带的数量,并且C是HS频带的数量。接下来,应用NF SFEMs来提取空间和光谱浅层特征FSFEM R C × H × W R^{C×H×W} RC×H×W;每个SFEM由具有残差连接的空间-光谱conv 3-D模块(SCM)组成,并且它可以表示为
在这里插入图片描述
其中F是SFEM的输入,HSCM(·)表示SCM的系统响应。随后,提出了ND DFEMs来提取空间和光谱深度特征FDFEM R C × H × W R^{C×H×W} RC×H×W;每个DFEM由具有剩余连接的U形光谱Transformer模块(USTM)组成,并且可以计算为在这里插入图片描述
其中F表示DFEM的输入,HUSTM(·)表示USTM的输出。最后,应用1 × 1卷积来重建特征并输出HS图像。
通过级联SFEMs和DFEMs,网络可以首先学习局部空间和光谱信息,然后学习全局光谱信息。它可以防止模型直接捕获长距离波段之间的相互关联,而忽略详细信息,从而防止图像过于平滑。

Spatial–Spectral Conv3-D Module

【基于卷积和Transformer:多光谱图像光谱重建】_第5张图片

图2示出了所提出的SCM由多个3-D卷积层组成。三维卷积核函数可以在不引入过多参数的情况下同时捕捉空间和光谱特征。为了避免图像的过度平滑,我们选择了微小的卷积核来提取更精细的空间和光谱特征。
三维卷积核可以定义为 W i W^{i} Wi R N × C × H × W R^{N×C×H×W} RN×C×H×W,其中N是三维核的数量,C、H和W表示三维核的大小。对于给定的特征映射F ∈ R C × H × W R^{C×H×W} RC×H×W,需要一个额外的特征维数来匹配3-D卷积,并且映射可以表示为F ∈ R F × C × H × W R^{F×C×H×W} RF×C×H×W(F在输入相位为1)。3D卷积的过程可以表示为【基于卷积和Transformer:多光谱图像光谱重建】_第6张图片
其中下标“i”表示第i个卷积层中的操作,f(·)是激活函数, δ i δ^{i} δi是偏置。我们使用两个级联的3 × 3 × 3卷积来同时捕获空间和光谱精细纹理细节,然后使用1 × 1 × 1卷积来去除冗余的F维,以增加网络的可扩展性。

U-Shaped Spectral Transformer Module

自注意机制允许模型通过使用浅网络获得长距离信道之间的相关性来获得关于频谱的全局信息,这是单独使用CNN难以实现的。我们将自注意机制与U-Net相结合,形成USTM,它可以利用频谱中的全局信息来指导重建,减少错误的积累。【基于卷积和Transformer:多光谱图像光谱重建】_第7张图片

USTM的总体流程如图3(a)所示。Transformer块用于从U形结构的顶部到底部提取有效特征。在编码器阶段,使用多个HF-TB来提取每个级别的抽象特征,同时渐进地执行下采样操作以降低空间分辨率并增加通道数量。我们使用多个原始的Transformer块(RTB),以进一步提取抽象的功能在瓶颈阶段。在解码器级,采用与编码器完全对称的结构,并应用RTB来集成每个级别的特征。此外,编码器的特征通过SSRB后的跳过连接连接到解码器,以避免下采样过程中的有效信息丢失。我们采用像素解混洗和像素混洗操作来实现下采样和上采样。最后,应用3 × 3卷积来微调特征图。

High-Frequency Transformer Block【基于卷积和Transformer:多光谱图像光谱重建】_第8张图片

编码器将输入特征映射到低维潜在空间,解码器将其恢复为高维特征。在此过程中,由于下采样操作,高频信息不可避免地丢失,导致重建图像趋于平滑,并且在具有剧烈地面特征变化的区域中光谱曲线严重失真
为了解决这个问题,如图3(b)所示,在编码器级中提出了HF-TB。与RTB [如图3(c)所示]相比,在光谱位置敏感自注意(SPS-SA)和前馈网络(FFN)之间插入High_fre块,以强调特征图的详细信息。它是一个可学习的块,具体结构如图4所示。【基于卷积和Transformer:多光谱图像光谱重建】_第9张图片
对于给定的特征图Fin,我们的High_fre块首先通过平均池化操作生成下采样的图。接下来,我们使用双线性插值将特征映射调整为与Fin相同的大小。差分后得到的残差特征图具有丰富的高频信息。最后,利用1 × 1卷积来获得特征图Fout以调整维度。因此,高频信息可以更好地集中在编码器中,并且信息可以通过跳过连接传递到解码器,这有利于保留细节特征,并且对于大型复杂场景具有良好的适用性。

Spectral Position-Sensitive Self-Attention

Transformer之前已应用于SR。与传统的Transformer(如ViT)相比,这些方法可以在频谱维度中创建长范围依赖关系,同时降低计算复杂度(线性复杂度)。受这些方法的启发,我们通过嵌入Q,K和V的位置信息来设计SPS-SA,如图3(e)所示。它可以表述为:【基于卷积和Transformer:多光谱图像光谱重建】_第10张图片
其中Q、K、V ∈ R H × W × C R^{H×W×C} RH×W×C是输入Xin的线性投影值,产生Q = W Q W^{Q} WQXin、K = WK Xin和V = WV Xin,它们分别表示查询、键和值投影。PE(·)表示位置嵌入函数。认为所生成的K、Q和V都包含位置信息。因此,与ViT等网络相比,我们使用K,Q和V作为输入,在由两个3 × 3卷积层组成的PE(·)之后,可以输出位置嵌入。增加的关于K和Q的位置的信息允许生成的注意力图注意到频谱内的相对位置关系,这可以更好地整合频谱方面的相互依赖性,并帮助网络完成准确的重建。在实践中,我们使用多头自注意力来同时生成不同的注意力地图。

Spatial–Spectral Recalibration Block

利用先验知识提高特征图的邻域空间和邻域谱的相关性是关键。这可以帮助网络快速收敛,并提高重建HS图像的精度。SSRB被提出利用先验知识来增强网络的重构能力。SSRB的结构如图5所示。对于给定的特征映射Xin,Fin是通过3×3卷积得到的。采用3×3卷积进一步提取特征的语义信息,提高了模块的可移植性。随后,应用双分支结构在光谱方向和空间方向上重新校准特征地图的权重。【基于卷积和Transformer:多光谱图像光谱重建】_第11张图片

在谱方向上,SSRB首先通过一个全局最大池化操作和一个全局平均池化操作生成两个1 × 1 × C维的特征。然后,我们融合的特征,其次是1-D卷积调整聚合信息的基础上,相邻光谱的高度相关性。在多层感知器(MLP)函数自适应地校准特征的响应之后,在Sigmoid之后输出光谱特征。它可以表示为在这里插入图片描述
其中YGAP表示全局平均池化操作,YGMP表示全局最大池化操作,MLP(·)表示多层感知器函数,它由两个1 × 1卷积层组成。
在空间方向上,SSRB通过通道最大池化和通道平均池化操作生成两个H × W × 1维特征。在特征融合后,采用3 × 3卷积提取局部空间特征,通过空间相邻像素的相似性来融合有效信息。此外,在sigmoid函数之后采用空间特征。它可以公式化为:在这里插入图片描述

其中YCAP表示通道平均池化操作,YCMP表示通道最大池化操作。最后,在如下操作之后获取输出Xout在这里插入图片描述
在光谱维度上,我们使用加法运算来融合特征,通过一维卷积的设计,以显式地聚合相邻光谱的信息。相反级联操作可能会降低相邻光谱的高相关性,这将对后续1-D卷积的性能产生负面影响。在空间维度上,我们使用连接操作来融合特征,因为连接操作不影响相邻空间的3 × 3卷积的聚合,并且可以更完整地保留最大池化和平均池化提取的不同信息,使网络性能更好。
该方法在谱分支中采用一维卷积来增强相邻谱的影响,在空间分支中采用3 × 3卷积来增强相邻空间的影响。与挤压和激励(SE),信道注意(ECA)和卷积块注意模块(CBAM)相比,所提出的SSRB具有更好的性能和可解释性。这些模块之间的具体差异将在消融分析中得到证明。

你可能感兴趣的:(遥感图像,超分图像,transformer,遥感图像,超分辨率重建)