【超分综述】

A comprehensive review on deep learning based remote sensing image super-resolution methods

(基于深度学习的遥感图像超分辨率方法综述)

卫星图像是地球科学领域各种应用的重要地理信息源。然而,由于光学和传感器技术的局限性以及传感器和设备更新的高成本,对地观测卫星的光谱和空间分辨率可能无法满足要求。因此,以从低分辨率(LR)遥感图像恢复高分辨率(HR)遥感图像为目标的遥感图像超分辨率(RSISR)技术引起了广泛关注,深度学习(DL)算法得到了快速发展。本研究旨在对基于DL的光学遥感图像单幅超分辨率(SISR)方法进行全面的综述。首先,我们介绍了SISR中使用的DL技术。其次,对RSISR算法进行了全面的总结,包括DL模型、常用遥感数据集、损失函数和性能评价指标。再次,我们提出了一个新的多传感器数据集,该数据集由来自不同卫星的各种景观的甚高分辨率卫星图像组成,并评估了一些最先进的超分辨率方法在该数据集上的性能。最后,展望了RSISR领域面临的挑战和未来的研究方向。

Introduction

图像超分辨率(SR)是计算机视觉领域的一个重要课题,在遥感、医学成像、视频监控、生物计量等领域有着广泛的应用前景。SR是通过增强低分辨率输入图像的空间和/或光谱质量来从低分辨率图像集生成高分辨率图像的广泛使用的技术。卫星图像是一个重要的地理信息来源,可用于环境监测、农作物类型识别、土地利用/覆盖制图、灾害管理、决策支持系统、天气预报、气候建模、地理目标探测和生物物理参数估计等不同应用,这些应用已被各种地球科学学科所使用。由于光学和传感器技术的限制以及高成本,地球观测卫星的空间和光谱分辨率一般达不到所希望的高水平;因此,开发基于软件的算法以改善卫星图像的空间和光谱质量具有至关重要的意义。单幅遥感影像超分辨率(SRSISR)为提高低分辨率卫星影像的空间和/或光谱分辨率,改善影像处理应用和去噪性能提供了有效的解决方案。因此,它已成为遥感领域最热门的研究课题之一。
随着深度学习(DL)技术在场景分类、目标检测、图像分割、图像超分辨率等计算机视觉领域的快速发展和显著进步,基于DL的遥感图像超分辨率(RSISR)方法近年来受到了众多研究者的关注并做出了巨大贡献。近来,与基于DL技术的SRSISR算法相关的出版物的数量显著增加。同时,通过使用DL方法,卫星图像的质量得到了显著改善。
在遥感领域,关于基于DL的SRSISR的综述论文数量有限。在本研究中,我们的目标是全面回顾基于DL的SRSISR,集中在DL模型、RS数据集、损失函数和性能评估度量。同时,给出了几种最新的遥感影像处理方法在高分辨率和中分辨率光学卫星影像上的应用和比较。本文主要研究光学遥感图像的单幅图像超分辨率。我们的贡献可概括为:
1)本文对基于DL的SRSISR算法进行了全面的总结。
2)我们创建了一个新的多传感器遥感数据集(MSRSD),其中包括Pleiades、Worldview-2(WV-2)、Worldview-3(WV-3)、Quickbird-2、GeoEye-1和DEIMOS等几个卫星获取的大多数公开可用的甚高分辨率(VHR)卫星图像。
3)我们评估了一些最先进的SR方法在新生成的MSRSD上的性能。
4)最后讨论了遥感图像超分辨率技术面临的挑战和未来的研究方向。

Deep learning in super-resolution

Problem definition

单幅遥感影像超分辨率(SRSISR)是指从低分辨率(LR)遥感影像中恢复出高分辨率(HR)遥感影像。HR和LR图像之间的退化模型Ψ可以数学地表示为:
请添加图片描述
其中ILR和IHR分别代表LR和HR RS图像。δ表示下采样操作的参数。RSISR是退化模型的逆过程,主要关注从给定的ILR中恢复IHR,可写作:
在这里插入图片描述
其中θ表示SR模型F的参数,ISR表示超分辨率图像。
通常,学习过程是优化SR模型F的参数θ,以使生成的超分辨结果ISR与HR图像IHR相似。优化过程可描述为:
请添加图片描述
由于近年来基于监督学习的随机学习方法在基于DL的随机学习中占据主导地位,学者们倾向于设计基于监督学习的RSISR方法。然而,在真实的世界中,HR图像通常不可用。为了生成用于训练的HR-LR对,双三次插值方法是最广泛使用的下采样方法。基本上,在训练过程中,研究者通常将给定的图像作为HR图像,并采用尺度因子为s的双三次插值方法生成相应的LR图像,可以描述为:在这里插入图片描述
然而,这太简单而不能匹配实际的退化模型。因此,一些研究者通过使用高斯核和噪声来对HR进行下采样,噪声定义为在这里插入图片描述
k和n分别表示模糊核和噪声。因此,所生成的LR及其HR对用于在训练阶段中训练模型。

The state-of-the-art deep learning architecture for super-resolution(最先进的超分辨率深度学习架构)【超分综述】_第1张图片

基于DL的SR方法的典型架构如图1所示,其包括浅层特征提取、深层特征提取和重建阶段。

Deep CNN structure

一般而言,CNN结构通过将卷积层和激活层堆叠在一起来自动学习特征图。在开创性工作中,Dong等人提出了超分辨率卷积神经网络(SRCNN),其仅包含图像SR的三个卷积层,并且优于双三次插值方法。SRCNN也被应用于全色锐化和遥感SR任务中,并显示出比传统算法更出色的性能。Kim等人指出SRCNN架构太浅而不能学习图像的深层特征。Hara和Tanaka提出了一种包含20个卷积层的极深超分辨率图像超分辨率(VDSR)方法。通过学习输出和输入的残差,提出的残差学习加快了训练收敛速度。然而,SRCNN和VDSR算法由于在高维空间中进行运算,具有较高的复杂度和计算时间开销。针对这一问题,提出了一组直接在LR图像上训练模型的方法(后处理),而不是在上采样图像上训练模型。Shi等人提出了一种高效的亚像素卷积神经网络(ESPCN),通过提出高效的亚像素卷积层将LR特征图放大到最终输出,从而实现网络中的图像放大功能,并显著提高重建速度。Dong等人提出快速超分辨率(FSRCNN)也直接在LR图像上训练,并且其通过使用去卷积层对特征图进行上采样。由于后处理结构的显著优点,它已成为基于DL的随机共振方法的主流。
增加模型的深度是更好地从LR图像中提取层次特征信息,进而提高图像重建质量的有效解决方案。然而,模型训练的难度和模型的参数也随之增加。为了解决这些问题,Kim等人使用了深度递归卷积网络(DRCN),最多可递归16次。通过向DRCN添加残差体系结构,Tai等人提出深度递归残差网络(DRRN)致力于一个深(多达52卷积层)但简洁的网络。Ahn等人通过设计一种在残差网络上实现级联机制的体系结构,提出了一种用于图像SR的精确、轻量级深度网络–级联残差网络(CARN)。Mao等人提出了残差编码器-解码器网络(RED-Net),用于图像增强任务,如去噪、JPEG去块、图像去模糊、图像修复和SR。 Lai等人提出了一种拉普拉斯金字塔SR(LapSRN)用于高分辨率图像子带残差的渐进重建。Tong等人在非常深的网络中引入了密集跳跃连接(SRDenseNet),该网络有效地结合了低级和高级特征,以加快重建性能。Lim等人开发了一种增强型深度超分辨率网络(EDSR),通过消除传统残差网络中不必要的模块来提高性能。Yu等人提出了一种用于高效和准确图像超分辨率(WDSR)的宽激活方法,该方法在ReLU激活之前简单地扩展了功能,而不是使用各种快捷连接,从而显著改善了SISR。

Attention modules

目前大多数SR工作试图通过增加模型的深度来提高性能。然而,更深的层需要大量的计算和存储器资源。尽管基于CNN的方法已经被广泛应用于各种任务中并取得了优异的性能,但是CNN核对所有通道一视同仁,不能充分利用包含丰富高频信息的低分辨率图像。注意力机制是解决这些问题的机制之一,并且可以学习通道之间更深层次的相互依赖性。注意力引导算法在图像超分辨率等各种任务中的信息特征提取中起着至关重要的作用。许多研究者为提出各种基于注意力的方法来提取更丰富的信息特征做出了突出的贡献。
通道注意、空间注意和像素注意力是这些方法中的三个重要模块。Hu等提出的通道注意目的是学习一个1D(C × 1 × 1)矢量特征图。Woo等人提出的空间注意目标是学习一个2D(1 × H × W)的注意力特征图。Zhao等人提出的像素注意的目标是学习3D(C × H × W)特征图。像素注意力生成特征图的所有像素的关注度系数。Cheng等人提出了递归压缩和激励网络(Recursive Squeeze and Excitation Networks,SESR)用于图像SR,压缩和激励单元学习通道间的相互依赖关系,大大提高了性能。针对传统神经网络方法中包含在LR输入和特征中的丰富低频信息在通道间被同等对待的问题,Zhang等人提出了一种用于图像SR的极深残余通道注意力网络(very deep residual channel attention network,RCAN)。此外,Zhang等人提出了残差中残差(RIR)网络以使网络集中于学习高频信息。随后,Dai等人提出了一种深度二阶注意网络(SAN),通过利用二阶特征统计量而不是通道注意所利用的一阶特征统计量来实现更强大的特征表示和特征相关性学习。此外,Zhao等人通过提出一种能够生成3D注意图的像素注意机制,设计了一种轻量级的卷积神经网络,用于高效的图像超分辨率(即PAN)。最近,Niu等人通过设计LAM(Layer attention module,层注意力模块)和CSAM(Channel-spatial attention module,信道空间注意力模块)提出了一种用于图像超分辨率(HAN)的整体注意力网络,用于进一步学习不同层之间而非单个层之间的相关性。

Cascading networks

级联是改善SR算法性能的另一种解决方案。Zhang等人提出了一种新型级联CNN框架,以使用具有两个子网的单个训练模型实现多尺度图像SR任务。不同的子网络使用不同大小的卷积核来实现多尺度特征映射。Wei等人构建了级联密集网络,以充分利用所有卷积层的分层特征来实现精确的SISR方法。Lan等人提出了一种级联残差网络(CRN)和局部更宽残差块(LWRB)用于SISR。他们还提出了另一种增强型剩余网络(ERN),该网络采用了双重全局通路结构和多尺度块(MSB)。Ahn等人通过多阶段学习将渐进学习方案应用于深度卷积神经网络,导致输出图像分辨率逐渐增加。

GAN methods

随着深度学习的快速发展和取得的显著成就,Goodfellow and Pouget-Abadie提出生成式对抗网络(GAN)在各个领域和计算机视觉任务中出现后,迅速成为学术研究和工业应用的热点。Ledig等人提出了一种用于图像超分辨率的生成式对抗网络(SRGAN),其中采用深度残差网络和使用预训练VGG网络的高级特征图的感知损失来生成照片级真实感图像。但是,图像上仍然存在伪影。为了在视觉上进一步改善图像质量,Wang等人提出了增强型超分辨率生成式对抗网络(ESRGAN),方法是在生成器中加入残差密集块(RRDB),从基本块中移除批归一化,并使用相对论生成式对抗网络训练网络。ESRGAN比卷积神经网络获得了更好的视觉质量和更真实自然的纹理。
近年来,由于注意力机制在提取信道间的特征和深度相关性方面表现出了有效性,因此它也被应用于GANs。Zhang 等人将自我注意机制引入到GANs中,提出了一种自我注意生成对抗网络(Self-attention Generative Adversarial Networks,SAGAN),该网络可以对图像区域间的长程、多层次依赖性进行建模,并在每个位置生成精细的细节。

Remote sensing single image super-resolution (RSISR) (遥感单影像超分辨率(RSISR))

RSISR侧重于从其给定LR图像恢复HR图像。遥感图像具有以下特点:(a)这些图像是从距地球表面几百公里的很远距离获得的;(b)图像中包含大量的小目标,分布多样,包括各种地表场景和不同大小的地物。此外,对象总是与其环境共享共同分布;©由于总是在变化的季节、变化的大气条件和不同的传感器观察几何条件下捕获图像,场景图像具有相当大的差异;(d)目前针对RSISR问题提出的方法主要可以分为两类:监督RSISR方法和非监督RSISR方法。

Supervised RSISR

目前的RSISR算法大多是基于监督学习的,即利用HR-LR对进行训练。在本小节中,我们将讨论基于CNN、基于GAN、基于注意力和基于反向投影的RSISR方法。RSISR的DL架构的发展如图2所示,从2020年开始,基于DL的方法学的种类不断增加。【超分综述】_第2张图片

CNN-based RSISR

由于DL在计算机任务和图像SR中的显著成就,一批研究人员开始了基于DL的RSISR的研究。
Leibel 等人于2016年提出的研究是第一批应用于SRSISR任务的基于CNN的工作之一。在本研究中,作者探索了Sentinel-2图像上的CNN方法,并表明通过使用特定数据集微调SRCNN,CNN方法可以成功地应用于Y通道(YCbCr颜色空间中的亮度分量)和多光谱(MS)遥感图像中的RS数据(Sentinel-2图像)。然而,他们只关注多光谱图像的第三波段,以进行性能观察。Tuna等人应用了SRCNN(Dong等人)和VDSR(Hara和Tanaka)模型,包括对VHR SPOT6和7以及Pleiades 1A和1B卫星采集的卫星图像进行IHS变换,比例因子为2、3和4。实验结果表明,VDSR方法在PAN和MS图像上的分割效果均优于SRCNN方法。2017年,Huang等人报告称,在Sentinel-2A上直接应用VDSR无法产生令人满意的结果。因此,他们提出了遥感深度残差学习(RS-DRL)网络,并证明在Sentinel-2A图像上优于VDSR(Hara和Tanaka)。然而,由于遥感图像的特征复杂性,提出和发展一种针对遥感图像的遥感图像增强模型是真实的必要的。Lei等人在设计了一个局部-全局组合网络(LGCNet),该网络包含一个具有多分支结构的局部-全局组合,通过连接来自不同卷积层的结果来学习RS图像的多级表示。这样的设计不仅可以学习对象的局部细节,包括边缘和轮廓,而且可以学习全局特征,包括环境类型。此外,Xu等人提出了一种深度存储器连接网络(DMCN),通过使用局部和全局存储器连接将图像细节与环境信息相结合,以生成高质量图像。为了减少存储量,作者提出了下采样和上采样单元来实现沙漏结构。在NWPU-RESISC 45、UC Merced数据集和Gaofen-1的2、3、4尺度测试图像上的实验结果表明,DMCN优于LGCNet、SRCNN和VDSR。
为了提高基于DL的模型的性能,一组学者提出了密集残差块。为了提高基于神经网络的网络性能,Jiang等人提出了一种新型深度蒸馏递归网络(DDRN),该网络包括一组超密残差块UDB、多尺度净化单元(MSPU)和RS图像蒸馏机制。所提出的MSPU模块可以补偿在信息传播过程中丢失的高频分量。DDRN在Jilin-1 video卫星影像和Kaggle开放数据集上表现出较好的性能。Deeba等人提出了超分辨率广域遥感残差网络(WRSR)。该算法随着残差网络宽度的增加和深度的减小,提高了训练损失性能和超分辨结果的质量,并进行了权值归一化。
最近,Ren等人提出了一种增强的残差卷积神经网络(ERCNN),该网络使用双亮度方案(DLS)来增强RSISR的特征流模块和区分不同特征图学习的能力。
Wang等人提出了一种反馈虚反射残差稠密网络(FGRDN)来减轻RSISR的计算负担并减少参数的数量。FGRDN采用反馈机制和Ghost模块,通过较低参数的高级细化得到较低层的特征,并在RDB的末端引入空间和通道注意模块(SCM),从特征中学习更多有用的信息。Chang等人提出了一种用于RSISR的双向卷积LSTM神经网络。该方法由基于稠密连接的递归推理模块和双向卷积LSTM(BiConvLSTM)层组成,双向卷积LSTM层用于理解每次递归的特征相关性,实现重构层补充信息的自适应选择。
大多数SR算法仅采用单个上尺度器来上采样LR特征,例如预处理方法(SRCNN)和后处理(使用亚像素卷积或去卷积层),这导致LR图像信息的丢失。为了强调这一问题,Huan等人通过融合层次特征并形成多尺度膨胀残差块(MSDRB),提出了一种新的金字塔型多尺度残差网络(PMSRN)。PMSRN提高了图像特征提取的能力,其参数仅为EDSR的43.33%。
Zhang等人为RSISR实现了一个渐进残差深度神经网络(PRDNN)。提出的渐进残差结构可以通过逐步学习不同层次、不同感受野的卫星图像特征图来提供更详细的特征。提出的PRDNN能产生更精确的边缘和纹理信息。
Shao等人提出了一种新型耦合稀疏自动编码器(CSAE),将稀疏学习和自动编码器结合起来用于RSISR。CSAE算法利用稀疏系数集作为先验知识,能够有效、准确地学习LR和HR遥感图像之间的映射关系。
为了增强网络的表示能力,进一步提取遥感图像中包含的特征,一些研究旨在提取不同尺度上的信息。
Fu等人通过对一组特征图使用不同的卷积核实现了基于卷积神经网络的超分辨率(SR)。他们在Jilin-1数据集上进行了端到端训练,发现结果优于FSRCNN。
Lu等还考虑了多尺度残差神经网络(MRNN),充分利用RS图像中物体的多尺度特征进行精确的SR重建。他们提出的方法通过提取大、中、小尺度图像特征进行多尺度信息表示,并融合多尺度信息,生成视觉上高质量的图像。Wang等人应用自适应多尺度特征融合网络(AMFFN)进行RSISR任务。该网络采用自适应多尺度特征提取(AMFE)模块和挤压激励及自适应选通机制,自适应地提取多尺度特征,并自适应地保留特征信息,提高了信息利用效率。多尺度特征映射方法是使用多尺度特征映射结构,该结构允许网络在单层卷积层中应用不同的核大小。他们提出了一种增强型深度卷积神经网络算法(EDCNN),以更好地学习每个卷积层中的信息,从而获得SR卫星图像。最近,Deeba等人提出了一种转移宽残差SRSISR深度神经网络模型(WRSR),该模型随着网络宽度的增加和残差深度的减小,大大降低了存储开销,提高了精度。以前的工作通常在原始域中处理图像;一些研究人员在多尺度频带中训练该模型。Wang等人开发了一种结合小波的基于神经网络的方法,以创建从空中平台获得的SR图像。作者在不同频带上训练多个模型,以恢复不同方向上的频率特征。该方法成功地捕获了高频局部变化和低频全局布局。此外,Ma等人提出了一种结合小波变换(WT)和递归Res-Net的方法来在频域中重建HR图像。同时,他们实现了递归块和残差学习,以简化深度网络的训练。此外,批量归一化层的去除增加了网络的灵活性并节省了内存使用。
通常,这些方法中的大多数都是以与自然图像SR方法相同的方式使用RGB图像(8位)进行训练的。然而,卫星图像的辐射分辨率通常为11位或12位,并包括多光谱波段,可以提供更丰富的无线电和光谱信息。因此,Wagner等人采用了一种通用的SRSISR方法-VDSR来处理单个Sentinel-2条带的不同空间分辨率。通过用其下采样的20 m图像训练Sentinel-2图像的四个10 m波段,该模型可以将图像从20 m超分辨到10 m。实验结果表明,该方法优于原始的VDSR算法。Müller 等人的工作也应用了卫星图像。通过应用SFIM全色锐化方法生成全色锐化后的HR图像,提出了一种利用全色图像对多光谱图像中所有波段进行超分辨的RSISR方法。
基于以上分析,如何充分利用多光谱图像中所包含的丰富信息,目前的探索还很有限,值得进一步深入研究。
RSISR任务中的另一个挑战是如何对真实的卫星图像进行超分辨率处理。Zhu等人提出了一种用于商业卫星影像产品的逼真训练数据生成模型,而不是使用具有固定内核的简单下采样模型来创建训练图像。此外,通过提出残差卷积神经网络和组合感知损失函数,证明了该方法能够提高真实的卫星图像的质量。

GAN-based RSISR

生成对抗网络(GAN)框架最近被考虑用于RSISR。一种基于GAN的方法,转移生成对抗网络TGAN,去除了批量标准化层,以减少计算负担并提高准确性(Ma等人)。该模型首先在DIV2K自然图像上训练,然后用遥感数据集进行微调。在(Jiang等人)提出了一种EEGAN架构,其中EEGAN的生成器由两个主要子网组成:超密集子网(UDSN)和边缘增强子网(EESN)。在Kaggle开源数据集、Jilin-1 video卫星影像和Digi talglobe上的实验表明,该方法的性能上级其他SR方法。Wang等人提出了一种超密集GAN(udGAN),作者将残差块的内部布局改造为二维矩阵拓扑。Gong等提出了一种用于SR任务的启发式GAN,通过设计启发块,使用自监督层次感知损失来保证性能的提高,并使用内部不一致性损失和裁剪策略来避免接缝线。最近,Chen等人通过应用2D拓扑和RRDB块,有效地改进了具有对角连接的EEGAN,以实现更好的信息转换和梯度优化。这些方法是在中分辨率卫星图像上进行的。然而,如何超分辨VHR图像(例如,50cm或30cm)以生成更高分辨率的图像仍然是实际和具有挑战性的工作。
Sustika等人通过在生成器网络中应用残差密集网络(RDN),作者提出了一种基于生成对抗网络(GAN)的方法,该方法在经典(客观)评价指标上提供了高性能沿着RSISR的高感知质量。Liu等人通过设计残差稠密块,提出了一种级联条件Wasserstein生成对抗网络(CCWGAN),用于获取HR RS图像。Guo等人提出了一种级联生成式对抗网络(CGAN),通过设计边缘增强模块来保留边缘细节并抑制噪声。Ma等人实现了一种基于稠密残差生成对抗网络(DRGAN)的SRSISR方法,该方法可以利用层次特征,并通过使用带梯度惩罚的Wasserstein GAN(WGANGP)稳定地训练模型,以提高遥感影像的分辨率。
除了提高发生器的性能外,鉴别器的设计对改进基于GAN的结果也至关重要。Lei等人实现了遥感图像的耦合鉴别GANs(CDGANs),这是一种基于GANs的超分辨率算法,通过引入双路径网络结构、随机门和耦合对抗损失来解决“鉴别模糊”问题。
尽管GANs在生成感知上更真实的图像方面取得了很好的成就,但基于注意力GANs的方法被证明在增强生成器的表示能力方面是有效的。因此,基于GAN的网络是RSISR研究的热点。Moustafa等人提出了一种用于卫星图像SR的SCSEGAN,方法是在每个残差块之后简单地堆叠空间和信道挤压激励(SCSE)块,并引入带梯度惩罚的Wasserstein距离(WGAN-GP)。Gao等人提出了一种基于GAN的结合残余通道注意力(CA)的遥感图像重构方法,以增强遥感图像的深度特征提取能力,产生更锐利的边缘。最近,Jia等人提出了一种由金字塔卷积残差稠密(PCRD)块、基于注意力的上采样(AUP)块和基于注意力的融合块组成的多注意力GAN(MA-GAN)框架,用于RSISR实现任意尺度的上采样。Xu等人提出TE-SAGAN将自注意机制(SAM)和权重归一化(WN)结合到GAN中,以去除伪像并增强纹理。此外,Li等人提出的基于局部注意和全局注意的生成性对抗网络(SRAGAN)可以学习结构分量和通道和空间维度上的长程相互依赖性。
虽然基于GAN的方法可以产生更真实的结果,但实验结果表明,原始图像不包括一些重建的纹理。因此,Huang and Jing等人提出了一种结合小波变换和生成式对抗网络的SR重构方法,用于RSISR重构。实验表明,在GAN中训练小波分解系数可以有效地改善重构图像的局部细节信息。
基于GAN的方法也已经应用于真实世界RSISR。Guo等人提出了一种新的稠密GAN(NDSRGAN)和一个真实的HR和LR航空影像(RHLAI)数据集,该数据集由航空飞行在同一地点不同高度拍摄的HR和LR影像组成。Zhang等人通过使用由模糊核和噪声生成的真实数据集来训练所提出的残差平衡注意力网络(RBAN)-UNet。

Attention-based RSISR

由于注意机制在图像随机共振任务中取得了显著的成功,许多研究者将注意机制应用到遥感领域,包括全色锐化(Wang and Sertel等人)和图像随机共振,并有效地提高了性能。Gu等人提出了一种用于RSISR的深度残差挤压和激励网(DRSEN),提出了一个残差挤压和激励模块(RSEB),其中包括局部特征融合(LFF)模块和挤压和激励(SE)模块,用于建模通道之间的相互依赖性并增强网络的表示能力。Dong等人提出了一种多感知注意网络(MPSR),该网络由增强残差网络(ERB)和残差通道注意群(RCAG)组成。MPSR在DIV2K上进行预训练,然后转移到表现出更好性能的RS图像上。Haut等人提出了一种新的遥感SR方法,该方法在基于残差的网络设计中集成了视觉注意机制。Zhang等人使用了与RCAN类似的体系结构,并证明显著改善了性能。最近,Wang等人将通道注意和空间注意应用于深度密集残差网络,以提高SISR解决方案的性能,同时关注VHR卫星图像。在WV-3(Data Fusion Contest 2019数据集)和Pleiades数据集上的实验结果表明了注意机制在提高算法性能方面的有效性。Peng等人提出了一种新的单幅图像随机共振算法–门控卷积神经网络预训练(PGCNN),该算法通过设计多个残差块来学习高频信息,残差块中包含一个额外的设计良好的门控卷积单元,该单元具有长跳跃连接。通过迁移学习,该方法可以产生更多的纹理和细节信息。然而,这些方法采用简单直接的方式,仅仅在残差块内部添加关注模块,不能表现出LR图像更深层次的特征。最近,Dong等提出了一种用于RSISR的二阶多尺度超分辨率网络(SMSR)。Zhang等人为RSISR开发了混合高阶注意网络(MHAN)。其中新的注意模块(R = 3时)比一级注意模块(通道注意)更有效。Li等提出了一种基于通道注意力的融合递归网络(CA-FRN),通过保留和融合LR和HR的层次局部信息来构建RSISR。Zhang等人使用多尺度注意力网络从遥感图像的不同场景中提取多层次特征。Huang等人通过开发包含局部多级融合模块的残差双关注块(RDAB)和使网络更加关注高频信息区域的双关注机制(DAM),提出了一种深度残差双关注网络(DRDAN),实现了遥感图像全局和局部信息的融合。Wang等人提出了一种非局部上下卷积注意网络(NLASR),该网络包括非局部特征增强模块(NLEB)、增强上采样通道注意模块(EUCA)和增强下采样空间注意模块(EDSA)。通道式和多尺度空间信息的集成导致从低到高分辨率空间的更精确映射。
为了用更少的参数来增强表示能力,Li等人提出了一种用于RSISR的并联残余通道注意力网络(PCRCAN),该并联残余通道注意力网络提出了具有基于组卷积的特征聚合模块的并联模块,并且使用残余通道注意力块作为基本特征映射单元。最近,陈等人提出了一个残余聚合和分裂注意力融合网络(RASAF)来生成高质量的RS图像。RASAF包含一块分割注意力融合实现跨渠道功能组交互对各种地表场景再保险­结构和残余聚合机制生成更高质量的当地残余分支功能层次损失函数的多尺度图像信息的学习。此外,Huan等人设计了一种非对称多尺度超分辨率网(AMSSRN),引入残差多尺度块(RMSB)和残差多尺度膨胀块(RMSDB),并引入特征细化融合(FRF)模块进行全特征提取。Wang等人设计了一种由通道分离操作、注意模块和特征增强块(FEB)组成的轻量级格块(LLB),使网络能够有效地提取不同纹理丰富度。
由于有限的先知先觉的LR空间,而是RSISR与大规模的(例如×8)是一项具有挑战性的任务,仍然去探索。Dong等人设计dense-sampling机制和宽特征注意块(WAB)以结合宽激活和注意机制。他们的方法–密集采样超分辨率网络(DSSR)探索了遥感影像的大尺度SR重建。实验结果表明,该算法在较大的缩放因子×4和×8下仍具有较好的性能。Ma等人(2021)为RSISR实现了密集通道注意网络(DCAN),其中他们设计了密集通道注意机制(DCAM)来利用多级特征映射。

Back-projection based RSISR(基于反投影的RSISR)

反投影是用于提高基于DL的图像SR的性能的另一种方法。Haris等人提出了深度反投影网络(DBPN),其可以迭代地利用下采样和上采样层,并提供用于投影误差的基于阶段的误差反馈机制。**上采样和下采样阶段相互连接,**以定义不同类型的图像退化和高分辨率组件。Pan等人为RSISR开发了残差密集反投影网(RDBPN)。其中采用了全局和局部残差学习。然后采用降尺度单元代替降投影单元,实现了快速RDBPN(FRDBPN),提高了重建速度。此外,通过引入注意机制,Dong等人提出了RSISR的增强反向投影(EBPN),改进了DDBPN(Haris等人)用于通道式特征提取。

Unsupervised RSISR

尽管监督RSISR方法已经产生了成功的结果,但是它们遭受缺乏成对的HR和LR图像的困扰。传统的有监督算法不能满足数据采集过程复杂的真实的遥感图像生成应用的要求。因此,研究RSISR的非监督方法具有十分重要的意义。在过去的几年里,一些研究人员对无监督RSISR算法做出了实质性的贡献。
Sheikholeslami等人提出了一种有效的无监督随机共振(EUSR)DL模型。EUSR算法通过使用密集连接的卷积层和跳跃连接,提高了重构性能,减轻了计算负担。Choi和Kim提出了一种强调自然性的新退化模型和一种改进的SRResNet,以提高KOMPSAT-3的图像质量。Wang等人提出了一种方法,在无监督高时间RSISR之前将参考转换到潜在空间作为偏移图像。随后,Wang等人通过改进先前的工作,采用递归更新策略将参考变换到潜在空间作为增强图像先验,实现了一种无监督学习框架-增强图像先验(EIP),以在没有LR和HR图像对的情况下完成SR任务。
另一组研究人员受益于CycleGAN的想法。Wang等人提出了一种无监督CycleCNN模型,包括两个生成式CNN用于下采样,SR分别用于RSISR。最近,通过提出两循环模块。第一模块用于将LR图像映射到HR图像,即,SR,而第二模块将HR图像映射回LR图像,如下采样:Zhang等人提出了一种可以用不成对图像训练RSISR的Cycle-CNN。
此外,GAN还被应用于基于无监督学习的RSSR。Zhang等人采用了一种基于无监督生成对抗网络(GAN)的RSISR方法,该方法在训练过程中不需要HR RS图像。Haut等人实施了一种无监督模型,该模型主要通过各种卷积、下采样、批量归一化和激活层来学习LR和HR域之间的关系,以超分辨率LR RS数据。Zhang等人通过设计可见图像引导网络和域规则鉴别器,提出了一种无监督可见图像引导RSISR网络(UVRSR)。UVRSR算法能有效地保留HR图像的高频信息,避免域偏移。
通过以上分析,我们对SISR的问题有了一些发现:
(a)通常,基于GAN的方法可以生成感知上高质量的图像,但是具有低PSNR值。而基于神经网络的方法通常可以获得较高的PSNR值,但感知质量较低。
(b)通过应用注意力和反投影机制,我们可以提取更深层次的信息,提高性能和图像质量。
©随着近年来各种用途的光电卫星数量的不断增加,以及卫星图像应用的日益广泛;需要包括多传感器VHR卫星图像的公共基准数据集,以确保针对不同卫星图像、位置和景观特征提出的方法的通用性和可转移性。

Loss functions

损失函数的合理选择是数字图书馆应用中最关键的学习策略之一。在图像SR任务中,利用损失函数来评估超分辨结果ISR与参考HR图像IHR之间的差异,并优化SR模型。L2损失函数(也称为MSE损失函数)是广泛使用的研究处于初级阶段。后来发现了L2损失函数不能精确测量重建质量。因此,研究者提出不同的损失函数(包括Chabonnier损失、感知损失、对抗损失等等)来生成更准确地重建结果。在本节中,我们将仔细看看损失函数中使用老的任务。

Pixel-wise loss

L1(MAE)和L2(MSE)损失函数是最简单和最广泛使用的逐像素损失函数。给定超分辨结果ISR及其目标图像IHR,L1损失函数可以定义为:请添加图片描述
L2损失函数可表示为:请添加图片描述
目前,L1损失函数比L2损失函数更受欢迎,因为L1损失函数已被证明表现出改进的性能和更快的收敛。此外,存在L1损失函数的可微分变体,即Chabonnier损失函数,其是鲁棒的并且可以被写为:
请添加图片描述
由于对数据中离群值的敏感性较低,Huber损耗也用于SR任务,可定义为:【超分综述】_第3张图片
由于PSNR与逐像素差异高度相关,因此逐像素损失函数非常有效,尤其是在目标是进一步提高PSNR值时。然而,实验结果表明,具有高PSNR值的图像并不总是提供具有平滑纹理的感知上令人满意的结果。

Perceptual loss

感知损失((Goodfellow and Pouget-Abadie等人、Johnson等人)旨在测量从预训练网络Ψ提取的特征之间的距离(例如,VGG(ref)),并且克服了逐像素损失函数的缺点,并且产生感觉上令人满意的超分辨结果。感知损失可定义为:在这里插入图片描述
用感知损失训练的模型通常提供视觉上更精细的细节和纹理,但是与逐像素损失驱动的模型相比具有更低的PSNR。
另一种感知损失函数是LPIPS(Zhang等人),它是用基于人类感知相似性判断的数据集训练的,比VGG感知损失更符合人类感知偏好。LPIPS损耗定义为:
【超分综述】_第4张图片

Adversarial loss

对抗性损失被广泛用于生成性对抗性网络的训练(Goodfellow和Pouget-Abadie)。GAN网络由发生器和鉴别器组成。对于基于GAN的RSISR,超分辨率模型作为生成器,以LR RS图像作为输入生成超分辨率结果,而鉴别器作为分类器,确定给定图像是生成的还是真实的。
具体地,在训练过程中,利用如下所述的基于交叉熵的对抗性损失来交替训练生成器和鉴别器:【超分综述】_第5张图片
虽然基于GAN的网络比基于CNN的方法能产生更真实的结果,但是它们很难训练。因此,Wasserstein GAN(Liu等人)、WGAN-GP(Ma等人)和相对论对抗损失(Relativistic Adversarial Loss),以降低训练难度,提高图像质量。
最近,Jolicoeur-Martineau提出了相对论GAN(RaGAN),其中鉴别器估计给定真实的数据比随机采样生成的数据更真实的概率。相对论性GAN的鉴频器损耗可以描述为
在这里插入图片描述
生成器的对抗损失定义为:【超分综述】_第6张图片
实验结果表明,具有RaGAN损失的模型提供了更精细的细节,同时具有更稳定的训练。然而,对抗的基于损失的方法倾向于产生令人愉快的视觉质量结果,但是具有较差的PSNR和SSIM。

Cycle consistency loss

CycleGAN(Zhu等人)是用于图像到图像转换任务的有用方法并且已经被应用于表现为循环-循环CNNs的RSISR任务(Wang等人)。对于基于循环CNN的方法,循环一致性损失由前向和后向循环一致性损失组成。在前向部分中,上采样模型对ILR进行超解析以产生ISR,并且退化模型将ISR下采样回到ILR′。在后向部分,退化模型对HR图像进行下采样得到IHLR,上采样模型根据IHLR生成IHR′。循环一致性损失保持ILR、IHR与其生成结果ILR′、IHR′之间的一致性。
在这里插入图片描述

Datasets and evaluation metrics

Available remote sensing image datasets

在本节中,我们总结了一些文献中广泛使用的RSISR数据集。不同DL任务常用的RS数据集如表1所示;不同的研究人员使用这些数据集进行SR,因为没有广泛可用的公共数据集用于SR任务。【超分综述】_第7张图片
(1)AID(Aerial图像数据集)(Xia等人)。AID是一个大规模和多源航空图像数据集,包括从Google Earth Imagery收集的30种不同土地类别的10,000张图像,用于场景分类任务。
(2)DOTA(Xia等人)。DOTA是为目标检测任务生成的基于空中图像的大规模基准数据集。该数据集包含从Google Earth、GF-2和JL-1卫星收集的2806幅图像以及由CycloMedia B.V.提供的航空图像。
(3)UC Merced数据集(Yang和Newsam)。该数据集包括21个不同土地类别的图像。每个图像块的大小为256 × 256像素,每个类别有100幅图像,这些图像来自USGS国家地图集。
(3)WHU-RS19(Sheng等人)。WHU-RS19包含19个不同的土地等级。从GoogleEarth上获取了50个VHR图像块,每个块的大小为600 × 600像素。
(4)Kaggle开源数据集(用于卫星图像的Kaggle开源数据集)。该数据集包括在南加州上空收集的1000多张VHR航空照片。它包含350个用于训练的图像和1370个用于测试的图像。
(5)NWHU-RESISC45(Cheng等人)。该数据集由西北工业大学(NWPU)生成,作为遥感图像场景分类(RESISC)任务的公共基准。每类包含700幅图像,大小为256 × 256像素,用于45个不同的场景类。
(6)IEEE数据融合竞赛(DFC)2019(数据融合竞赛)。DFC(2019)数据集由WV-3卫星捕获的2783张多日期卫星图像(用于训练)和50张图像(用于测试)组成。样本图像块的大小为1024 × 1024像素。
(7)RSCNN(Zou等人)。该数据集共包含7类2800幅遥感图像。每类有400张图像,大小为400 × 400像素。此外,该数据集中的图像是在不同的大气条件和季节下采集的,并以不同的尺度进行采样;因此,RSCNN数据集相当具有挑战性。
(8)SpaceNet数据集(AWS)。SpaceNet是另一个大型卫星图像数据集,专门从VHR WV-3号卫星获取。

Multi-sensor remote sensing dataset (MSRSD)

【超分综述】_第8张图片

我们的研究主要集中在VHR卫星图像而不是航空照片。为此,本文提出了一个新的多传感器遥感数据集(MSRSD),该数据集主要由Pleiades 1A/1B、GeoEye-1、QuickBird 2、WV-2、WV-3和DEIMOS卫星获取的VHR卫星影像组成,其中大部分是公开的。MSRSD的详细信息如表2所示。MSRSD包括来自七颗不同卫星、来自不同地理位置和各种地貌条件的卫星图像,以便于模型在全球范围内的转移和推广。它是一个多用途和丰富的数据集,主要包括VHR级空间分辨率。将图像制备为全色锐化的三条带。
训练时,我们裁剪的图像补丁的大小为128×128像素,我们只训练RGB通道模型。MSRSD的补丁总数是65947。我们使用62647个补丁进行训练了,3300个补丁进行验证。
此外,我们从DFC数据集中选择了50张大小为1024 × 1024像素的图像,从Pleiades图像中选择了30张大小为720 × 720像素的图像,作为测试数据集,用于独立评估所实现的模型和验证所实现方法的稳健性。

Evaluation metrics

(1)峰值信噪比(PSNR):PSNR是最常用的图像质量评估度量,其通过在像素级计算图像之间的距离来测量图像质量。对于RSISR,假设我们已经生成了都具有N个像素的超分辨结果ISR和目标图像IHR,我们首先计算图像之间的均方误差(MSE)为
【超分综述】_第9张图片
其中M是与图像的辐射分辨率和动态范围直接相关的最大可能像素值。较高的PSNR值表示较好的视觉质量。
(2)结构相似性指标(SSIM):SSIM是另一种流行的客观评估指标,用于测量两幅图像之间的结构相似性。这是一个基于知觉模型和使用亮度,对比,和结构(Zhou等人)。鉴于超分图像ISR和目标图像IHR,SSIM计算:
【超分综述】_第10张图片
由于图像可能分布不均匀,在实践中使用SSIM存在局限性。为此,采用平均结构相似度(MSSIM)和多尺度结构相似度(MS-SSIM)对SSIM进行评价,将图像划分为多个窗口,计算每个窗口的SSIM,最终得到MSSIM或MS-SSIM。SSIM值越高表示与HR图像的相似性越高。
(3)学习感知图像块相似性(LPIPS):LPIPS是感知评估度量并且用于评估两个图像块之间的距离(Zhang等人)。较小的LPIPS值指示更大的相似性;而较高的LPIPS值指示变得不同。
(4)自然图像质量评价器(NIQE):NIQE是一种盲图像质量评估指标,不需要参考真实图像。它将两个多元高斯模型拟合到图像并计算这两个模型之间的距离(Mittal等人)。在拟合多元高斯模型时,使用从原始场景统计模型推导出的质量感知特征。NIQE值越小表示视觉质量越好。
(5)感知指数(PI):PI是在2018年PIRM感知图像超分辨率挑战中提出的(Blau等人)。PI结合了Ma等人的无参考图像质量测量(Ma等人和NIQE(Mittal等人)作为

在这里插入图片描述
(6)平均压差(AG):AG测量图像的梯度幅度(Chen等人),定义为:在这里插入图片描述
此外,还有一些其他评估指标用于定量评价RSISR结果,如ERGAS(合成的相对全球尺寸误差)(Liu等人),SAM(光谱角度测绘仪)(Yuhas等人)、Q指数(Zhou和Bovik)、QNR(无参考的质量)(Alparone等人)、VIF(Sheikh and Bovik)、FSIM(Zhang等人)。
在本文中,我们使用三个基于参考的度量-PSNR、SSIM、LPIPS和三个不基于参考的度量-NIQE、PI和AG作为评估度量来评估我们的SRSISR结果的质量。我们使用RGB通道计算所有指标。

Experimental results and discussions

在本节中,我们通过在我们提出的MSRSD数据集上实现最先进的CNN、GAN、Attention和基于反投影的SR方法进行了几个实验,以全面比较基于DL的RSSR方法。我们通过计算PSNR、SSIM、AG、NIQE、LPIPS和比例因子为×2、×4、×8的PI来评估我们的结果。

Experiment setting

你可能感兴趣的:(图像融合,遥感图像,计算机视觉,人工智能,深度学习)