【图像超分辨率重建】——SwinIR论文阅读笔记

SwinIR: Image Restoration Using Swin Transformer

基本信息:

期刊:ICCV 2021

摘要:图像恢复是一个长期存在的低级视觉问题,其目的是从低质量图像(例如,缩小、噪声和压缩图像)。虽然最先进的图像恢复方法是基于卷积神经网络,但很少有人尝试使用Transformers,这些Transformers在高级视觉任务中表现出令人印象深刻的性能。在本文中,我们提出了一个强基线模型SwinIR图像恢复的基础上Swin变压器。SwinIR由三部分组成:浅层特征提取、深层特征提取和高质量图像重建。特别地,深度特征提取模块由若干残余Swin Transformer块(RSTB)组成,每个残余Swin Transformer块具有若干Swin Transformer层以及残余连接。我们对三个代表性任务进行实验:图像超分辨率(包括经典、轻量级和真实世界图像超分辨率)、图像去噪(包括灰度和彩色图像去噪)和JPEG压缩伪影减少。实验结果表明,SwinIR优于国家的最先进的方法在不同的任务高达0.14 〜 0.45dB,而总的参数数量可以减少高达67%。


1.引言

此前几项革命性的工作,卷积神经网络(CNN)已成为图像恢复的主要主力。大多数基于CNN的方法都专注于精心设计的架构设计,如剩余学习和密集连接。它们通常遭受源于基本卷积层的两个基本问题。首先,图像和卷积核之间的交互是与内容无关的。使用相同的卷积核来恢复不同的图像区域可能不是最佳选择。其次,在局部处理的原则下,卷积对于长距离依赖建模是无效的

作为CNN的替代方案,Transformer 设计了一种自注意机制来捕获上下文之间的全局交互。然而,用于图像恢复的视觉Transformer 通常将输入图像分成具有固定大小的块(例如,48×48),并独立处理每个补丁。这种策略不可避免地会产生两个缺点。首先,边界像素不能利用在图像恢复的补丁之外的相邻像素。第二,恢复的图像可能在每个补丁周围引入边界伪影。虽然这个问题可以通过补丁重叠来缓解,但它会引入额外的计算负担。

Swin Transformer 表现出了很大的希望,因为它集成了CNN和Transformer的优势。一方面,由于局部注意机制,它具有CNN处理大尺寸图像的优势。另一方面,它具有Transformer的优点,可以用移动窗口方案来建模长相关性

我们提出了一种图像恢复模型,即SwinIR,基于Swin变压器。更具体地说,SwinIR由三个模块组成:浅层特征提取、深层特征提取和高质量图像重建模块。浅层特征提取模块采用卷积层提取浅层特征,直接传输到重建模块,保留低频信息。深度特征提取模块主要由残余Swin Transformer块(RSTB)组成,每个RSTB利用几个Swin Transformer层进行局部关注跨窗口交互。此外,我们在块的末尾添加卷积层用于特征增强,并使用残差连接特征聚合提供快捷方式。最后,在重建模块中融合浅层和深层特征,以实现高质量的图像重建。

与流行的基于CNN的图像恢复模型相比,基于Transformer的SwinIR具有以下几个优点:

(1)图像内容和注意力权重之间基于内容的交互,可以解释为空间变化卷积

(2)通过移位窗口机制实现了长距离相关性建模

(3)更好的性能,更少的参数。与现有的图像SR方法相比,SwinIR方法用更少的参数获得了更好的PSNR。

【图像超分辨率重建】——SwinIR论文阅读笔记_第1张图片


2.相关工作

2.1 图像恢复

与通常基于模型的传统图像恢复方法相比,基于学习的方法,特别是基于CNN的方法,由于其令人印象深刻的性能而变得更加流行。他们经常从大规模配对数据集中学习低质量和高质量图像之间的映射。自开创性工作SRCNN以来(用于图像SR),DnCNN(用于图像去噪)和ARCNN(对于JPEG压缩伪影减少),已经提出了一系列基于CNN的模型,以通过使用更精细的神经网络架构设计来提高模型表示能力,例如残差块,密集块和其他。他们中的一些人利用了CNN框架内的注意力机制,例如通道注意力,非局部注意力和自适应补丁聚合。

2.2 视觉Transformer

通过对象检测,分割和人群计数,它通过探索不同区域之间的全局交互来学习关注重要的图像区域。由于其令人印象深刻的性能,变压器也被引入图像恢复。

Chen等人。提出了一种基于标准Transformer的用于各种恢复问题的骨干模型IPT。然而,IPT依赖于大量参数(超过1.155亿个参数),大规模数据集(超过1.1M个图像)和多任务学习以获得良好的性能。

Cao等人。提出了VSR-Transformer,它使用自注意机制在视频SR中进行更好的特征融合,但图像特征仍然是从CNN中提取的。

此外,IPT和VSR-Transformer都是分片注意,这可能不适合图像恢复。此外,一项并行工作提出了一种基于Swin Transformer 的U形架构


3. 方法

3.1 网络结构

SwinIR由三个模块组成:浅层特征提取、深层特征提取和高质量(HQ)图像重建模块。

浅层与深层特征提取:利用卷积层进行浅层特征提取;深层特征提取利用深度特征提取模块,并且它包含K个残差Swin Transformer块(RSTB)和3 × 3卷积层;在特征提取的最后,将卷积运算的归纳偏差带入到基于Transformer的网络中,为后期的浅层和深层特征的聚合奠定了更好的基础。

高质量图像重建:浅层特征主要包含低频信息,而深层特征则侧重于恢复丢失的高频信息。SwinIR通过长跳过连接,可以将低频信息直接传输到重建模块,这可以帮助深度特征提取模块专注于高频信息并稳定训练。对于重建模块的实现,我们使用子像素卷积层来对特征进行上采样。对于不需要上采样的任务,例如图像去噪和JPEG压缩伪影减少,单个卷积层用于重建

损失函数:使用最小化L1像素损失;对于经典和轻量级的图像SR,我们只使用L1像素损失,以显示所提出的网络的有效性。对于真实世界的图像SR,我们使用像素损失,GAN损失和感知损失的组合来提高视觉质量。;对于图像去噪和JPEG压缩伪影减少,我们使用Charbonnier损失。

【图像超分辨率重建】——SwinIR论文阅读笔记_第2张图片

 3.2 残余Swin Transformer

残余Swin Transformer块(RSTB)是具有Swin Transformer层(STL)和卷积层的残余块。

Swin Transformer块:其中HCONVi(·)是第i个RSTB中的卷积层。这种设计有两个好处。首先,虽然Transformer可以被视为空间变化卷积的特定实例,但具有空间不变滤波器的卷积层可以增强SwinIR的平移等方差。其次,残差连接提供了从不同块到重构模块的基于身份的连接,允许不同级别的特征的聚合

Swin Transformer层:Swin Transformer层(STL)基于原始Transformer层的标准多头自注意。主要区别在于局部注意和移动窗口机制。给定大小为H ×W×C的输入,Swin Transformer首先通过将输入划分为不重叠的M×M个局部窗口来将输入整形为HW/M**2 × M**2 × C特征,其中HW/ M**2是窗口的总数。然后,它为每个窗口分别计算标准自我注意力(即,地方注意)。我们并行执行h次注意函数,并将结果连接到多头自注意模块(MSA)。接下来,一个多层感知器模块(MLP),有两个完全连接的层与GELU非线性之间的用于进一步的特征变换。在MSA和MLP之前添加LayerNorm(LN)层,并且剩余连接用于两个模块。当不同层的分区是固定的时,跨本地窗口没有连接。因此,交替使用常规和移位窗口分区来实现跨窗口连接,其中移位窗口分区意味着在分区之前将特征移位(M/2,M/2)个像素。

【图像超分辨率重建】——SwinIR论文阅读笔记_第3张图片


 4.实验

4.1 实验配置

对于经典图像SR、真实世界图像SR、图像去噪和JPEG压缩伪影减少,RSTB数、STL数、窗口大小、通道数和注意头数通常分别设置为6、6、8、180和6。一个例外是,为了减少JPEG压缩伪影,窗口大小设置为7,因为我们观察到使用8时性能显著下降,这可能是因为JPEG编码使用8 × 8图像。

分割对于轻量级图像SR,我们将RSTB数量和通道数量分别减少到4和60。其他保持一致。

4.2 消融研究与探讨

训练集:DIV2K        测试集:Manga109

通道数、RSTB数和STL数的影响:我们在图1和图2中示出了通道数、RSTB数和RSTB中的STL数对模型性能的影响。据观察,PSNR与这三个超参数正相关。对于通道数,虽然性能不断增加,但参数总数呈二次增长。为了平衡性能和模型大小,我们在其余实验中选择180作为通道数。对于RSTB数和层数,性能增益逐渐趋于饱和。我们为它们两者选择6以获得相对较小的模型。

【图像超分辨率重建】——SwinIR论文阅读笔记_第4张图片

斑块大小(patch size)和训练图像数量的影响、模型收敛性比较:比较SwinIR与RCAN比较基于变压器和基于CNN的模型的差异。SwinIR在不同的补丁大小上比RCAN表现得更好,并且当补丁大小较大时,PSNR增益变得更大。SwinIR的性能随着训练图像的数量而上升。其次,与IPT中观察到的基于Transformer的模型严重依赖于大量训练数据不同,SwinIR使用相同的训练数据实现了比基于CNN的模型更好的结果,即使当数据集很小时(即,25%,200个图像)。SwinIR比RCAN收敛得更快更好。

【图像超分辨率重建】——SwinIR论文阅读笔记_第5张图片

RSTB中剩余连接和卷积层的影响:RSTB中的四个剩余连接变体:无残余连接,使用1 × 1卷积层,使用3 × 3卷积层,使用三个3 × 3卷积层(中间层通道数设置为网络通道数的四分之一)。从表中,我们可以看到以下几点。首先,RSTB中的残差连接是重要的,因为它将PSNR提高了0.16dB。第二,使用1 × 1卷积带来的改进很少,可能是因为它不能像3×3卷积一样提取局部邻域信息。第三,虽然使用三个3 × 3卷积层可以减少参数的数量,但性能略有下降

【图像超分辨率重建】——SwinIR论文阅读笔记_第6张图片

 4.3 图像超分结果

经典图像SR:

SwinIR在几乎所有五个基准数据集的所有比例因子上都达到了最佳性能。最大PSNR增益达到0.26dB的Manga109的比例因子为4。注意,RCAN和HAN引入了通道-空间注意力,IGNN提出了自适应补丁特征聚合,NLSA基于非局部注意力机制。然而,所有这些基于CNN的注意力机制的表现都不如所提出的基于Transformer的SwinIR,这表明了所提出的模型的有效性。SwinIR可以恢复高频细节并减轻模糊伪影,从而获得清晰自然的边缘。相比之下,大多数基于CNN的方法会产生模糊的图像,甚至是不正确的纹理。与基于CNN的方法相比,IPT生成更好的图像,但它遭受图像失真和边界伪影。

【图像超分辨率重建】——SwinIR论文阅读笔记_第7张图片

轻量级图像SR:

我们还提供了SwinIR(小尺寸)与最先进的轻量级图像SR方法的比较:除了PSNRSSIM之外,我们还报告了参数总数乘法累加运算(在1280 × 720 HQ图像上评估),以比较不同模型的模型大小和计算复杂度。如表3所示,SwinIR在不同基准数据集上的PSNR裕度高达0.53dB,优于竞争性方法,具有相似的参数总数和乘法累加操作。这表明SwinIR架构对于图像恢复是高效的。

【图像超分辨率重建】——SwinIR论文阅读笔记_第8张图片

 真实世界图像SR:

图像SR的最终目标是用于现实世界的应用。最近,Zhang et al.提出了一个实用的退化模型BSRGAN真实世界的图像SR,并取得了令人惊讶的结果在真实场景。为了测试SwinIR在真实世界SR中的性能,我们使用与BSRGAN相同的退化模型重新训练SwinIR进行低质量图像合成。由于没有地面实况高质量图像,我们仅提供与代表性双三次模型ESRGAN最先进的真实世界图像SR模型RealSR ,BSRGAN 和Real-ESRGAN 视觉比较。如图所示。SwinIR产生具有清晰和锐利边缘的视觉上令人愉悦的图像,而其他比较方法可能遭受不令人满意的伪影。此外,为了充分利用SwinIR的真实的应用潜力,我们进一步提出了一种大型模型并在更大的数据集上训练它。实验表明,它可以处理更复杂的图像数据,并取得更好的性能比目前的模型在现实世界的图像(见附件,https://github.com/JingyunLiang/SwinIR)。

 4.4 JPEG压缩伪影减少结果

表4示出了SwinIR与现有技术的JPEG压缩伪影减少方法的比较:ARCNNDnCNN-3QGACRNAN RDNDRUNet 。所有比较的方法都是基于CNN的模型。之后,我们在两个基准数据集(Classic 5和LIVE1)上测试了JPEG质量因子10,20,30和40的不同方法。如我们所见,所提出的SwinIR在两个测试数据集上对于不同的质量因子具有至少0.11dB和0.07dB的平均PSNR增益。此外,与之前最好的模型DRUNet相比,SwinIR只有11.5M参数,而DRUNet是一个拥有32.7M参数的大型模型。

【图像超分辨率重建】——SwinIR论文阅读笔记_第9张图片

 4.5 图像去噪结果

展示了基于灰度和彩色图像去噪结果。比较的方法包括传统模型BM3D 和WNNM ,基于CNN的模型DnCNN,IRCNN ,FFDNet ,N3Net ,NLRN ,FOCNet ,RNAN ,MWCNN 和DRUNet 。之后,比较的噪声水平包括15,25和50。可以看出,我们的模型比所有比较方法都具有更好的性能。特别是,它在拥有100张高分辨率测试图像的大型Urban100数据集上超过了最先进的模型DRUNet高达0.3dB。值得指出的是,SwinIR只有12.0M参数,而DRUNet有32.7M参数。这表明SwinIR架构在学习用于恢复的特征表示方面是高效的。我们的方法可以去除严重的噪声污染,并保留高频图像细节,从而获得更清晰的边缘和更自然的纹理。相比之下,其他方法遭受过平滑或过清晰,并且不能恢复丰富的纹理。

【图像超分辨率重建】——SwinIR论文阅读笔记_第10张图片


5. 结论

在本文中,我们提出了一个基于Swin Transformer的图像恢复模型SwinIR。该模型由三部分组成:浅层特征提取,深层特征提取,以及高质量图像重建。特别地,我们使用一堆残余Swin Transformer块(RSTB)进行深度特征提取,并且每个RSTB由Swin Transformer层、卷积层和残余连接组成。广泛的实验表明,SwinIR在三个代表性的图像恢复任务和六种不同的设置上实现了最先进的性能:经典图像SR、轻量级图像SR、真实世界图像SR、灰度图像去噪、彩色图像去噪和JPEG压缩伪影抑制等实验结果表明,SwinIR算法具有较好的有效性和推广性。在未来,我们将该模型扩展到其他恢复任务,如图像去模糊和去噪。

你可能感兴趣的:(超分辨率重建,笔记,人工智能)