Learning Texture Transformer Network for Image Super-Resolution论文解读-参考图像超分重建

最近阅读了一篇参考图像超分重建的论文,这是微软研究院在CVPR2020的一篇论文,主要讨论了借助参考图像完成超分重建的任务。通过学习参考图像的纹理特征,从而恢复低分辨率图像的纹理信息,实现图像超分重建的任务。

Intruction

图像超分重建的目的是从低分辨率图像恢复高分辨率图像所对应的自然以及真实的纹理。近年来,图像超分在众多领域有所应用。相关研究通常两个方面进行,包括单图超分重建(SISR)、基于参考的图像超分重建(RefSR)。而SISR本身受限于高分辨率纹理在退化过程中被过度破坏而无法恢复,所以可能导致生成图像模糊的问题。基于GAN的图像重建方法可以被提出来解决上述问题,但产生的伪影很难避免。

目前,RefSR通过借助参考图像对重建图像进行HR纹理转换,可以产生令人满意的视觉效果。但目前主流方法都是采用一种直接的方法传输纹理,如下图展示了该论文所提方法TTSR与SOTA Result的结果对比,TTSR从参考图像全图搜索与LR区域(黄色框)的相关纹理(绿色框),从而避免了不正确的纹理转换(红色框)。
Learning Texture Transformer Network for Image Super-Resolution论文解读-参考图像超分重建_第1张图片

其他论文存在的问题:

  • 单图像超分的纹理信息已经被破坏,使用GAN生成的纹理不让人信服;
  • 此前有关RefSR的算法只是利用了参考图像相近区域的纹理特征,并没有利用全图信息;
  • 使用VggNet的特征图用作纹理特征提取,经过VggNet多次卷积以及下采样的特征图不能表达浅层的纹理信息;

为了解决上述问题,该论文提出了一种新的网络模型,用于图像超分的纹理转换网络(TTSR),提出了四个紧密相关的图像生成优化模块。

  1. 可学习的纹理提取模块,可以提取LR与Ref图的联合特征;
  2. 关联嵌入模块,通过该模块,可以生成Hard-Attention图与Soft-Attention图;
  3. 纹理迁移的Hard-Attention模块;
  4. 纹理合成的Soft-Attention模块;

TTSR的设计鼓励了一种更精确的方法来搜索和传递Ref图像到LR图像的相关纹理。还提出了一个跨尺度特征集成模块,通过叠加多个纹理变换器,进一步提高了算法性能。

Contributions

  • 设计一种纹理转移器(Texture Transformer),用于将高清参考图像的纹理转移到低分辨率重建图像中;
  • 设计一种跨尺度特征集成模型(CrossScale Feature Integrations),通过融合不同尺度的纹理特征,从而提高网络的特征表达以及生成图像的质量;
  • 在感知损失函数并不仅仅设计一种简单的感知损失,而是利用可学习的纹理提取器(Learnable Texture Extractor、LTE)设计一种传递感知损失(transferal perceptual loss),从而约束重建图像的纹理特征;

目前基于参考图像的超分重建的性能要取决于LR与Ref图之间的对准质量,不同于以往的方法,本论文可以有效地避免错误的纹理迁移。

Approach

Texture Transformer

整体框架如下,首先借助LTE分别得到三个patch集合Q、K、V,分别为从低分辨率所提取的纹理特征Q(用于纹理检索),参考图像下采样再上采样得到的图像纹理信息K(用来进行纹理检索) 和原参考图像的纹理信息V(用来进行纹理迁移)。通过估计Q与K的相似度来表示LR与Ref图像之间的相关性。

在这里输入有个Ref下采样再上采样,以及LR上采样,作者认为如此可以保证这两个输入属于同一分辨率状态。
Learning Texture Transformer Network for Image Super-Resolution论文解读-参考图像超分重建_第2张图片

Learnable Texture Extractor

使用一个预训练的VGGNet分类模型,用于提取LR与Ref的联合特征,模型结构如下:
Learning Texture Transformer Network for Image Super-Resolution论文解读-参考图像超分重建_第3张图片
Q(query)、K(key)和V(value)表示应用到转换器内部注意机制的三个基本元素,分别为从低分辨率所提取的纹理特征Q(用于纹理检索),高分辨率参考图像经过先下采样再上采样得到的与低分辨率图像分布一致的图像纹理信息K(用来进行纹理检索) 和原参考图像的纹理信息V(用来进行纹理迁移)。通过估计Q与K的相似度来嵌入LR与Ref图像之间的相关性。

Relevance Embedding

将Q和K分别提取特征块,然后通过关联嵌入模块,以正则后的内积的方式计算Q和K中的特征块patch两两之间的相关性(patch大小为上采样的倍数)。
在这里插入图片描述
内积r越大表示这两个特征块之间的相关性越强,可迁移的高频纹理信息越多。反之,内积越小的地方代表这两个特征块之间的相关性越弱,可迁移的高频纹理信息就越少。该模块输出的是一个硬注意力图 H 和软注意力图 S。硬注意力图记录了在每个ref图像(K)中的每个patch所最相关的LR的patch的索引,软注意力图记录了Q和K之间的相关性。

Hard-Attention

在Hard-Attention,只从V中最相关的位置转移特征。对每个qi,选取最相关的kj,返回的是每个LR位置所对应的参考图像的位置hi,从V中迁移对应位置的特征块,组合成迁移纹理特征图 T,其中 T 的每个位置包含LR图像与参考图像中最相似的位置的高频纹理特征。T接着与backbone中的特征 F 进行级联,通过一个卷积层得到融合后的特征。
在这里插入图片描述

Soft-Attention

通过记录对Q内的每个patch与K内最相关的patch的相关性,得到Soft-Attention图S,将上述T与F融合后的特征经过一次卷积后与S进行对应位置作点乘。此时相关性强的纹理信息能够赋予相对更大的权重,相关性弱的纹理信息因为权重小而得到抑制,这样能够更好的迁移高频纹理信息的特征。
在这里插入图片描述

Cross-Scale Feature Integration

该论文同时融合了三种尺度的纹理特征,比例为1:2:4,称之为CSFI模块。每次上采样融合后经过一个CSFI,每个CSFI内的feature,都会融合不同尺度的特征,在channel维度进行concatenation,之后再经过卷积操作回到此前的维度。利用融合操作可以将参考图像的信息运用到不同尺度,进一步提高网络的特征表达,提高图像生成质量。

Loss Function

损失函数由三种损失组成,分别为重建损失loss-rec、对抗损失loss-adv以及感知损失loss-per重建损失使用L1 损失,对抗损失使用WGAN-GP,感知损失由两部分组成。
在这里插入图片描述
第一部分是常见的感知损失的形式,第二部分定义为传递感知损失,选取本文中训练得到的纹理提取器(LTE)作为超分结果的特征提取网络,提取该网络中某一层的特征,与迁移纹理特征图T做loss,其中 T 的每个位置包含参考图像中最相似的位置的高频纹理特征。目的是约束生成的SR与T有相似的纹理特征,这样能够更加有效地迁移参考图像的纹理信息。
在这里插入图片描述

Evaluation

在几个对应数据级中,PSNR与SSIM也是超过其他方法,感觉这篇论文就是针对CrossNet以及SRNTT所欠缺的部分做改进,所以结果有提升也在情理之中。
Learning Texture Transformer Network for Image Super-Resolution论文解读-参考图像超分重建_第4张图片
定量分析不同模块的消融实验:
Learning Texture Transformer Network for Image Super-Resolution论文解读-参考图像超分重建_第5张图片
验证添加CSFI的效果,为了说明并不是堆叠参数引起的指标提高,作者还实验了单纯提高通道数,验证指标。事实证明,CSFI可以提高最终结果。
Learning Texture Transformer Network for Image Super-Resolution论文解读-参考图像超分重建_第6张图片
重建结果展示,TTSR的结果确实比其他RefSR的算法结果要好一大截。
Learning Texture Transformer Network for Image Super-Resolution论文解读-参考图像超分重建_第7张图片

你可能感兴趣的:(Pytorch,论文,图像超分重建)