Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①

本文目录

  • 摘要
    • 附录
    • 摘要
  • 1.简介
    • 附录
    • 简介
  • 2.相关工作
    • 附录
    • 相关工作
      • SISR
      • RefSR
  • 3.方法
    • 附录
    • 方法
      • 3.1纹理转换器(Texture Transformer)
        • 可学习的纹理提取器(Learnable Texture Extractor)
        • 相关性嵌入模块(Relevance Embedding)
        • 硬注意力(Hard-Attention)
        • 软注意力(Soft-Attention)
      • 3.2跨尺度特征整合(Cross-Scale Feature Integration)
      • 3.3损失函数(Loss Function)
        • 重建损失(Reconstruction loss)
        • 对抗损失(Adversarial loss)
        • 感知损失(Perceptual loss)
      • 3.4实现细节
  • 4.实验
    • 附录
    • 实验
      • 4.1数据和指标
      • 4.2 评价
        • 定量评价
        • 定性评估
      • 4.3 Ablation Study
        • 跨尺度特征集成
        • 转移的感知损失
        • 不同参照相似性的影响
  • 5.结论

摘要

本文参考的文章,建议阅读

附录

超分辨率技术(Super-Resolution, SR)是指从观测到的低分辨率图像重建出相应的高分辨率图像,在监控设备、卫星图像和医学影像等领域都有重要的应用价值。超分辨率技术
注意力机制(attention mechamism):神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。注意力机制详细概述

摘要

SR:超分辨率,LR:低分辨率,HR:高分辨率,Ref:参考

我们研究SR是想要在LR图像中恢复LR的真实纹理。
最近的进展是利用高分辨率的图像作为参考,想要去将高分辨率中的相关图像纹理转移到低分辨率图像中。
但是现有的SR方法并未使用注意力机制来从参考图像中转移HR图像中的纹理,这个问题限制了在一些具有挑战性的案例中使用这个方法
在本文中我们提出看一个新的TTSR,在这个里面LR和Ref图像被分别表示为Transformer里的查询和关键字
TTSR由四个紧密相关的模块组成,这些模块针对图像生成任务进行了优化,包括:DNN的可学习纹理提取器,相关性嵌入模块,用于纹理传递的硬注意力模块和用于纹理合成的软注意力模块
这样的设计鼓励LR图像和Ref图像之间进行联合特征学习,这样可以通过注意发现深层特征对应关系,并且因此可以传递精准的纹理特征。
所提出的纹理Transformer可以以跨尺度的方式进行进一步堆叠,这可以让不同级别(1x倍数到4x倍数放大率)恢复纹理。
大量实验表明TTSR比起最新的方法在定量和定性评估方面都有了显著改进。

1.简介

附录

SISR(Single Image super-resolution):流程如下:

  1. 首先找到一组原始图像Image1;

  2. 然后将这组图片降低分辨率为一组图像Image2;

  3. 通过各种神经网络结构,将Image2超分辨率重建为Image3(Image3和Image1分辨率一样)

  4. 通过PSNR等方法比较Image1与Image3,验证超分辨率重建的效果,根据效果调节神经网络中的节点模型和参数

  5. 反复执行,直到第四步比较的结果满意

神经网络:神经网络是机器学习中的一种模型,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络概述

RefSR(Reference-based image super-resolution)
深度学习:深度学习概述

简介

图像超分辨率的目的在于从退化的低分辨率图像中恢复高分辨率图像中的自然和逼真的纹理。因此,图像超分辨率SR的成功可以极大地提高媒体内容的质量,以获得更好的用户体验。图像超分辨率在智能手机数码变焦、超清电视机、医学图像、卫星图像中应用都十分广泛。

图像SR的研究通常以两种形式进行,包括单图像超分辨率(SISR)和基于参考的图像超分辨率(RefSR)。中,基于深度学习的SISR方法将这个问题视为密集的图像回归任务,该任务学习了在LR和HR图像之间的图像映射功能。代表的方法有:SRCNN 、VDSR、DRCN等。

但是,传统的SISR通常会导致效果模糊,因为高分辨率(HR)纹理在退化过程中被过度破坏,无法恢复。尽管提出了基于生成对抗网络(GAN)的图像SR方法来缓解上述问题,但由GAN引起的幻觉和伪像进一步给图像SR任务带来了巨大挑战。最近,基于参考的图像超分辨率(RefSR)取得了不错的进展,该方法从给定的参考Ref图像传输高分辨率(HR)纹理以产生视觉上令人愉悦的结果。但是,SOTA方法(现在最好的方法)通常采用一种直接的方法来传输纹理,这可能会导致不满意的SR图像(如图1所示)。
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第1张图片
图1.提出的TTSR和最新的RefSR方法之间的4×倍放大SR结果比较。TTSR学习从Ref图像(以绿色表示)中搜索相关纹理以寻找目标LR区域(以黄色表示),从而避免错误的纹理转移(以红色表示)。

例如,郑等人采用的基于流程的方法通常用于搜索和转移不准确的纹理(红色)当面对LR 和参考图像之间较大误差。 张等人采用一个预先训练的分类模型定义的特征空间在 LR 和 Ref 图像之间搜索和传递纹理。 然而, 这些高层次的语义特征不能有效地表示高分辨率图像纹理, 从而产生难以置信的结果。

为了解决这些问题,本文提出了一种新颖的用于图像超分辨率的纹理转换器网络(TTSR),特别是针对图像生成任务优化了四个紧密相关的模块。首先,提出了可学习的纹理提取器,其中的参数将在端到端训练过程中进行更新。这样的设计实现了低分辨率图像LR和参考Ref图像的联合特征嵌入,从而为在SR任务中应用注意机制奠定了坚实的基础。其次,提出一个相关嵌入模块来计算低分辨率图像LR和参考Ref图像之间的相关性。更具体地说,将从LR和Ref图像中提取的特征公式化为转换器中的查询和关键字,以获得硬注意力图和软注意力图。最后,提出了一个硬注意力模块和一个软注意力模块,以将高分辨率图HR特征从参考Ref图像转移并融合到通过注意力图从主干提取的LR特征中。因此,TTSR的设计了一种更精确的方法来搜索和从Ref图像转换为LR图像的相关纹理。此外,提出了一个跨尺度特征集成模块来堆叠纹理transformers,其中跨不同尺度(例如从1x到4x)学习特征以实现更强大的特征表示。如上面图1所示,总体设计使TTSR能够从Ref图像(以绿色表示)中搜索并传输相关纹理,与SOTA方法相比,可以获得更好的视觉效果。

本文的主要贡献如下:

  1. 我们是最早将transformer引入图像生成任务的团队之一。更具体的说,我们为了超分辨率的图像提出了一个包含了四个紧密相连的模块的纹理转换器,它比现在所有方法都要好。
  2. 我们提出了一种新颖的跨尺度特征集成模块用于图像生成任务,它使得我们的方法可以通过叠加多个纹理转换器来学习更多强大的特征进行表示。

2.相关工作

附录

上采样方法(upsampled):超分辨率必备方法
CNN:卷积神经网络
SRCNN:SRCNN论文译文
插值算法,图像插值(image interpolation):插值缩放的原理是基于目标分辨率中的点,将其按照缩放关系对应到源图像中,寻找源图像中的点(不一定是整像素点),然后通过源图像中的相关点插值得到目标点。图像插值的实现
去卷积(deconvolution):反卷积是一种计算密集型图像处理技术,通过该技术,可以提高显微图像的对比度和清晰度。物镜数值孔径受限的情况下,这项技术主要是依靠一系列去模糊处理技术来提高图像的质量。

残差(residual):残差连接的思想起源于中心化,在神经网络系统中,对输入数据等进行中心化转换,即将数据减去均值,被广泛验证有利于加快系统的学习速度。

棋盘效应(the checkerboard artifact): 当我们仔细观察由神经网络生成的图像时,我们经常会看到一种奇怪的棋盘图案。在某些情况下,它比其他情况更明显,但最近的大部分模型都表现出这种行为。类似于马赛克。

残差块(residual block):ResNet结构以及残差块详细分析

密集块(dense block):它是一种具有紧密连接性质的卷积神经网络,该神经网络中的任何两层都有直接连接,即网络中每一层的输入都是前面所有层输出的并集,而这一层学习到的特征也会被直接传递到后面的所有层作为输入。这种紧密连接仅仅存在于同一个Dense Block中,不同的Dense Block是没有这种紧密连接的。dense block

Channel attention:(定义在卷积网络上的attention,CNN每一层都会输出一个C x H x W的特征图,C就是通道,代表卷积核的数量,亦为特征的数量)channel attention就是对每个C,在channel维度上,学习到不同的权重,平面维度上权重相同。

卷积网络上的attention分两种,一种是spatial attention, 另外一种是channel attention
CNN每一层都会输出一个C x H x W的特征图,C就是通道,代表卷积核的数量,亦为特征的数量,H 和W就是原始图片经过压缩后的图,spatial attention就是对于所有的通道,在二维平面上,对H x W尺寸的图学习到一个权重,对每个像素都会学习到一个权重。你可以想象成一个像素是C维的一个向量,深度是C,在C个维度上,权重都是一样的,但是在平面上,权重不一样。

spatial 和 channel attention可以理解为关注图片的不同区域和关注图片的不同特征。
对上述有兴趣的可以读一下SCA-CNN这篇cvpr2017的论文

非局部循环(递归)网络(non-local recurrent network):Non-Local Recurrent Network for Image Restoration 论文笔记

discriminative feature representation
二阶统计量:数学期望是一阶统计量,方差是二阶的。
“方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。”

感知损失(perceptual loss):感知损失概述

对抗生成网络(generative adversarial network):对抗生成网络概述

Gram矩阵

**rank-content loss **:新的损失函数RankSRGAN论文总结

面部特征关键点Landmark面部特征关键点Landmark概述

CrossNet:CrossNet概述

光流法(optical flow):光流法简介

相关工作

在本节中,我们会回顾与我们工作最相关的单幅图像超分辨率SISR和基于参考的图像超分辨率(RefSR)

SISR

近年来,基于深度学习的SISR方法相对于传统的非学习方法取得了显著进步,SISR中基于深度学习的方法将此问题(恢复LR的真实纹理)视为一种密集图像回归任务,该任务学习了LR和HR图像之间以CNN为代表的一种端到端图像映射函数。

DONG等人提出了SRCNN,首次将深度学习引入SISR中,使用三层CNN来表示映射函数。DONG等人进一步加快了SR的进度通过将插值后的LR替换为原始LR图像,并在最后一层使用去卷积来放大特征映射。
之后,Kim等人提出了带有关于残差学习的更深层网络的VDSR和DRCN。
SHI等人用亚像素卷积层代替了去卷积以减少棋盘效应
在SRResNet中残差块被引入SISR并且残差块在EDSR中受到改进。借助残差块,大量的研究集中于设计更深层或更宽的网络。
ZHANG和TONG等人采用密集块来结合不同层次的特征。ZHANG等人通过增加通道注意(Channel attention)来改善残差块。
LIU等人提出了一种用于图像恢复的
非局部递归网络

DAI等人引入了二阶统计量来实现更多的区别的特征表示(discriminative feature representation)

上述方法采用均方差或平均绝对误差作为其目标函数,忽略了人类的感知。近年来,越来越多的研究致力于提高感知质量。Johnson等人再SR任务中引入了感知损失(perceptual loss),而SRGAN采用了对抗生成网络,在视觉上得到了满意的结果。Sajjadi等人使用基于Gram矩阵的纹理匹配损失来增强局部相似的问题,但是ESRGAN通过引入具有相对对抗性损失的RRDB来增强SRGAN。最近提出的RSRGAN训练了一个ranker,并使用rank-content loss来优化感知质量,从而实现了最先进的视觉效果。

RefSR

与 SISR 不同, RefSR 可以从 Ref 图像中获得更准确的细节。 这可以通过图像对齐或补丁匹配等几种方法来实现。 一些现有的 RefSR 方法选择将 LR 和 Ref 图像对齐。 **Landmark(面部特征关键点)通过全局注册将 Ref 图像与 LR 图像对齐用来解决能力最小化的问题。WANG等人通过在特征合成之前反复的应用不均匀变形增强Ref图像。CrossNet采用光流法(optical flow)**将LR图像和Ref图像在不同尺度上对齐并将其连接到解码器的相应层中。然而,这些方法的性能在很大长度上取决于LR图像和Ref图像之间的对齐质量。此外,光流法等对准方法耗时较长,不利于实际应用。

其他RefSR方法采用“patch match”方法搜索合适的参考消息。Boominathan等人将LR的梯度特征与下采样的Ref图像进行匹配。zheng等人用卷积神经网络中的特征代替简单的梯度特征进行了语义匹配,并且使用一种SISR方法运用于特征合成。SRNTT采用LR图像的VGG特征与Ref图像的VGG特征之间的补丁匹配来交换相似的纹理特征。然而,SRNTT忽略原始和交换特性之间的相关性并且将所有交换特性平等的输入到主网络中。

为了解决这些问题,我们提出了一个纹理转换网络,它可以让我们的方法去搜索和转移相关的纹理从Ref图像到LR图像。此外,我们提出的跨尺度特征集成模块可以通过叠加多个纹理转换器来进一步提高算法的性能

3.方法

附录

bicubic:图像处理bicubic概述
patch match:patch match概述

下采样:下采样概述

VGG
置信度:所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度.也就是概率是对个人信念合理性的量度。概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。

feature map:在CNN的设定里,Feature Map是卷积核卷出来的,你用各种情况下的卷积核去乘以原图,会得到各种各样的feature map。你可以理解为你从多个角度去分析图片。,而不同的特征提取(核)会提取不同的feature,模型想要达成的目的是解一个最优化,来找到能解释现象的最佳的一组卷积核。

BN层:BN层原理及其作用

方法

在这一部分中,我们将介绍我们提出的TTSR。在纹理转换器的基础上,我们提出了跨尺度特征基础模块(CSF)来进一步提高模型的性能。纹理转换器和CSFI将分别在3.1和3.2讨论。一组用于优化所提议网络的损耗函数将在3.3节中解释
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第2张图片
图2.提出的纹理变换器Transformer。Q,K、Vare分别是从上采样的LR图像,依次向下/上采样的Ref图像和原始Ref图像中提取的纹理特征。修正从DNN主干提取的LR特征,并进一步与传递的纹理特征T融合以生成SR输出。

3.1纹理转换器(Texture Transformer)

纹理转换器的结构如图2所示。LR,LR↑和Ref分别代表输入图像,4倍bicubic-upsampled 的输入图像和参考图像。我们依次对Ref应用具有相同4倍因子的bicubic下采样和上采样,以获得与LR↑domain-consistent(领域一致)的Ref↓↑。纹理转换器将Ref,Ref↓↑,LR↑和主干产生的LR特征作为输入,并输出同样大小的特征图,该特征图将进一步用于生成HR预测。

纹理转换器包含四个部分:可学习的纹理提取器(LTE),相关性嵌入模块(RE),用于功能转移的硬注意模块(HA)和用于特征合成的软注意模块(SA)。

可学习的纹理提取器(Learnable Texture Extractor)

在RefSR任务中,参考图像的纹理提取至关重要,因为准确而正确的纹理信息将有助于生成SR图像。本文没有使用像VGG 这样的预训练分类模型所提取的语义特征,而是设计了一种可学习的纹理提取器,其参数将在端到端训练过程中进行更新。这种设计能够在LR和Ref图像上进行联合特征学习,从而可以捕获更准确的纹理特征。纹理提取的过程可以表示为:
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第3张图片
其中,LTE(·)表示可学习的纹理提取器的输出。提取的纹理特征Q(query),K(key)和V(value)表示转换器内部注意力机制的三个基本元素,并将在相关性嵌入模块中进一步使用。

相关性嵌入模块(Relevance Embedding)

相关性嵌入旨在通过估计Q和K之间的相似性来嵌入LR和Ref图像之间的相关性。把Q和K 展开为特征块(patch补丁),表示为qi和kj,以内积的方式计算 Q 和 K 中的特征块两两之间的相关性。内积越大的地方代表两个特征块之间的相关性越强,可迁移的高频纹理信息越多,反之则相反。
通过归一化内积计算这两个patch之间的相关性ri,j:
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第4张图片
相关性还将用于获得硬注意力图和软注意力图。

硬注意力(Hard-Attention)

我们提出了硬注意力模块用来从Ref图像传递HR纹理特征V。传统注意力机制对每个查询qi转移V。但是,这样的操作可能会导致模糊效果,而这种效果缺乏传递HR纹理特征的能力。因此,在本文的硬注意力模块中仅从对每个查询qi中最相关的位置转移纹理特征V。
更具体的说,我们首先计算一个hard-attention map H,其中第i个元素h是从相关性rij计算出来的。
在这里插入图片描述

hi的值可以看作是一个硬指标,它将Ref图像中最相关的位置表示为LR图像中的第i个位置。为了从Ref图像中获取转移的HR纹理特征T,T 的每个位置包含了参考图像中最相似的位置的高频纹理特征,我们使用硬注意力map作为索引对未展开的patch块应用**索引选择(indexselection operation)**操作:ti=V hi。

其中ti为T在第i个位置的值,这个值从V的第hi位置选取的。

结果,我们获得了用于LR图像的HR特征表示T,这将更进一步使用于我们的软注意力模块。

软注意力(Soft-Attention)

我们提出了软注意力模块用于将从DNN主干网络backbone中传输的HR纹理特征TLR特征F进行融合并生成融合特征。在合成过程中,应增强相关的纹理转移,而应恢复较不相关的纹理转移。为了实现这一点,从ri,j计算出的软注意力图S是表示T中每个位置的已转移纹理特征的置信度。
在这里插入图片描述
其中Si表示软注意力图的第i个位置。我们不直接将注意图S应用到T上,而是首先将HR纹理特征T与LR功能F融合在一起,以利用LR图像中的更多信息。将这些融合的特征进一步与软注意图逐元素相乘,然后再添加到F中得到纹理转换器的最终输出。该操作可以表示为:

在这里插入图片描述
其中Fout表示为综合输出特征。Conu和Concat分别表示卷积层和连接操作。运算符⭕表示为feature map之间的元素乘法。

综上所述,该纹理转换器可以有效地将相关的HR纹理特征从Ref图像转化为LR特征,从而促进了更精确的纹理生成。

3.2跨尺度特征整合(Cross-Scale Feature Integration)

我们的纹理转换器可以使用跨尺度特征集成模块以跨尺度的方式进一步堆叠。该架构如图3所示。
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第5张图片
图3.跨尺度特征集成模块(CSFI)以跨尺度方式堆叠多个纹理转换器的体系结构。RB表示一组残余块。

堆叠的纹理转换器输出三个分辨率级别(1×,2×和4×)的合成特征,以便可以将不同尺度的纹理特征融合到LR图像中。而跨尺度特征集成模块(CSFI),以在不同尺度的特征之间交换信息。每次将LR功能上采样到下一个比例时,都会应用CSFI模块。CSFI模块通过上/下采样来接收来自其他级别的交换特征,随后是通道尺寸中的级联操作。然后,卷积层会将要素映射到原始数量的通道中。

在这样的设计中,从堆叠的纹理转换器传递来的纹理特征可以跨每个比例进行交换,从而获得更强大的特征表示。

3.3损失函数(Loss Function)

在我们的方法中有3个损失函数。总损失可以解释为:
在这里插入图片描述

重建损失(Reconstruction loss)

第一个损失是重建损失:
在这里插入图片描述
其中(C,H,W)是高分辨率图HR的大小。我们使用了L1loss,与L2loss相比,L1loss被证明在性能上更加清晰,并且更易于收敛。

对抗损失(Adversarial loss)

生成对抗网络被证明可以有效生成清晰且视觉上令人满意的图像。在这里采用WGAN-GP ,该算法提出了梯度范数的二次化处理来代替权重削减,从而得到更稳定的训练和更好的性能。这种损失可以解释为:
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第6张图片

感知损失(Perceptual loss)

感知损失的关键思想是**增强预测图像和目标图像之间特征空间的相似性。**在这里,这里的感知损失包含两个部分:
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第7张图片
其中第一部分是传统的感知损失,其中φvggi(·)表示第i层的VGG19特征图,而(Ci,Hi,Wi)表示该层的特征图的形状。ISR是预测的SR图像。我们的感知损失的第二部分是传递感知损失,其中φltej(·)表示从LTE的第j层提取的纹理特征图,而(Cj,Hj,Wj)表示该层的形状。这种传递感知损失将预测的SR图像约束为具有与传递的纹理特征T相似的纹理特征,这使更有效地传递Ref纹理。

3.4实现细节

可学习的纹理提取器包含5个卷积层和2个合并层,它们以三种不同的比例输出纹理特征。为了减少时间和GPU内存的消耗,相关性嵌入仅应用于最小scale,并进一步传播到其他scale。对于判别器discriminator,采用SRNTT 中使用的相同网络,并删除所有BN层。

在训练过程中,通过水平和垂直随机翻转,然后随机旋转90°,180°和270°来增强训练图像。每个mini-batch包含9个大小为40×40的LR patch以及9个大小为160×160的HR和Ref patch。

///此处不知道如何翻译,建议查看原文第五页右上角

4.实验

附录

CUFED5
自相似性:比如,从前有座山,山上有座庙,庙里有个老和尚……这就是自相似。

Ablation study:目的其实就是为了控制变量。
比如说你为了提升baseline的性能,给它加了两个模块A,B,加完之后效果果然提高了很多。于是你急急忙忙开始写论文,写到你的贡献,你给了两条:1.模块A,2.模块B。
但是这样写有个问题:尽管AB同时加上去对模型有提升效果,但是你并没有证明A、B两个模块分别都是有意义的。所以为了验证A、B两个模块是不是真的都有用,你需要做ablation study。
方法也很简单:在baseline的基础上加上模块A,看效果。在baseline的基础上加上模块B,看效果。在baseline的基础上同时加上模块AB,看效果。
然后结果可能是,实验1和实验2的结果都不如实验3,那么说明AB都是有用的;然而也有可能你会发现实验1的结果和实验3一样,甚至更好。这就说明你的想法是有问题的,模块B其实并没有起到作用,提升只来自于模块A。
综上所述,ablation study就是你在同时提出多个思路提升某个模型的时候,为了验证这几个思路分别都是有效的,做的控制变量实验的工作。
基准模型(baseline module):baseline一词应该指的是对照组,基准线,就是你这个实验有提升,那么你的提升是对比于什么的提升,被对比的就是baseline。
比如你要研究一个新的模型,你是在前人的模型基础上新增加了一些组件,别人也基本都是在这个模型上进行修改,那这个模型就叫做baseline model——基准模型。听名字就能听出来,就是你自己模型的一个基准,一个基本的框架,模型再复杂,最根本的框架是差不多的。

实验

4.1数据和指标

为了评估我们的方法,我们在最近提出的RefSR数据集CUFED5上训练和测试我们的模型。CUFED5中的训练集包含11871对,每队包含一个输入图像和一个参考图像。CUFED5测试集中有126幅测试图像,每幅图像都有4幅相似度不同的参考图像。为了评估在CUFED5上训的TTSR的泛化性能,我们还在Sun80,Urban100和Manga109上测试了TTSR。

Sun80包含80张自然图片,每一张都配以几张参考图片。对于Urban100,我们使用与相同的设置,将其LR图像作为参考图像。这样的设计使得一个明确的自相似性搜索和传递过程成为可能,因为Urban100都是具有很强自相似性的建筑形象。

对于同样缺少参考图像的Manga109,我们随机抽取本数据集中的HR图像作为参考图像。因为这个数据集是用线条、曲线和平坦的彩色区域构建的,这些都是常见的模式。即使是随机选取的HRRef图像,我们的方法仍然可以利用这些常见的模式,并取得良好的结果。

这些SR结果在YCbCrr空间的Y通道里的PSNR和SSIM进行了评估。

4.2 评价

为了评估TTSR的有效性,我们将我们的模型与其他最先进的SISR和RefSR方法进行比较。SISR方法包括SRCNN、MDSR、RDN、RCAN、SRGAN、ENet、ES-RGAN、RSRGAN,其中RCAN在PSNR和SSIM上都取得了近年来最先进的性能。

RSRGAN被认为达到了最先进的视觉质量。在RefSR方法方面,CrossNet[43]和SRNTT是近年来最先进的两种方法,明显优于以往的RefSR方法。所有实验都是在LR和HR图像之间的比例因子为4x倍率下进行的。

定量评价

为了公平比较,我们遵循SRNTT中的设置来在CUFED5的训练集上训练所有的方法,并且在Sun80,Urban100和Manga109上
进行测试。对于SR方法,有一个事实,与对抗损失训练通常获得更好的视觉质量,但减少了PSNR和SSIM的数量。因此,我们训练了我们的另一个版本的模型,该模型仅针对重建损失进行优化,命名为TTSR-rec,以便在PSNR和SSIM上进行公平比较。
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第8张图片
表1.不同SR方法在4个不同数据集上的PSNR/SSIM比较。方法分为SISR法(上)和RefSR法(下),红色数字为最高分数,蓝色数字为第二高分数。

表1显示了定量评估结果。红色数字表示最高分,蓝色数字表示第二高分。如比较结果所示,TTSR在所有四个测试数据集上均明显优于最新的SISR方法和最新的RefSR方法。在以对抗损失的前提下获得更好视觉质量的方法中,我们的模型在Sun80和Manga109数据集上仍然具有最佳性能,在其他两个数据集CUFED5和Urban100上,TTSR模型可以达到与最新模型相当的性能。定量比较结果表明,我们提出的TTSR方法优于最先进的SR方法。

定性评估

我们的模型在视觉质量上也达到了最佳性能,如图5所示。TTSR可以从参考图像中传输更准确的HR纹理,从而产生良好的结果,如图5中的前三个示例所示。即使参考图像与输入图像不是全局相关的,我们的TTSR仍然可以从局部区域提取更精细的纹理,并将有效的纹理转换到预测的SR结果中,如图5中的最后三个例子所示。

为了进一步验证我们方法的高视觉质量,我们进行了一项用户研究,将TTSR与四种SOTA方法进行比较,包括RCAN、RSR-GAN、CrossNet和SRNTT。在这项用户研究中有10名受试者,在CUFED5测试集中收集了2520张选票。对于每次比较过程中,我们向用户提供两个图像,其中包括一个TTSR图像。用户被要求选择视觉质量更高的。

图4显示了我们的用户调研,其中y轴上的值表示喜欢TTSR而不喜欢其他方法的用户的百分比。正如我们所看到的,我们提出的TTSR明显优于其他方法,超过90%的用户投票给我们,这证明了TTSF良好的视觉质量
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第9张图片

4.3 Ablation Study

在本节中,我们验证了我们方法中不同模块的有效性,包括纹理变换、跨尺度特征整合、对抗损失和转移感知损失。我们的纹理变压器主要包括四个部分:可学习纹理提取器(LTEY)的关联嵌入模块,特征转移的硬注意模块(HA)和特征合成的软注意模块(SA)。
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第10张图片

Ablation result结果见表2。
我们重新实现SRNTT作为我们的“基础”模型,只删除所有BN层和Ref部分。在**基准模型(baseline module)**的基础上,我们逐步添加HA、SA和不包含LTE的LTE模型,使用VGG19特征进行相关嵌入。可以看出,添加HA后,PSNR性能从26.34提高到26.59,验证了hard-attention模块进行特征转移的有效性。加入SA后,在特征融合过程中相关的特征性特征得到增强,而不相关的特征得到缓解。这将进一步增强其性能至26.81。当用提出的LTE替代VGG时,PSNR最终提高到26.92,证明了联合特征嵌入LTE的优越性。

为了进一步验证我们的LTE的有效性,我们使用了Hard-attention map来传输原始图像。期望一个更好的特征表示能从原始图像中传递出更准确的纹理。图6为SRNTT中VGC19和TTSR中LTE传输的原始图像
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第11张图片

从图中可以看出 TTSR 能够传输更准确的参考纹理, 并产生全局较好的结果, 进一步证明了我们 LTE 的有效性。

跨尺度特征集成

纹理转换器的基础上, CSFI 还可以从不同的分辨率范围(1 倍、 2 倍和 4 倍)进一步恢复纹理。 我们进行了Ablation study, 见表 3。 第一行是我们的模型仅 TT 的性能, 第二行证明了 CSFI 的有效性,这增长了0.17的PSNR指标。

为了验证性能提升不是由增加参数大小带来的, 我们将“Base+TT” 模式的通道数分别增加到 80 和 96。 我们可以看到, “Base+TT(C80)” 几乎没有增长, 它的参数数与“Base+TT+CSFI” 几乎相同。 即使我们将参数数增加到 9.10M, 获得“Base+TT(C96)” 型号, 仍然存在性能差距。 这表明 CSFI 可以有效地利用参考纹理信息和相对较小的参数大小的对抗损失。
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第12张图片
确保感知质量的提高得益于模型设计, 而不是对抗性的损失。 我们对“Base- rec” 、 “Base” 、 TTSR-rec 和 TTSR 进行了Ablation,其中 TTSR 可以解释为“Base+T+CSEI” , “-rec” 表示只进行重建损失的训练。 图 7 显示, 即使没有感知和对抗损失, TTSR-rec 仍然可以利用 Ref 图像并恢复比“Baserec” 更多的细节。 在所有的损失都启动的情况下, TTSR获得了最好的视觉效果。

转移的感知损失

传输感知损失约束了预测的 SR 图像和传输图像之间 LTE 特征的相似性。 如图 8 所示, 使用这种损失能够以一种更有效的方式转移纹理, 达到视觉上令人愉快的结果。 此外, 这一损失也使 TTSR 的定量指标PSNR 和 SSIM 从 25.20/.757 提高至 25.53 / .765。
Learning Texture Transformer Network for Image Super-Resolution(全译文+大量名词链接)读论文记录①_第13张图片

不同参照相似性的影响

为了研究 LR 和 Ref 图像之间的相关性对TTSR 结果的影响, 我们在 CUFED5 测试集上进行了实验, 该测试集具有不同的相关性水平的参考图像。表 4 显示了五个相关水平的结果, 其中“L1” 到“L4” 代表 CUFEDS 测试集提供的参考图像, 其中 L1 为最相关水平, L4 为最不相关水平。 “LR” 指使用输入图像本身作为参考图像。 如表 4 所示, 以 LI 为参考图像的 TTSR 性能最好。 当使用 LR 作为参考图像时, TTSR仍然比以前最先进的 RefSR 方法表现更好。

5.结论

在本文中, 我们提出了一种新的图像超分辨率纹理变换网络(TTSR), 该网络将 HR 纹理从 Ref 图像传输到 LR 图像。
我们提出的纹理转换器由一个可学习的纹理提取器(此提取器学习了一个共同的特征嵌入用于进一步的注意计算)和两个基于注意力的模块(此模块用于从参考图像中传输HR纹理)

此外, 提出的纹理转换器可以与提出的 CSFI 模块以跨尺度的方式堆叠, 以学习更强大的特征表示。 大量的实验表明, 我们的 TTSR 在定量和定性评估方面优于最先进的方法。 在未来, 我们将进一步扩展所提出的纹理转换器到一般的图像生成任务。

你可能感兴趣的:(论文阅读,算法,神经网络,网络,计算机视觉,python)