摘要:
尽管使用更快更深的卷积神经网络在单图像超分辨率的准确性和速度方面取得了突破,但一个核心问题仍然很大程度上未解决:当我们在大的升级因子上超分辨时,我们如何恢复更精细的纹理细节?基于优化的超分辨率方法的行为主要由目标函数的选择驱动。近期工作主要集中在最小化均方重建误差。由此产生的估计具有高峰值信噪比,但它们通常缺乏高频细节,并且在感知上它们不能满足在较高分辨率下预期的保真度的感觉上不满意。在本文中,我们提出了SRGAN,一种用于图像超分辨率(SR)的生成对抗网络(GAN)。据我们所知,它是第一个能够推断4倍放大因子的照片般逼真的自然图像的框架。为实现这一目标,我们提出了一种感知损失函数,它包括对抗性损失和内容丢失。对抗性损失使用鉴别器网络将我们的解决方案推向自然图像流形,该网络经过训练以区分超分辨率图像和原始照片真实图像。另外,我们使用由感知相似性驱动的内容丢失而不是像素空间中的相似性。我们的深度残留网络能够在公共基准测试中从严重下采样的图像中恢复照片般逼真的纹理。广泛的平均意见得分(MOS)测试显示使用SRGAN在感知质量方面获得了巨大的显着提升。使用SRGAN获得的MOS分数比使用任何现有技术方法获得的MOS分数更接近于原始高分辨率图像的MOS分数。
1.引言
从其低分辨率(LR)对应物估计高分辨率(HR)图像的极具挑战性的任务被称为超分辨率(SR)。 SR受到计算机视觉研究界的极大关注,具有广泛的应用[63,71,43]
对于高升尺度因子,欠定SR问题的不适定性质尤其明显,对于该放大因子,重建SR图像中的纹理细节通常不存在。 监督SR算法的优化目标通常是恢复的HR图像与地面实况之间的均方误差(MSE)的最小化。 这很方便,因为最小化MSE还可以最大化峰值信噪比(PSNR),这是用于评估和比较SR算法的常用度量[61]。 然而,MSE(和PSNR)捕获感知相关差异(例如高纹理细节)的能力非常有限,因为它们是基于像素方式的图像差异来定义的[60,58,26]。 这在图2中示出,其中最高PSNR不一定反映感知上更好的SR结果。 超分辨率和原始图像之间的感知差异意味着恢复的图像不是Ferwerda [16]定义的照片级真实感。
在这项工作中,我们提出了一个超分辨率的生成对抗网络(SRGAN),我们采用深度剩余网络(ResNet)与跳过连接,并将MSE作为唯一的优化目标。 与以前的工作不同,我们使用VGG网络的高级特征图[49,33,5]与识别器相结合来定义新的感知损失,该识别器鼓励在感知上难以与HR参考图像区分的解决方案。 图1显示了使用4倍放大系数进行超分辨的照片般逼真图像示例。
1.1相关工作
1.1.1 图像超分辨率
最近关于图像SR的概述文章包括Nasrollahi和Moeslund [43]或Yang等。[61]。 在这里,我们将重点关注单图像超分辨率(SISR),并且不会进一步讨论从多个图像中恢复HR图像的方法[4,15]。
基于预测的方法是解决SISR的首批方法之一。 虽然这些过滤方法,例如, 线性,双三次或Lanczos [14]滤波,可以非常快,它们过分简化了SISR问题,并且通常产生具有过于平滑纹理的解决方案。 已经提出了特别关注边缘保存的方法[1,39]。
更强大的方法旨在建立低分辨率和高分辨率图像信息之间的复杂映射,并且通常依赖于训练数据。 许多基于示例对的方法依赖于LR训练补丁,对应的HR对应物是已知的。 Freeman等人提出了早期工作。 [18,17]。 SR问题的相关方法起源于压缩感知[62,12,69]。 在Glasner等人。 [21]作者利用图像中的尺度上的补丁冗余来驱动SR。这种自相似的范例也用于Huang等人。 [31],通过进一步允许小变换和形状变化来扩展自我词典。 顾等人。 [25]提出了一种卷积稀疏编码方法,通过处理整个图像而不是重叠补丁来提高一致性。
为了重建真实的纹理细节,同时避免边缘伪影,Tai等人。 [52]将基于先验[50]的梯度曲线的边缘定向SR算法与基于学习的细节合成的益处相结合。 张等人。 [70]提出了一种多尺度字典来捕获不同尺度的相似图像块的冗余。 为了超级解析地标图像,Yue等人。 [67]检索关联HR具有来自web的类似内容的图像,并提出用于对齐的结构感知匹配标准。
邻域嵌入方法通过在低维流形中找到类似的LR训练补片并将它们相应的HR补片组合用于重建来上采样LR图像补片[54,55]。 在Kim和Kwon [35]中,作者强调了邻域方法过度拟合的趋势,并使用核岭回归来制定更一般的示例对映射。 回归问题也可以通过高斯过程回归[27],树[46]或随机森林[47]来解决。 在戴等人。 [6]学习了大量特定于补丁的回归量,并在测试过程中选择了最合适的回归量。
最近基于卷积神经网络(CNN)的SR算法已经表现出优异的性能。在Wang等人。 [59]作者基于学习的迭代收缩和阈值算法(LISTA)在其前馈网络架构中编码稀疏表示[23]。董等人。 [9,10]使用双三次插值升级输入图像并对端到端的三层深度完全卷积网络进行训练,以实现最先进的SR性能。随后,证明了使网络能够直接学习升频滤波器可以进一步提高精度和速度方面的性能[11,48,57]。凭借其深度递归卷积网络(DRCN),Kim等人。 [34]提出了一种高性能的架构,允许远程像素依赖,同时保持较小的模型参数数量。与我们的论文特别相关的是Johnson等人的着作。 [33]和布鲁纳等人。 [5],谁依靠更接近感知相似性的损失函数来恢复视觉上更有说服力的HR图像。
1.1.2卷积神经网络设计
在Krizhevsky等人的工作成功之后,许多计算机视觉问题的现有技术同时由专门设计的CNN架构设定。[37]。
结果表明,更深层次的网络架构可能很难训练,但有可能大幅提高网络的准确性,因为它们允许建模高度复杂的映射[49,51]。为了有效地训练这些更深层次的网络架构,在标准化时[32]通常用于抵消内部的协变量变化。更深的网络架构也被证明可以提高SISR的性能,例如: Kim等人。 [34]制定一个递归CNN并提出最后的结果。另一个简化深度CNN训练的强大设计选择是最近引入的残余块[29]和跳过连接[30,34]的概念。跳过连接减轻了对身份映射进行建模的网络体系结构,这种体系结构本质上是微不足道的,然而,用卷积内核表示可能是非常重要的。在SISR的背景下,还表明学习升级滤波器在准确性和速度方面是有益的[11,48,57]。这是对Dong等人的改进。 [10]其中采用双三次插值来在将图像馈送到CNN之前放大LR观察。
1.1.3损失函数
像MSE这样的像素损失函数难以处理恢复丢失的高频细节(如纹理)所固有的不确定性:最小化MSE鼓励找到合理解决方案的像素平均值,这些解决方案通常过于平滑,因此感知质量较差[42 ,33,13,5]。 图2中的相应PSNR示例了不同感知质量的重建。我们说明了图3中最小化MSE的问题,其中具有高纹理细节的多个潜在解决方案被平均以创建平滑重建。
在Mathieu等人。 [42]和Denton等人。 [7]作者通过采用生成对抗网络(GAN)[22]来应对图像生成来解决这个问题。 Yu和Porikli [66]通过鉴别器丢失来增加像素方式的MSE损失,以训练网络,该网络使用大的放大因子(8×)来超分辨人脸图像。 GAN还用于Radford等人的无监督表示学习。[44]。 Li和Wand [38]描述了使用GAN来学习从一个流形到另一个流形的映射的想法,以及Yeh等人。 [64]用于修复。 布鲁纳等人。 [5]最小化VGG19 [49]和散射网络的特征空间中的平方误差。
Dosovitskiy和Brox [13]使用基于在神经网络的特征空间中计算的欧几里德距离的损失函数以及对抗训练。 结果表明,所提出的损失允许在视觉上优异的图像生成,并且可以用于解决解码非线性特征表示的不适定的逆问题。 与此相似,约翰逊等人。 [33]和布鲁纳等人。 [5]提出使用从预训练的VGG网络中提取的特征而不是低级像素方式的误差测量。 具体而言,作者根据从VGG19 [49]网络中提取的特征图之间的欧氏距离来制定损失函数。 对于超分辨率和艺术风格转移,感知上获得了更令人信服的结果[19,20]。 最近,Li和Wand [38]也研究了在像素或VGG特征空间中比较和混合贴片的效果。
1.2贡献
GAN提供了一个强大的框架,用于生成具有高感知质量的看似合理的自然图像。 GAN程序鼓励重建移动到搜索空间的区域,很可能包含照片般逼真的图像,因此更接近自然图像流形,如图3所示。
在本文中,我们描述了第一个非常深的ResNet [29,30]架构,它使用GAN的概念来形成照片般逼真的SISR的感知损失函数。 我们的主要贡献是:
1.我们通过PSNR和结构相似性(SSIM)以及针对MSE优化的16块deepResNet(SRResNet)测量的具有高升尺度因子(4×)的图像SR设置了新的技术水平。
2.我们提出SRGAN,这是一个基于GAN的网络,针对新的感知损失进行了优化。 在这里,我们用基于VGG网络[49]的特征图计算的损耗替换基于MSE的内容丢失,这对于像素空间的变化更加不变[38]。
3. 我们对来自三个公共基准数据集的图像进行了广泛的平均意见评分(MOS)测试,确认SRGAN是一种新的技术水平,用于估算具有高放大系数的照片般逼真的SR图像(4×)。
我们在第2节中描述了网络架构和感知损失。第3节提供了对公共基准数据集的定量评估以及可视化插图。本文最后在第4节中进行了讨论,并在第5节中作了总结性评论。
2.方法
在SISR中,目标是从低分辨率输入图像ILR估计高分辨率,超分辨率图像ISR。 ILR是其高分辨率对应IHR的低分辨率版本。 高分辨率图像仅在训练期间可用。 在训练中,通过对IHR应用高斯滤波器,随后使用下采样因子r的下采样操作来获得ILR。 对于具有C颜色通道的图像,我们通过尺寸为W×H×C和IHR的实值张量描述ILR,ISR分别通过rW×rH×C。
我们的最终目标是训练生成函数G,其估计给定的LR输入图像其对应的HR对应物。 为实现这一目标,我们将生成器网络作为由θG参数化的前馈CNNGθG进行训练。 这里θG= fW1:L; b1:Lg表示L层深网络的权重和偏差,并且通过优化SR特定的损失函数lSR来获得。 对于训练图像InHR,n = 1; ::: ;; N与相应的InLR,n = 1; ::: ;; N,我们解决:
在这项工作中,我们将具体设计感知损失lSR作为几个损失分量的加权组合,其模拟恢复的SR图像的不同期望特征。 各个损失函数在2.2节中有更详细的描述。
2.1对抗网络结构
遵循Goodfellow等人。 [22]我们进一步定义了一个鉴别器网络DθD,我们以交替的方式与GθG一起优化,以解决对抗性最小 - 最大问题:
该公式背后的一般思想是,它允许人们训练生成模型G,其目的是欺骗可区分的鉴别器D,该鉴别器被训练以区分超分辨图像和真实图像。 通过这种方法,我们的生成器可以学习创建与真实图像高度相似的解决方案,因此难以通过D.进行分类。这可以鼓励居住在子空间(自然图像的流形)中的感知上优越的解决方案。 这是在与通过最小化像素方式误差测量(例如MSE)获得的SR解决方案形成对比。
在我们非常深的生成器网络G的核心,图4中示出了具有相同布局的B个残余块。 灵感来自约翰逊等人。 [33]我们采用Gross和Wilber提出的块布局[24]。 具体来说,我们使用两个卷积层,小的3×3内核和64个特征映射,然后是批量标准化层[32]和ParametricReLU [28]作为激活函数。 我们用Shi等人提出的两个经训练的子像素卷积层来增加输入图像的分辨率。[48]。
为了区分真实的HR图像和生成的SR样本,我们训练了一个鉴别器网络。 该架构如图4所示。我们遵循Radford等人总结的架构指南。 [44]并使用LeakyReLU激活(α= 0:2)并避免整个网络中的最大池化。 训练鉴别器网络以解决方程2中的最大化问题。它包含8个渐进层,其中3×3滤波器内核数量增加,从VGG网络中的64到512个内核增加2倍[49]。 每次特征数量加倍时,使用条纹卷积来降低图像分辨率。 得到的512个特征图之后是两个密集层和最终的S形激活函数,以获得样本分类的概率。
2.2 感知损失函数
我们的感知损失函数lSR的定义对我们的生成器网络的性能至关重要。 虽然lSR通常基于MSE建模[10,48],但我们对Johnson等人进行了改进。 [33]和布鲁纳等人。 [5]并设计一个损失函数,评估关于感知相关特征的解决方案。 我们将感知损失表示为内容损失(lXSR)和对抗性损失成分的加权和:
在下文中,我们描述了内容丢失lSRX和对抗性损失lGen SR的可能选择。
2.2.1内容损失
像素方式的MSE损失计算为:
这是图像SR最广泛使用的优化目标,许多最先进的方法依赖于此[10,48]。 然而,在实现特别高的PSNR的同时,MSE优化问题的解决方案通常缺乏高频内容,这导致具有过度平滑纹理的感知上不满意的解决方案(参见图2)。
我们不再依赖像素损失,而是建立在Gatys等人的思想基础之上。 [19],Bruna等。 [5]和约翰逊等人。 [33]并使用更接近感知相似性的损失函数。 我们根据Simonyan和Zisserman [49]中描述的预训练的19层VGG网络的ReLU激活层来定义VGG损耗。 用φi; j表示在VGG19网络内的第i个最大化层之前通过第j个卷积(激活之后)获得的特征映射,我们考虑给出。 然后,我们将VGG损失定义为重建图像GθG(ILR)的特征表示与参考图像IHR之间的欧氏距离:
这里,Wi; j和Hi; j描述VGG网络内各个特征图的尺寸。
2.2.2 对抗损失
除了到目前为止所描述的内容损失,我们还将我们的GAN的生成组件添加到感知损失中。 这鼓励我们的网络通过尝试使用鉴别器网络来支持驻留在多种自然图像上的解决方案。 生成损失lGen SR是基于所有训练样本上鉴别器DθD(GθG(ILR))的概率定义的:
这里,DθD(GθG(ILR))是重建图像GθG(ILR)是自然HR图像的概率。 为了更好的梯度行为,我们最小化 - 记录DθD(GθG(ILR))而不是log [1 - DθD(GθG(ILR))] [22]。
3.实验
我们在三个广泛使用的基准标记数据集Set5 [3],Set14 [69]和BSD100(BSD300的测试集[41])上进行实验。 所有实验均在低分辨率图像和高分辨率图像之间以4倍的比例因子进行。 这相当于图像像素减少了16脳。 为了公平比较,所有报告的PSNR [dB]和SSIM [58]测量都是在中心裁剪的y通道上计算的,使用daala package1从每个边界去除4像素宽的条带。 参考方法的超分辨图像,包括最近邻,双三次,SRCNN [9]和SelfExSR [31],均来自黄等人[31]的补充在线材料和Kim等人的DRCN [3]。34。 使用SRResNet(损失:lSRMSE和lSRV GG / 2.2)和SRGAN变体获得的结果可在线获得4。 统计测试作为成对的双侧Wilcoxon符号秩检验进行,并且在p <0.05时确定显着性。读者也可能对GitHub5上独立开发的基于GAN的解决方案感兴趣。 然而,它仅在有限的一组面上提供实验结果,这是一个更有限且更容易的任务。
训练细节和参数
我们使用来自ImageNet数据库的35万张图像的随机样本,在NVIDIA Tesla M40 GPU上训练所有网络[45]。这些图像与测试图像不同。我们通过使用下采样HR图像(BGR,C = 3)来获得LR图像具有下采样因子r = 4的双三次核。对于每个小批量,我们裁剪16个不同训练图像的随机96×96HR子图像。请注意,我们可以将生成器模型应用于任意大小的图像,因为它是完全卷积的。我们将LR输入图像的范围缩放到[0,1],并将HR图像缩放到[-1,1]。 MSE损失因此,在强度范围[-1,1]的图像上计算。 VGG特征图也重新调整了112.75倍,以获得与MSE损失相当的VGG损失。这相当于将等式5乘以重新缩放因子≈0.006。为了优化,我们使用Adam [36],其中β1= 0.9。对SRResNet网络进行了培训,学习率为10-4和106更新
迭代。在训练实际GAN时,我们使用经过训练的基于MSE的SRResNet网络作为发生器的初始化,以避免不期望的局部最优。所有SRGAN变体都以105次更新迭代进行训练,学习率为10-4,另外105次迭代以10-5的较低速率进行训练。我们对发生器和鉴别器网络进行了交替更新,相当于Goodfellow等人使用的k = 1。 [22]。我们的生成器网络有16个相同的(B = 16)残余块。在测试期间,我们关闭批量标准化更新以获得确定性地仅取决于输入的输出[32]。我们的实施基于Theano [53]和烤宽面条[8]。
我们已经进行了MOS测试,以量化不同方法重建感知上令人信服的图像的能力。具体来说,我们要求26位评分者为超分辨率图像分配从1(质量差)到5(优质)的积分。评分者在Set5,Set14和BSD100上评定了每个图像的12个版本:最近邻居(NN),双三次,SRCNN [9],SelfExSR [31],DRCN [34],ESPCN [48],SRResNet-MSE,SRResNet-VGG22鈭 枭枭rated ratedBSD100),SRGAN-MSE鈭 SRGAN-VGG22鈭 SRGAN VGG54和原始HR图像。每个评估者因此以随机方式评估1128个实例(19个图像的12个版本加上100个图像的9个版本)。评估者在NN(得分1)和来自BSD300的20个图像的HR(5)版本上校准。训练集。在一项初步研究中,我们通过在较大的测试集中添加两次图像方法,评估了来自BSD100的10个图像的子集上的26个评估者的校准程序和测试 - 再测试可靠性。我们发现良好的可靠性并且相同图像的评级之间没有显着差异。评价者非常一致地将NN内插测试图像评定为1并且将原始HR图像评定为5(参见图5)。
我们研究了不同内容丢失选择对基于GAN的网络的感知损失的影响。具体来说,。
:使用标准MSE作为内容丢失来调查对抗性网络。
:对于φ2,2,在表示较低级别特征的特征映射上定义的损失。
:对于φ5,4,在更深层网络层的更高层特征的特征图上定义了一个损失,更有可能关注图像的内容[68,65,40]。 我们在下面将此网络称为SRGAN。
我们还评估了生成器网络的性能,没有对抗组件的两个损失lSRMSE(SRResNet-MSE)和lSRV GG / 2.2(SRResNet-VGG22)。我们将SRResNet-MSE称为SRResNet。注意,在训练SRResNet-VGG22时,我们增加了额外的总变异损失,重量为2脳10鈭鈭lSRVGG / 2.2 [2,33]。定量结果总结在表1中,视觉示例在图6中提供。甚至与对抗性结合损失,MSE提供具有最高PSNR值的解决方案,然而,在感知上相当平滑且不如使用对视觉感知更敏感的损失成分所获得的结果更具说服力。这是由基于MSE的内容丢失与对抗性损失之间的竞争引起的。我们进一步归因于小重建我们在少数基于SRGAN MSE的重建中观察到的工件与那些相互竞争的目标。对于Set5上的MOS分数,我们无法确定SRResNet或SRGAN的显着最佳损失函数。然而,就MOS而言,SRGAN-VGG54在Set14上显着优于其他SRGAN和SRResNet变体。我们观察到使用更高的趋势与蚃2,2相比,水平VGG特征图蚃5,4产生更好的纹理细节(参见图6)。补充材料中提供了通过SRRAN而不是SRResNet进行感知改进的更多示例。
我们将SRResNet和SRGAN的性能与NN,双三次插值和四种最先进的方法进行了比较。 定量结果总结在表2中,并确认SRResNet(就PSNR / SSIM而言)在三个基准数据集上设置了新的技术水平。请注意,我们使用了一个公开可用的评估框架(参见第3.1节),报告 因此,这些数值可能会略微偏离原始文件中报道的数值。
我们进一步获得了SRGAN的MOS评级和BSD100的所有参考方法。 使用SRResNet和SRGAN超级分辨的图像示例在补充材料中描述。 表2中显示的结果证实SRGAN大大超过所有参考方法,并为照片真实图像SR设定了新的技术水平。 MOS的所有差异(参见表格
2)除了SRCNN vs.SelfExSR之外,在BSD100上具有高度重要性。 所有收集的MOS评级的分布总结在图5中。