本文介绍了三篇图像超分辨率重建在深度学习方面的文献
一、SRCNN
二、SRGAN
三、ESRGAN
在CNN出现之前,传统超分方法是最临近插值、双线性或双三次插值等上采样方法。图像超分技术本质上是一种不适定的(ill-posed)问题,因为任意的低分辨率图像都有无数种生成高分辨率图像的解。本文直接学习低分辨率/高分辨率图像之间的端到端映射。进一步表明,传统的基于稀疏编码的SR方法也可以看作是一个深卷积网络。CNN网络结构轻巧、实现快速在线应用。本文是基于深度学习的单图像超分辨率重建技术的鼻祖。
- 提出了一种用于图像超分辨率的全卷积神经网络。该网络直接学习低分辨率和高分辨率图像之间的端到端映射,除了优化之外,几乎不进行任何前/后处理。
- 在基于深度学习的SR方法和传统的基于稀疏编码的SR方法之间建立了联系。这种关系为网络结构的设计提供了指导。
- 证明了深度学习在超分辨率的经典计算机视觉问题中是有用的,并且可以获得良好的质量和速度。
基于稀疏编码的方法是具有代表性的基于示例的SR方法之一。首先,从输入图像中密集裁剪重叠的patches 并进行预处理。然后,这些patches 由低分辨率字典编码。稀疏系数被传递到高分辨率字典中,用于重建高分辨率patches 。将重叠的重新构建的面片聚合(例如,通过加权平均)以产生最终输出。大多数基于实例的外部方法都共享这个管道,这些方法特别注意学习和优化字典或构建高效的映射函数。然而,管道中的其余步骤很少得到优化,或者在统一的优化框架中得到考虑。
大多数SR算法侧重于灰度或单通道图像超分辨率。对于彩色图像,上述方法首先将问题转换到不同的颜色空间(YCbCr或YUV),并且SR仅应用于亮度通道。还有一些工作试图同时超级解析所有通道。例如,Kim和Kwon以及Dai等人将他们的模型应用于每个RGB通道,并将它们组合起来以产生最终结果。然而,他们都没有分析不同信道的SR性能,以及恢复所有三个信道的必要性。
多层感知器(MLP),用于自然图像去噪和去模糊后去噪。与我们的工作更密切相关的是,卷积神经网络用于自然图像去噪和去除噪声模式。这些恢复问题或多或少是由去噪驱动的。深度模型并不是专门设计为端到端的解决方案,因为级联的每一层都需要对自相似搜索过程和自动编码器进行独立优化。相反,提出的SRCNN优化了端到端映射。此外,SRCNN的速度更快。它不仅在数量上是一种优越的方法,而且是一种实用的方法。
W1和B1代表卷积核和偏置,卷积核大小为c×f1×f1,c为图像通道数
在第一层patch提取层,将每个patch表示为n1维特征向量。在第二层操作中,将这些n1维向量映射为n2维向量。
W2包含大小为n1×f2×f2的n2过滤器,B2是n2维的。每个输出的n2维向量在概念上是用于重建的高分辨率patch的表示。可以添加更多卷积层以增加非线性。
W3对应于大小为n2×f3×f3的c滤波器,B3是c维向量。
使用均方误差(MSE)作为损失函数:
其中n是训练样本的数量。使用MSE作为损失函数有利于获得较高的峰值信噪比。峰值信噪比(PSNR)是一种广泛用于定量评估图像恢复质量的指标,至少与感知质量部分相关。
将只有91张图像的训练集和ImageNet训练分区大数据集进行对比,使用Set5作为验证集。
使用不同训练集的测试收敛曲线如图4所示。
该结构具有简单性和鲁棒性的优点,可以应用于其他低层视觉问题,如图像去模糊或同步SR+去噪。人们还可以调查一个网络,以应对不同的升级因素。
针对单图像输入的图像超分辨率重建(SISR)问题,提出SRGAN和一种新的感知损失函数,解决之前工作的问题,如:双三次插值、SRCNN、SRResNet网络的目标函数主要集中在最小化均方(MSE)重建误差,由此产生的估计值具有较高的峰值信噪比(PSNR),但它们通常缺乏高频细节,在感知上不令人满意。
MSE(和PSNR)捕捉感知相关差异(如高纹理细节)的能力非常有限,因为它们是基于像素级图像差异定义的。有时最高的PSNR不一定反映出感知上更好的SR结果,如下图所示。
三个主要贡献:
- 通过优化MSE的16个deep ResNet (SRResNet)来实现(4×)的图像超分
- 提出SRGAN网络,定义一个新的优化感知损失作为目标函数
- 提出新的评价方法MOS,广泛平均意见评分
我们的论文特别相关的是Johnson等人[33]和Bruna等人[5]的作品,他们依赖于更接近感知相似性的损失函数来恢复视觉上更令人信服的HR图像。
最小化MSE处理像素级平均值,这些解决方案通常过于平滑,因此具有较差的感知质量。
LR为低分辨率图像,HR为高分辨率图像,SR为生成器G 生成的超分图像。LR是HR通过高斯滤波下采样因子r操作得到的。LR的tensor尺寸:W×H×C;SR和HR的tensor尺寸:rW×rH×rC。
生成器G的CNN前向反馈网络参数为:
W为权重,b为偏置,通过优化感知损失函数得到。
定义鉴别器D,和生成器G交替训练优化,解决对抗式最大最小问题。
采用了 SRResNet 的结构,激活函数采用了PReLU,加入了 BN(Batch Normalization)层。
Wij、Hij 描述VGG网络各自特征层的维度。
测试数据集:
Set5、Set14、BSD100和BSD300的测试集,均在宽高4倍因子测试。
训练细节及参数:
使用ImageNet中的35万张图片随机样本,在NVIDIA Tesla M40 GPU上训练所有网络。
使用降采样因子r = 4的双三次核对HR图像(BGR, C = 3)进行降采样,得到LR图像。对于每个batch,随机裁剪16个96 × 96 HR子图像的不同训练图像。
优化器Adam参数β1 = 0.9。
SRResNet训练时,学习率10−4, 106个iterations。
交替训练G和D,相当于GAN中的G训练次数k = 1。
G:16个相同的residual blocks
平均意见评分(MOS)测试
26名评分者对超分辨率图像从1到5评分。评价者在Set5、Set14和BSD100上对每个图像的12个版本进行评价。
评价结果在table 1、table 2和figure 5
对内容损失的调查
对没有对抗网络的生成网络的2种损失函数进行性能评估,分别是和,在table1中可以看到,虽然MSE损失函数得到的PSNR值较高,但是感知上比较平滑,不令人信服。
发现用层级更高的VGG特征层可以产生个号的纹理细节。
最终结果如figure 6 所示。
本文通过MOS测试证实了SRGAN优越的感知性能。标准的定量测量方法,如PSNR和SSIM,无法捕获和准确评估与人类视觉系统相关的图像质量。 存在的问题:本文提出的模型没有针对视频SR进行实时优化。由于高频伪影的出现,更深层次网络的SRGAN变体越来越难以训练。产生更精细细节的方法可能不太适合医疗应用或监测。 在未来:对文本或结构化场景进行感性的令人信服的重建是具有挑战性的,也是未来工作的一部分。内容丢失函数的发展,描述图像空间内容,但更不变的像素空间的变化,将进一步提高真实感图像的SR结果。
如图1所示,SRGAN结果与地面真实(GT)图像之间仍存在明显差距。为解决SRGAN方法的细节产生伪影问题,进一步提高视觉质量,在本研究中,我们重新审视了SRGAN的关键组件,并从三个方面对模型进行了改进。
SR算法通常通过PSNR和SSIM来作为评价指标。然而,这些指标从根本上与人类观察者的主观评价不一致(SRGAN提到)。非参考测量用于感知质量评估,包括Ma的分数[23]和NIQE[24],这两项都用于计算PIRM-SR挑战[3]中的感知指数。在最近的一项研究中,Blau等人[22]发现失真和感知质量相互矛盾。
为了进一步提高SRGAN的恢复图像质量,主要对发生器G的结构进行了两个修改:1)去除所有BN层;2) 将原始基本块替换为建议的剩余密集块中的剩余密集块(RRDB),其结合了多级剩余网络和密集连接,如图4所示。
去除BN层:
去除BN层已被证明可以提高性能并降低计算复杂度。BN层在训练期间使用一批中的均值和方差对特征进行标准化,并在测试期间使用整个训练数据集的估计均值和方差。当训练和测试数据集的统计数据差异很大时,BN层往往会引入令人不快的伪影,并限制泛化能力。我们在经验上观察到,当网络更深,并且在GAN框架下训练时,BN层更有可能带来伪影。因此,我们移除BN层,以获得稳定的训练和一致的表现。此外,去除BN层有助于提高泛化能力,降低计算复杂度和内存使用。
保留了SRGAN的高层架构设计(见图3),并使用了一个新的基本块,即RRDB,如图4所示。根据观察,更多的层和连接总是可以提高性能,提出的RRDB采用了比SRGAN中原始剩余块更深、更复杂的结构。如图4所示,所提议的RRDB具有残差中的残差结构,其中残差学习在不同级别中使用。除了改进的体系结构之外,我们还利用了几种技术来帮助训练一个非常深的网络:1)残余缩放,在将残余乘以0和1之间的常数之前,将其添加到主路径中以防止不稳定;2) 较小的初始化,因为我们经验发现,当初始参数方差变小时,剩余架构更容易训练。
与SRGAN中的标准鉴别器D不同,它估计一个输入图像x是真实和自然的概率,相对鉴别器尝试预测真实图像xr比假图像xf更真实的概率,如图5所示
将相对鉴别器称为RaD
提出了更有效的感知损失Lpercep。在激活前对特征进行约束,而不是像在SRGAN中那样在激活后进行约束。与常规相反,我们建议在激活层之前使用功能,这将克服原始设计的两个缺点。首先,激活的特征非常稀疏,尤其是在非常深的网络之后,如图6所示。
Generator的感知损失函数为:
L1是内容损失
λ,η是平衡不同损失项的系数。
在保持良好的感知质量的同时,消除基于GAN的方法中令人不快的噪声,提出了一种灵活有效的策略——网络插值。具体地说,我们首先训练面向PSNR的网络GPSNR,然后通过微调获得基于GAN的网络GGAN。我们对这两个网络的所有相应参数进行插值,得出一个插值模型GINTERP,其参数为:
培训过程分为两个阶段。
将几个公共基准数据集上的最终模型与包括SRCNN[4]、EDSR[20]和RCAN[12]在内的最先进的面向峰值信噪比的方法进行比较。与包括SRGAN[1]和EnhanceNet在内的感知驱动方法进行比较。