图像超分辨率(SR)是计算机视觉中提高图像和视频分辨率的一类重要图像处理技术。近年来,利用深度学习技术进行图像超分辨率的研究取得了显著的进展。在这项调查中,我们旨在能够以系统的方式阐述深度学习方法的图像超分辨率技术的最新进展。一般来说,现有的SR技术研究分为三大类:有监督SR、无监督SR和基于特定领域的SR。此外,我们还讨论了一些其他重要问题,例如公开可用数据集和评估SR性能的指标。最后,我们在总结本次调查时,强调未来的几个方向和有待社会进一步解决的问题。
Index Terms—Image Super-resolution, Deep Learning, Convolutional Neural Networks (CNN), Generative Adversarial Nets (GAN)
图像超分辨率(SR)是从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中的一类重要的图像处理技术。它在现实世界中有着广泛的应用,如医学成像、监控和安全)等。除了提高图像的感知质量外,它还有助于改进其他计算机视觉任务。一般来说,这个问题是非常具有挑战性和固有的不适定,因为总是有多个HR图像对应于一个LR图像。在文献中,提出了多种经典的随机共振方法,包括基于预测的方法、基于边缘的方法、统计方法、基于补丁的方法和稀疏表示方法等。
随着深度学习技术的迅速发展近年来,基于深度学习的SR模型得到了积极的探索,并经常在SR的各种基准上取得良好的性能。各种深度学习方法被应用于解决SR任务,从早期的基于卷积神经网络(CNN)的方法(如SRCNN)到最近的生成性对抗网(GAN)的方法(例如SRGAN)。一般来说,使用深度学习技术的SR算法主要区别如下:不同类型的网络架构、不同类型的损失函数、不同类型的学习原理和策略等。
本文综述了近年来在图像超分辨率和深度学习方面的研究进展。尽管文献中已有一些关于超分辨率的调查,但我们的工作不同,因为我们主要集中在基于深度学习的SR技术上,而早期的文献大多是针对传统的SR算法进行研究,或者一些研究主要集中在提供基于全参考指标或人类视觉感知的定量评估。与现有的调查不同,本次调查以独特的深度学习为基础,以系统和全面的方式回顾了SR技术的最新进展。
这次调查的主要贡献有三方面:
1)我们对基于深度学习的图像超分辨率技术进行了全面的综述,包括问题设置、标准数据集、性能评估、一系列具有深度学习的SR方法、特定领域的SR应用等。
(2)我们以分层和结构化的方式对基于深度学习的SR技术的最新进展进行了系统的概述,并总结了每个部分对于SR解决方案的优势和局限性。
3)我们讨论挑战和开放性问题,确定新趋势和未来方向,为学术界提供有力的指导。
在下面的章节中,我们将通过深入的学习来介绍图像超分辨率的最新进展。图1以层次结构的方式显示了本次调查中涉及的图像超分辨率的分类。第2节给出了问题定义,并回顾了主流数据集和评估指标。第三节对监督超分辨率的主要组成部分进行了模块化分析。第四节简要介绍了无监督超分辨率方法。第5节介绍了一些流行的领域特定的SR应用程序,第6节讨论了未来的方向和开放问题。
图1.本调查的层次结构分类法。
图像超分辨率的目的是从LR图像中恢复相应的HR图像。通常,LR图像Ix被建模为以下退化过程的输出:
其中Iy对应HR图像,D表示退化映射函数,δ表示退化过程的参数(例如,标度因子或一些噪声因子)。一般情况下,降解过程(即D和δ)未知,只有LR提供图像。在这种情况下,研究人员需要从LR图像I中恢复相应的HR图像Iˆ,以便Iˆ与真实HR图像I相同,遵循以下过程:
其中F是超分辨率模型,θ表示F的参数。
虽然退化过程是未知的,并且可能受到各种因素(例如散焦、压缩伪影、各向异性退化、传感器噪声和散斑噪声等)的影响,但是研究人员正试图对退化映射进行建模。大多数工作直接将退化建模为单个下采样操作,如下所示:
其中,s是具有缩放因子s的下采样操作。事实上,大多数用于通用超分辨率的数据集都是基于此模式构建的,最常用的下采样操作是具有抗锯齿的双三次插值。然而,也有其他工作[41]将退化建模为多种操作的组合:
其中,Iy⊗k表示模糊核k与HR图像Iy之间的卷积,nς是具有标准差的加性高斯白噪声。与公式3的朴素定义相比,公式4的组合退化模式更接近于实际情况,并且已被证明对SR更有利。
为此,超分辨率的目标如下:
其中L(Iy,Iy)表示生成HR图像Iˆ和真值图像I的误差函数,Φ(θ)是正则化项,λ是折衷参数。虽然SR最常用的损失函数是像素均方误差(即像素损失),但更强大的模型往往使用多个损失函数的组合,这将在Sec3.4.1中介绍。
现在有很多数据集可用于图像超分辨率,这些数据集在图像数量、质量、分辨率和多样性等方面存在很大差异。其中一些数据集提供LR-HR图像对,而另一些数据集只提供HR图像,在这种情况下,LR图像通常由MATLAB中的imresize函数获得(带抗锯齿的双三次插值)。在表1中,我们列出了SR研究常用的一些图像数据集,并特别指出了它们的HR图像数量、平均分辨率、平均像素数、图像格式和类别关键字。
除这些数据集外,该领域还使用了一些广泛用于其他视觉任务的数据集,包括ImageNet、MS-COCO、VOC12012、CelebA、LSUN[57]、WED[58]等。此外,组合多个数据集进行训练也很流行,例如组合T91和BSD300,结合DIV2K和Flickr2K等。
图像质量是指图像在视觉上具有重要意义的属性,它侧重于对人类感知评价。确定图像质量的过程称为图像质量评价(IQA)。一般来说,IQA方法包括基于人的主观感知评价方法和基于计算模型的客观图像质量自动预测方法。主观方法更符合我们的需要,但通常不方便、费时、昂贵,因此客观方法是目前主流的IQA方法。然而,主观方法和客观方法并不一定是一致的,因为后者往往无法非常准确地捕捉人类的视觉感知,这可能导致IQA结果的巨大差异。
此外,客观的IQA方法进一步分为三种类型[62]:假定参考图像具有完美质量的全参考方法、基于两幅图像提取特征的比较的简化参考方法和无参考方法(即在没有任何参考图像的情况下,试图评估质量。在这里,我们专注于全面参考的IQA方法,因为在一般情况下,我们经常有HR图像。
在本节中,我们将介绍几种最常用的IQA方法,包括主观方法和客观方法。
峰值信噪比(PSNR)是衡量有损变换(如图像压缩、图像修补)重建质量的常用指标。对于图像超分辨率,PSNR是通过最大可能的像素值(表示为L)和图像之间的均方误差(MSE)来定义的。给定具有N个像素的真值图像I和重建图像Iˆ,I和Iˆ之间的MSE和PSNR(单位dB)定义如下:
一般情况下,使用8位图像表示,L等于255,PSNR的典型值在20到40之间变化,越高越好。当L为固定值时,PSNR仅与图像之间的像素级MSE相关,只关心相同位置的像素值之间的差异,而不是人类的视觉感知(即图像看起来有多真实)。这就导致了PSNR在真实场景中表现超分辨率图像的质量较差,在这种情况下,我们通常更关注人的感知。然而,由于需要将性能与文献进行比较,并且缺乏完全准确的感知度量,PSNR是目前应用最广泛的SR模型评价标准。
考虑到人眼视觉系统(HVS)非常适合从视场中提取结构信息[63],基于亮度、对比度和结构三个相对独立的比较,提出了结构相似性指数(SSIM)[62]来度量图像之间的结构相似性。对于具有N个像素的图像I,亮度和对比度分别被估计为图像强度的平均值和标准偏差,如下所示:
其中I(i)表示图像I的第I像素的强度,亮度和对比度的比较函数
分别表示为C(I,I’)和Cc(I,I’)的公式如下:
式中,C1=(k1L)2和C2=(k2L)2是避免不稳定的常数,k1≪1和k2≪1是小常数,L是最大的像素值。
此外,图像结构由归一化像素值(即(i-μi)/σi)表示,其相关性(即内积)表示为结构相似性,相当于i和i’之间的相关系数。因此,结构比较函数Cs(i,i’)被定义为:
其中,σI,Iˆ是I和I’之间的协方差,C3是常数。
最后,SSIM由以下公式给出:
其中,α、β、γ是用于调整相对重要性的控制参数。在实践中,研究者经常将α=β=γ=1和c3=C2/2设为特定形式的SSIM:
此外,由于图像统计特征分布可能不均匀或失真,局部评价图像质量比全局评价更可靠。因此,提出了平均结构相似性(MSSIM)用于局部评估SSIM。具体来说,它将图像分割成多个窗口,评估每个窗口的SSIM,最后将它们平均为最终的MSSIM。
由于SSIM从HVS的角度评估重建质量,因此它更好地满足了感知评估的要求,并且也被SR模型广泛使用。
平均意见得分(MOS)测试是一种常用的主观IQA方法。在执行此方法时,要求人类评分员为测试图像分配感知质量分数。通常,分数从1分(质量差)到5分(质量好)。最后的MOS被计算为人工评分者的算术平均值。
MOS测验存在一些固有的缺陷,如评价尺度的非线性、评分标准的偏差和方差、不同评分者主观观点的差异等。但当评价者和评价者的数量足够时,它仍然是一种忠实的IQA方法,甚至是最适合我们需要的方法。在现实中,一些SR模型在诸如PSNR和SSIM等常见的IQA指标中表现不佳,但在感知质量方面远远超过其他模型,在这种情况下,MOS测试是准确测量感知质量的最可靠的IQA方法。
根据SR模型通常可以帮助其他视觉任务,利用其他任务评估重建性能是IQA的另一种有效方法。具体来说,研究人员将原始和重建的HR图像输入到训练模型中,通过比较对预测性能的影响来评估重建质量。用于评估的视觉任务包括对象识别等。
除上述工作外,还有其他不常用的评估SR性能的指标。多尺度结构相似性(MS-SSIM)提供了比单尺度SSIM更大的灵活性,并结合观察条件的变化。谢赫等人提出了信息保真度准则(IFC)和视觉信息保真度准则(VIF),将HVS视为通信信道,通过计算重建图像和参考图像之间的互信息来预测主观图像质量。但这两种方法对图像的结构信息没有明确的响应。此外,特征相似度(FSIM)根据相位一致性和图像梯度大小提取出感兴趣的特征点,用于评价图像质量。尽管这些方法比PSNR和SSIM具有更好的人眼视觉感知能力,但由于历史原因,目前应用最广泛的SR-IQA方法仍然是PSNR和SSIM。
除了常用的RGB颜色空间外,YCbCr颜色空间还广泛用于表示图像和执行超分辨率。在这个空间中,图像由Y、Cb、Cr通道表示,分别表示亮度分量、蓝差分量和红差分量。尽管目前还没有公认的最佳评估哪个通道的超分辨率,但早期的模型更倾向于在YCbCr空间的Y通道上操作,而较新的模型倾向于在RGB通道上操作。值得注意的是,在不同的颜色空间或通道上操作(训练或评估)会使评估的性能有很大的不同。
近年来,研究者提出了多种具有深度学习的超分辨率模型。这些模型侧重于有监督的超分辨率,即使用LR图像和相应的真值HR图像进行训练。尽管这些模型之间的差异很大,但它们本质上是一组组件的组合,如模型框架、上采样方法、网络设计和学习策略等。从这个角度出发,研究人员将这些组件组合起来,构建一个适合特定目的的集成SR模型。在本节中,我们将集中于模块化地分析基本组件(如图1所示),而不是孤立地介绍每个模型,并总结它们的优点和局限性。
由于图像超分辨率是一个不适定问题,如何进行上采样(即从低分辨率输入中产生高分辨率输出)是关键问题。虽然现有的SR模型的结构变化很大,基于所采用的上采样操作及其在模型中的位置可以将它们分为四个模型框架(即预上采样SR、后上采样SR、逐步上采样SR和迭代上下采样SR,如图2所示),下面我们将详细介绍这些框架。
由于低维空间到高维空间的映射很难直接学习,利用传统的上采样算法获得高分辨率的图像,然后利用深层神经网络对其进行细化是一个简单的解决方案。鉴于此,Dong等人。首先采用预上采样SR框架(如图2a所示),并提出SR-CNN来学习从插值LR图像到HR图像的端到端映射。具体来说,使用传统方法(如双三次插值)将LR图像上采样到具有所需大小的粗HR图像,然后对这些图像应用深CNNs来重建高质量的细节。
该框架的优点是,较难的上采样任务是由预定义的传统算法完成的,而深度CNNs只需对粗图像进行细化,大大降低了学习难度。此外,这些模型可以将具有任意大小和缩放因子的插值图像作为输入,并给出与单尺度SR模型性能相当的优化结果。因此,它逐渐成为该领域最流行的框架之一,而这些模型之间的主要区别在于后验模型设计(Sec)3.3)和学习策略(第Sec 3.4)。然而,预定义的上采样方法通常会引入一些副作用(例如噪声放大和模糊),并且由于大多数操作是在高维空间中执行的,因此时间和空间的成本比其他框架高得多。
为了解决计算效率问题,充分利用深度学习技术,自动提高图像分辨率,研究人员j建议使用在SR模型末尾集成端到端可学习的上采样层操作来替换预定义的上采样操作,在低维空间中形成大多数映射。在该框架预处理,即后上采样SR中,LR输入图像在不增加分辨率的情况下被馈入到深层CNN中,并且在网络的末端应用端到端可学习的上采样层。
由于计算量大的非线性卷积的特征提取过程只发生在低维空间,且分辨率仅在网络的末端增加,计算复杂度和空间复杂度大大降低,同时也带来了较快的训练速度和推理速度。速度。因此,该框架也成为超分辨率领域最主流的框架之一。这些模型主要在可学习的上采样层、前CNN结构和学习策略等方面有所不同。
虽然后上采样SR框架下的模型大大降低了计算量和运行时间成本,但仍存在一些不足。一方面,上采样操作仅在一个步骤中执行,这大大增加了大尺度因子的学习难度。另一方面,每个比例因子都需要一个单独的SR模型,该模型不能处理多尺度SR的需要。为了解决这些缺点,拉普拉斯金字塔SR网络(LapSRN)采用了渐进上采样SR框架,如图2c所示。具体来说,该框架下的模型是基于一系列cnn并逐步重建高分辨率图像的。在每一阶段,图像都被放大到更高的分辨率,并被CNNs细化。其他一些工作,如MS-LapSRN和ProSR(ProSR)也采用了这种框架,并取得了相对较高的性能。与LapSRN和MS-LapSRN使用中间重建图像作为后续模块的“基础图像”不同,ProSR只保留主信息流,由单个头部重建中间分辨率图像。
该框架下的模型通过将一个困难任务分解为简单任务,不仅大大降低了学习难度,获得了较好的学习效果,特别是在因素较多的情况下,而且在不引入过多空间和时间代价的情况下,能够很好地处理多尺度的超分辨率问题。此外,由于框架的具体多阶段设计,可以整合课程学习、多监督等具体学习策略,进一步降低学习难度,提高最终成绩。然而,这些模型也存在着多阶段模型设计复杂、训练难度大等问题,需要更多的教学结构设计指导和更先进的训练策略。
为了更好地捕获LR-HR图像对之间的相互依赖关系,在SR中加入了一个有效的迭代过程,以便更好地挖掘深层LR-HR关系。该SR框架,即迭代上下采样SR(图2d),尝试迭代应用反投影细化,即计算重建误差,然后将其融合回以调整HR图像强度。然而,以往基于反投影的研究大多不是基于深度学习的,涉及到一些不可学习的操作。为了更好地利用这一机制,Haris等人,利用迭代的上下采样层,提出了深度反投影网络(DBPN),将上采样层和下采样层交替连接,利用所有中间重建的HR特征图拼接,重建最终的HR结果。结合其他技术(如密集连接),DBPN赢得了2018年NTIRE经典赛道的冠军。
该框架下的模型能够更好地挖掘LR-HR图像对之间的深层关系,从而提供更高质量的重建结果。然而,反向投影模型的设计标准仍然不清楚。实际上,用于DBPN的反向投影单元结构非常复杂,需要大量的手工设计。由于这种机制刚刚被引入到基于深度学习的超分辨率中,因此该框架具有很大的潜力,需要进一步的探索。
除了在模型中如何应用上采样操作外,如何实现它们也是非常重要的。虽然已有多种传统的上采样算法,但利用神经网络直接学习端到端的上采样过程已逐渐成为一种趋势。在本节中,我们将介绍几种常用的基于插值的算法和基于深度学习的上采样层。
图像插值,也称为图像缩放,是指调整数字图像的大小,几乎被所有与图像相关的应用程序所使用。传统的插值方法包括最近邻插值、双线性和双三次插值、Sinc和Lanczos重采样等,由于这些方法具有可解释性和易实现性,其中一些方法仍被广泛应用于基于深度学习的超分辨率。
最近邻插值。最近邻插值是一种简单直观的算法。它为每个要插值的位置选择最接近的像素值,而不考虑任何其他像素。因此,这种方法非常快速,但通常会产生质量较低的块状结果。
双线性插值。双线性插值首先在图像的一个轴上进行线性插值,然后在另一个轴上再次进行线性插值。这两步插值过程如图3所示。虽然每一步在采样值和采样位置上都是线性的,但是它产生了一个2×2大小的接收场的二次插值,并且在保持较快速度的同时,表现出比最近邻插值更好的性能。
实际上,基于插值的上采样方法只根据图像本身的内容来提高图像的分辨率,不会带来更多的信息。相反,他们经常引入一些副作用到SR模型中,例如计算复杂度、噪声放大、模糊结果等。
为了克服插值方法的缺点,学习端到端的上采样操作,在超分辨率领域引入了转置卷积层和亚像素层。
转置卷积层。转置卷积层,也称为反卷积层,尝试执行与正常卷积相反的变换,即基于卷积层的输出大小类似的特征映射来预预测可能的输入。具体地说,它通过插入零值并进行卷积来扩展图像,从而提高图像分辨率。为了简洁起见,我们展示了如何使用3×3内核执行2×上采样,如图4所示。首先,将输入扩展为原始大小的两倍,其中新添加的像素值被设置为0(图4b)。然后应用核大小为3×3、步长1和填充1的卷积(图4c)。通过这样的操作,输入特征映射被因子2上采样,在这种情况下,接收场最多为2×2。
由于转置卷积层可以在保持与普通卷积兼容的连接性模式的同时以端到端的方式放大图像大小,因此在SR模型中它被广泛用作上采样层。然而,该层很容易在每个轴上引起“不均匀的重叠”,并且两个轴上的乘法结果进一步产生了不同幅度的特征棋盘状图案,从而损害了SR性能。
亚像素层。亚像素层也是端到端可学习的上采样层,它通过卷积生成多个信道,然后对它们进行整形来执行上采样,如图5所示。在该层中,首先应用标准卷积来产生具有ss倍信道的输出,其中s是上采样因子(图5b)。假设输入大小为h×w×c,则输出大小为h×w×ssc,然后执行整形操作,以产生sh×s*w×c大小的输出(图5c)。在这种情况下,感受野可以达到3×3。
由于端到端的上采样方式,亚像素层也被SR模型广泛使用。与转置卷积层相比,亚像素层最大的优点是接收场更大,它提供了更多的上下文信息,有助于生成更精确的细节。然而,亚像素层的接收场分布是不均匀的,块状区域实际上共享同一个接收场,这可能导致在不同块的边界附近出现一些伪影。
目前,这两种基于学习的层已经成为应用最广泛的上采样方法。特别是在后上采样框架中,这些层通常在最终的上采样阶段用于基于低维空间提取的高阶特征重建HR图像,从而实现端到端的SR,同时避免在高维空间进行压倒性的操作。
目前,网络设计已成为深度学习的重要组成部分。在超分辨率领域,研究人员在四个SR框架的基础上应用各种网络设计策略(残差学习、密集连接等)来构建最终的SR网络。在本节中,我们将这些网络分解为网络设计的基本原则或策略,并逐一介绍它们。
在He等人提出ResNet用于学习残差而不是彻底映射之前,残差学习已经被SR模型广泛应用,如图6a所示。其中,残差学习策略大致可分为两类,即全局残差学习和局部残差学习。
全局残差学习。由于超分辨率是一种图像到图像的转换任务,输入图像与目标图像高度相关,因此研究者试图只学习两幅图像之间的残差,即全局残差学习。在这种情况下,它避免学习从一个完整图像到另一个图像的复杂转换,而只需要学习一个残差映射来恢复丢失的高频细节。由于大部分区域的残差接近于零,模型复杂度和学习难度大大降低。因此,它被SR模型广泛使用,特别是在预上采样框架下。)。
局部残差学习。局部残差学习类似于ResNet中的剩余学习,用于解决网络深度不断增加带来的退化问题,提高学习能力。它也广泛应用于SR领域。
在实际应用中,上述方法都是通过快捷连接(通常用一个小常数来缩放)和元素相加操作来实现的,而它们之间的区别在于前者直接连接输入图像和输出图像,后者通常在网络中具有不同深度的层之间添加多个残差块。
为了在不引入压倒性参数的情况下获得更大的感受野和学习更高层次的特征,递归学习(指以递归方式多次应用相同的模块)被引入到超分辨率场中,如图6b所示。
其中,16-recursion DRCN以单个卷积层为递归单元,在没有过多参数的情况下,得到的感受野为41×41,远大于SRCNN的13×13。DRRN使用一个残差块作为25次递归的递归单元,并且获得比具有17个残差块的非递归基线更好的性能。后来Tai等人提出了基于存储块的MemNet,该存储块由6个递归残差块组成,每个递归的输出被连接起来,并经过额外的1×1卷积进行记忆和遗忘。最近,级联残差网络(CARN)也采用了一个类似的递归单元,包括几个残差块。
与上述工作不同的是,一些研究者将具有大尺度因子的超分辨率分解分解为若干具有小尺度因子的子问题,并利用递归结构同时求解多个子问题。具体来说,Han等人提出了双状态递归网络(DSRN)来实现HR状态和LR状态之间的信号交换。在每个时间步(即递归),它们基于当前的LR状态和HR状态更新LR状态,然后将其传输到HR状态进行更新。通过双状态递归学习(最多7次递归),可以更好地探索LR-HR图像对之间的深层关系。相反,Lai等人不仅使用卷积层作为递归层,而且使用特征嵌入模块、特征上采样模块和图像上采样模块作为递归模块,其参数为每个子问题共享。通过这种方式,模型参数的数量大大减少(最多8倍),而性能损失很小。
在实际应用中,递归学习本质上带来了梯度消失或爆炸问题,因而产生了诸如剩余学习等技术和多监督通常与递归学习相结合,以缓解这些问题。
多路径学习是指通过模型的多条路径传递特征,这些路径执行不同的操作,以提供更好的建模能力。具体来说,它可以分为三种类型,如下所述。
全局多路径学习。全局多路径学习是指利用多条路径来提取图像不同方面的特征。这些路径在传播过程中相互交叉,极大地提高了特征提取的能力。具体地,LapSRN包括以粗到细的方式预测子带残差的特征提取路径,以及基于两条路径的信息流重建可见HR图像的图像重建路径。类似地,DSRN分别利用LR路径和HR路径来提取低维空间和高维空间中的信息。这两条路径不断地交换信息,以进一步提高学习能力。像素递归超分辨率(pixel recursive super-resolution)采用条件路径来捕获图像的全局结构,采用先验路径来捕获生成像素的序列依赖性。相反,Ren等人。使用具有不平衡结构的多条路径来执行上采样,并在模型的最末端对其进行融合。
局部多路径学习。在初始模块[100]的驱动下,MSRN[98]采用了一个新的块来进行多尺度特征提取,如图6e所示。在该块中,采用两个核大小分别为3×3和5×5的卷积运算来同时提取特征,然后将输出串接并再次进行相同的运算,最后再进行1×1卷积。一个快捷方式通过元素加法连接这个块的输出和输入。通过这种局部多径学习,SR模型可以更好地从多尺度提取图像特征,进一步提高性能。
规模特定的多路径学习。考虑到不同尺度的SR模型实际上需要经历相似的特征提取过程,Lim等提出了一种尺度特定的多径学习策略,用于在单一网络中处理多尺度SR问题。具体来说,它们共享模型的主体部分(即特征提取的中间部分),并分别在网络的开始和结束处附加特定于比例的预处理路径和上采样路径(如图6f所示)。在训练期间,仅启用和更新与选定比例对应的路径。这样,大多数参数在不同尺度上共享,并且所提出的MDSR表现出与单尺度模型相当的性能。CARN和ProSR也采用了类似规模的多路径学习。
自从Huang提出基于密集块的DenseNet以来,密集连接在视觉任务中变得越来越流行。对于稠密块中的每一层,所有前一层的特征映射被用作输入,其自身的特征映射被用作所有后一层的输入,从而导致l层稠密块中的l·(l−1)/2连接。密集连接不仅有助于减少梯度消失、增强信号传播和鼓励特征重用,而且通过采用较小的增长率(即密集块中的信道数)和级联后的压缩信道,大大减少了参数的数目。
为了融合低层和高层特征以提供更丰富的信息以重构高质量细节,如图6d所示,在SR字段中引入了密集连接。Tong不仅采用稠密块构造69层SRDenseNet,而且在不同稠密块之间插入稠密连接,即对于每个稠密块,所有前一块的特征映射作为输入,其自身的特征映射作为所有后一块的输入。MemNet、CARN、RDN[和ESRGAN也采用这些层级和块级密集连接。DBPN也广泛采用密集连接,但它们的密集连接是在所有上采样单元之间的,下采样单元也是如此。
考虑到不同通道之间特征表示的相互依赖和相互作用,Hu等人。如图6c所示,提出一个“挤压和激励”块,通过显式地建模信道相互依赖来提高表示能力。在该块中,使用全局平均池将每个输入通道压缩成一个通道描述符(即常数),然后将这些描述符馈送到两个完全连接的层中,以产生通道尺度因子。最后的输出是通过使用通道相乘的缩放因子重新缩放输入通道而获得的。利用这一渠道关注机制,拟议的SENet在2017年ILSVRC中获得第一名。最近,Zhang首次将其引入到超分辨率中,提出了RCAN,显著提高了模型的表示能力,提高了SR性能。
3.3.6高级卷积
由于卷积运算是深层神经网络的基础,研究人员还试图改进卷积运算以获得更好的性能或更快的速度。
扩张卷积。众所周知,背景信息有助于在图像超分辨率中生成真实的细节。因此,Zhang等人。[104]在SR模型中用扩张卷积代替普通卷积,使感受野增大两倍以上,最终获得更好的性能。
群卷积。受轻量CNN的最新进展的推动[105],Ahn等人。[30]提出用群卷积代替共卷积的CARN-M算法。由于已有的一些工作已经证明,群卷积可以以牺牲很少的性能为代价减少大量的参数和运算[105]、[106]、[107],因此CARN-M在性能损失很小的情况下将参数数目减少了5倍,运算次数减少了4倍。
大多数SR模型将SR视为与像素无关的任务,因此无法正确地获得生成像素之间的相互依赖关系。在PixelCNN[108]的启发下,Dahl首先提出了像素递归学习算法,通过两个网络分别捕获全局上下文信息和序列生成依赖关系来进行逐像素生成。通过这种方法,该方法在超分辨率非常低分辨率的人脸图像(如8×8)上合成了真实的头发和皮肤细节,远远超过了以往的MOS测试方法(Sec)。2.3.3条)。
在人类注意转移机制的启发下,Attention-FH[110]也采用了这种策略,通过使用递归策略网络来顺序地发现有人注意的补丁并执行局部增强。这样它能够根据图像自身的特点自适应地个性化地为每个图像选择一条最优的搜索路径,从而充分利用图像的全局内相关性。
虽然这些方法在一定程度上表现出了较好的性能,但递归过程需要较长的传播路径,大大增加了计算量和训练难度,特别是对于高分辨率的HR图像。
基于空间金字塔池化层[111],Zhao等提出金字塔池化模块,以更好地利用全局和局部上下文信息。具体来说,对于h×w×c大小的特征映射,每个特征映射被划分为M×M个存储单元,并经过全局平均池,得到M×M×c输出。然后执行1×1卷积以将输出压缩到一个单信道。然后,通过双线性插值将低维特征映射提升到与原始特征映射相同的大小。通过使用不同的M,该模块可以有效地集成全局和局部上下文信息。通过加入该模块,所提出的EDSR-PP模型[113]进一步提高了性能。
众所周知,小波变换(WT)[114]、[115]是一种高效的图像表示方法,它将图像信号分解为表示纹理细节的高频小波和包含全局拓扑信息的低频小波。Bae首先将小波变换与基于深度学习的SR模型相结合,以插值LR小波的子带为输入,预测相应HR子带的残差。小波变换和逆小波变换分别用于分解LR输入和重构HR输出。类似地,DWSR[117]和小波SRNet[118]也在小波域中执行SR,但具有更复杂的结构。与上述独立处理每个子带的工作相比,MWCNN[119]采用多级WT,并将级联的子带作为单个CNN的输入,以更好地捕获它们之间的依赖性。
在超分辨率领域,利用损失函数来度量生成的高分辨率图像与真实高分辨率图像之间的差异,指导模型优化。在早期,研究人员通常采用像素级的L2损失,但后来发现它不能很精确地测量重建质量。因此,采用各种损失函数(例如,内容损失〔31〕、对抗损失〔27〕等)来更好地测量重构误差。目前,这些损失函数在这一领域发挥着重要作用。在本节中,我们将更详细地了解SR模型中广泛使用的损耗函数。在本节中,我们将更详细地了解SR模型中广泛使用的损耗函数。本节中的符号如下。2.1,为了简洁起见,我们忽略了目标HR图像Iˆ的下标y和y生成的HR图像y。
像素损失。像素损失测量两幅图像之间的像素级差异,主要包括L1损失(即平均绝对误差)和L2损失(即均方误差):
其中,h、w和c分别是被评估图像的高度、宽度和通道数。此外,像素L1损失的一种变体,即Charbonnier损失[29],[120],由以下给出:
其中,ε是数值稳定性的一个小常数(例如,1e-3)。
像素损失限制生成的HR图像Iˆ在像素值上足够接近地面真值HR图像I。与L1损失相比,L2损失惩罚较大的错误,但对较小的错误更宽容。在实践中,L1损失比L2损失显示出改进的性能和收敛性[30]、[33]、[121]。由于PSNR的定义与像素差具有很高的相关性,并且最大限度地减少了像素丢失,直接使PSNR最大化,因此像素丢失已经成为该领域中应用最广泛的损失函数。然而,由于像素损失实际上没有考虑图像质量(例如,感知质量[31],纹理[10]),因此它通常缺少高频细节,并且使用过度平滑的纹理[27],[31],[62],[74]产生感知上不满意的结果。
内容损失。为了基于感知质量评估图像质量,将内容损失引入到超分辨率中[31]、[122]。具体来说,它使用预先训练的图像分类网络来测量图像之间的语义差异。将该网络表示为φ,将第l层上的高级表示表示表示为φ(l)(I),内容损失表示为两个图像之间高级表示之间的欧氏距离,如下所示:
其中,hl、wl和cl是分别在l层上提取的特征映射的通道。
实际上,内容丢失将学习到的层次图像特征知识从分类网络φ转移到SR网络。与像素损失相比,内容损失鼓励输出图像Iˆ在感知上与目标图像I类似,而不是迫使它们精确地匹配像素。因此,它在视觉上产生更可感知的结果,并且也广泛地应用于该领域[10]、[27]、[31]、[32]、[48]、[101],其中VGG[123]和ResNet[95]是最常用的预训练cnn。
纹理丢失。鉴于重建图像应具有与目标图像相同的风格(如颜色、纹理、对比度),并受Gatys等人的风格描述所驱动。[124]、[125]将纹理损失(也称为样式重建损失)引入到超分辨率中。在[124]、[125]之后,图像的纹理被视为不同特征通道之间的相关性,并被定义为Gram矩阵G(l)∈Rcl×cl,其中G i j是层l上矢量化特征映射i和j之间的内积:
其中vec(·)表示矢量化操作,而φ(l)(I)I
表示图像i的层l上的特征映射的第i个通道。基于上述定义,纹理损失由下式给出:
通过使用纹理损失,SR模型可以创建真实的纹理,并在视觉上产生更令人满意的结果[10]。尽管如此,确定面片大小以匹配纹理仍然是经验性的。过小的面片会导致纹理区域中的人工制品,而过大的面片会导致整个图像中的人工制品,因为纹理统计信息是在不同纹理的区域上平均的。
对抗性损失。近年来,GANs[26]越来越流行,并被引入到各种视觉任务中。具体地说,GAN包括执行生成的生成器(例如,文本生成、图像转换)和鉴别器,鉴别器将生成的输出和从目标分布采样的实例作为输入,并判别每个输入是否来自目标分布。在训练过程中,交替执行两个步骤:(a)固定生成器并训练鉴别器以更好地辨别;(b)固定鉴别器并训练生成器以愚弄鉴别器。通过反复的对抗训练,在模型最终收敛后,生成的生成器可以产生与真实数据分布一致的输出,而鉴别器不能区分生成的数据和真实数据。
在超分辨率领域,采用对抗学习是很简单的,在这种情况下,我们只需要把SR模型当作一个生成器,另外定义一个判别器来判断输入图像是否生成。Ledig首先介绍了基于交叉熵的利用对抗性损失的SRGAN,具体如下:
其中Lgan ce g和Lgan ce d分别表示生成器(即SR模型)和鉴别器d(即二进制分类器)的对抗性损失。表示从真实HR图像中随机采样的数据。此外,Enhancenet[10]也采用了类似的对抗性损失。
此外,王和袁使用基于最小二乘误差的对抗性损失来获得更稳定的训练过程和更高质量的结果[127],给出:
Bulat等人。[128]采用合页格式对抗性损失[129],具体如下:
与上述侧重于对抗性损失的具体形式的著作不同,Park等人。[130]认为像素级鉴别器只会导致生成器产生无意义的高频噪声(像素丢失无法学习),并附加一个额外的特征级鉴别器,以对由预先训练的CNN提取的高级表示进行操作,以捕获真实HR的更有意义的潜在属性图像。Xu包含一个多类GAN,其中包括一个生成器和类特定的鉴别器。ESRGAN[101]使用相对论GAN[131]来预测真实图像比假图像相对更真实的概率,而不是预测输入图像是真实的或生成的概率。
大量的MOS测试[10],[27]表明,尽管经过对抗性丢失和内容丢失训练的SR模型与经过像素丢失训练的SR模型相比,获得了更低的PSNR,但它们在感知质量方面带来了显著的提高。事实上,鉴别器提取了真实HR图像中一些难以学习的潜在模式,并将生成的HR图像进行整合,从而有助于生成更真实的图像。但是,目前GAN的训练过程还比较困难和不稳定尽管已有一些关于如何稳定GAN训练的研究[129]、[132]、[133],但如何保证整合到SR模型中的GAN得到正确训练并发挥积极作用仍是一个问题。
循环一致性损失。由朱等人提出的CycleGAN所推动。对于图像到图像的转换任务,袁等人提出了一种循环的超分辨率方法。具体来说,他们不仅将LR图像I超级分解为HR图像I,而且通过CNN将Iˆ下采样返回到另一个LR图像I。重新生成的I′要求与输入I相同,因此引入循环一致性损失来约束它们的像素级一致性:
总变化损失。为了抑制生成图像中的噪声,Aly等人将总变分(TV)损失[135]引入SR场。[136]。它被定义为相邻像素之间的绝对差值之和,并测量图像中有多少噪声。对于生成的HR图像I,TV损耗定义为:
Lai等人和Yuan等人也采用这种TV损耗来增强空间平滑性。
基于先验的损失。除了上述损失函数外,引入外部先验知识来约束生成过程。Bulat等人。[32]重点研究了人脸识别技术,并引入了一个人脸对齐网络(FAN)来约束从原始图像和生成图像中检测到的人脸标志点的一致性。FAN经过预先训练和集成,以提供面部定位知识。通过这种方法,Super-FAN在低分辨率人脸对齐和人脸图像超分辨率两方面都提高了性能。事实上,内容丢失和文本丢失都引入了分类网络,本质上为SR提供了层次图像特征的先验知识,通过引入更多的先验知识,可以进一步提高超分辨率的性能。
在这一节中,我们将介绍在超分辨率领域中广泛使用的各种损耗函数。在实践中,研究者通常通过加权平均组合多个损失函数[10]、[27]、[29]、[48]、[126],以约束生成过程的不同方面,特别是对于失真-感知权衡[27]、[101]、[137]、[138]、[139]。然而,如何确定不同损失函数的权重需要大量的实证研究。如何合理有效地组合这些损失函数仍是一个难题。
3.4.2批量标准化
为了加速深层CNNs的训练,Sergey等人提出了批处理规范化(BN)来减少网络的内部协变量漂移。具体来说,它们对每个小批量执行规范化,并为每个通道训练两个额外的转换参数,以保持表示能力。由于BN校准了中间特征分布并缓解了消失梯度问题,它允许我们使用更高的学习率,并且在初始化时不那么小心。因此,该技术被SR模型[27]、[41]、[59]、[60]、[119]、[141]广泛使用。
然而,利姆等人认为,BN失去了每个图像的尺度信息,并且摆脱了网络的范围灵活性。因此,它们删除了BN层,使用节省的内存(高达40%)来采用更大的模型,从而大大提高了性能。其他一些型号[34]、[101]、[142]也采用了这一经验并实现了性能改进。
3.4.3课程学习
课程学习[143]是指从较简单的子任务开始,逐渐增加任务难度。由于超分辨率问题本质上是一个不适定问题,而且一些不利条件如大尺度因子、噪声或模糊等会进一步增加学习难度,因此课程训练策略对这一问题有很大的帮助。
考虑到在一个步骤中执行大因素SR是一项非常困难的任务,Wang等人。[34]和Bei等人。[144]分别提出了ProSR和ADRSR,它们不仅在体系结构上是进步的(第。3.1.3),以及培训程序。训练从2×上采样部分开始,在完成训练当前部分之后,逐渐安装具有4×或更大比例因子的部分并与先前部分混合。具体地说,ProSR通过线性组合该电平的输出和[145]之后的先前电平的上采样输出来混合两部分,而ADRSR连接它们并附加另一卷积层。
相反,Park等人。[113]将8×SR问题划分为3个子问题(1×to 2×SR,2×to 4×SR,4×to 8×SR),并为每个问题训练一个单独的网络。然后将其中两个连接起来并联合微调,然后与另一个进行微调。此外,他们还将困难条件下的4×SR分解为3个子问题(即去噪/去模糊、1×to 2×SR、2×to 4×SR),并采用类似的训练策略。
与一般训练方法相比,该方法不仅大大降低了训练难度,提高了各尺度因子的训练效果,特别是对大因子的训练效果,而且显著缩短了训练总时间。
多监督是指在模型中加入多个额外的监督信号,以增强梯度传播,避免梯度消失和爆炸。为了防止递归学习引入梯度问题(秒。3.3.2),DRCN[80]将多个监视合并到递归单元。具体地说,它们将递归单元的每个输出输入重建模块以生成HR图像,并通过加权平均所有这些中间HR图像来构造最终预测,其中在训练期间学习权重。MemNet[59]和DSRN[83]也采用了类似的多监督方法,它们也是基于递归学习的。
自LapSRN[29]以来,[69]在渐进上采样SR框架下(秒。3.1.3)在前向传播过程中产生不同尺度的中间上采样结果,采用多监督是简单易行的。具体地说,中间结果被强制与从原始HR图像下采样的中间地面真值图像相同。
在实际中,这种多监督技术往往是通过在损失函数中加入一些项来实现的,这样可以有效地对监督信号进行反向传播,从而大大提高了模型的训练效果。
除了网络设计和学习策略外,还有其他技术可以进一步改进超分辨率模型。
上下文相关网络融合(CNF)[99]是一种融合来自多个SR网络的预测的叠加技术(即Sec中多径学习的特殊情况)。3.3.3条)。具体来说,它们分别训练具有不同结构的单个SR模型,将每个模型的预测结果反馈到各个卷积层中,最后对输出进行求和,得到最终的预测结果。在这个CNF框架内,由三个轻量级SRCNNs[24],[25]构建的最终模型以可接受的效率实现了与最新模型相当的性能[99]。
数据增强是应用最广泛的技术之一,可以通过深度学习提高性能。对于图像超分辨率,一些有用的增强选项包括随机裁剪、翻转、缩放、旋转、颜色抖动等[29]、[33]、[46]、[60]、[83]、[97]。此外,Bei等人。[144]还随机洗牌RGB通道,这不仅增加了数据量,而且还缓解了由不平衡颜色数据集引起的偏色问题。在数据扩充的帮助下,SR模型大大提高了性能。
多任务学习(Multi-task learning)[146]是指利用目标检测和语义分割[147]、头部姿势估计和面部属性推断[148]等相关任务训练信号中包含的领域特定信息来提高泛化能力。在超分辨率领域,Wang等人。[48]整合一个预先训练的语义分割网络,以提供语义知识,从而生成特定于语义的细节。具体地说,它们引入了一个空间特征变换层,该层以语义映射为输入,输出空间参数,用于在中间特征映射上执行仿射变换。所提出的SFT-GAN可以在语义区域丰富的图像上生成更逼真、视觉效果更好的纹理,并在其他图像上获得可比的性能。此外,考虑到直接超分辨率噪声图像可能会引起噪声放大,DNSR[144]提出分别训练去噪网络和SR网络,然后将它们串联在一起并进行微调。同样,周期内GAN(CinC-GAN)[126]结合了周期内去噪框架和周期内SR模型来联合执行噪声抑制和超分辨率。
由于不同的任务往往关注数据的不同方面,因此将相关任务与SR模型相结合通常通过提供额外的信息和知识来提高SR性能。
基于PSNR的模型倾向于生成更接近地面真实的图像,但会引入模糊和噪声放大,而基于GAN的模型会带来更好的感知质量,但会引入令人不快的人工制品(例如,无意义的噪声会使图像更“真实”)。为了平衡视觉质量和图像逼真度,王等人。[101]提出了一种网络插值策略。具体地说,他们通过微调训练一个基于PSNR的模型和一个基于GAN的模型,然后对这两个网络的所有相应参数进行插值,得到中间模型。通过在不重新训练网络的情况下调整插值权重,它们可以用更少的人工制品产生有意义的结果。
自系综,也称为增强预测[46],是SR模型常用的一种推断技术。具体来说,在LR图像上应用不同角度的旋转(即0°、90°、180°、270°)和翻转,以获得一组8个LR图像。然后将这些图像输入SR模型,并对重建的HR图像进行相应的逆变换,得到输出。最终预测结果由这些输出的平均值[33]、[34]、[46]、[70]、[78]、[94]或中值[81]进行。
现有的超分辨率工作主要集中在超视觉学习上,即使用匹配的LR HR图像对学习LR到HR映射。然而,由于同一场景不同分辨率的图像很难采集,SR数据集中的LR图像通常是通过对HR图像进行预先定义的退化来获得的。因此,在这些数据集上训练的SR模型更有可能学习预定义过程的反向版本。为了防止预先定义的退化带来的负面影响,研究者越来越关注无监督的超分辨率,在这种情况下,只提供未配对的图像(HR或LR)进行训练,因此得到的模型实际上更容易处理现实场景中的SR问题。接下来,我们将简要介绍现有的几种具有深度学习的无监督SR模型,还有更多有待探索的方法。
考虑到单个图像内部的图像统计信息足以提供超分辨率所需的信息,Shocher等人。[81]通过在测试时训练特定于图像的小SR网络,而不是在大型外部数据集上训练通用模型,提出了零样本超分辨率(ZSSR)来处理无监督SR。具体来说,他们使用核估计方法[85]从单个测试图像直接估计退化核,并使用该核通过在测试图像上执行具有不同缩放因子的退化来构造小数据集。然后在此数据集上训练一个用于超分辨率的小型CNN,并用于最终预测。
这样,ZSSR利用图像特定信息的跨尺度内部递归的能力,从而在非理想条件下(非双三次退化核得到的图像在理想条件下(即双三次插值构造的图像)具有更接近真实场景的模糊、噪声、压缩伪影等效果,并给出了有竞争力的结果。然而,由于该方法在测试过程中需要为每个图像训练一个单一的网络,使得其测试时间比其他具有深度学习的SR模型要长得多。
为了在不引入预先定义的退化的情况下处理超分辨率问题,研究人员尝试使用弱监督学习来学习SR模型,即使用未配对的LR-HR图像。其中,一些研究者首先学习了HR-LR退化并利用它构造数据集来训练SR模型,而另一些研究者则在循环网络中设计循环来同时学习LR-HR和HR-LR映射。接下来我们将详细介绍这些模型。
学会了堕落。由于预先定义的退化是次优的,从未配对的LR-HR数据集学习退化是一个可行的方向。Bulat等人。[128]提出了一个两阶段的过程,首先训练HR到LR-GAN以利用未配对的LR-HR图像学习退化,然后训练LR到HR GAN以利用基于第一GAN进行的成对LR-HR图像进行图像超分辨率。具体地说,对于HR到LR GAN,将HR图像馈入生成器以产生LR输出,这不仅要求与通过缩小HR图像(通过平均池)获得的LR图像匹配,而且要求与真实LR图像的分布匹配。训练结束后,利用该发生器作为退化模型生成LR-HR图像对。然后,对于LR到HR GAN,生成器(即SR模型)将生成的LR图像作为输入并预测HR输出,这不仅要求与相应的HR图像匹配,还要求与HR图像的分布匹配。
通过应用这两个阶段的过程,提出的无监督模型有效地提高了超分辨率现实世界LR图像的质量,并比以往的最新作品有了很大的改进。
循环超分辨率。另一种无监督超分辨方法是将LR空间和HR空间看作两个区域,并使用循环中的结构来学习彼此之间的映射。在这种情况下,训练目标包括推送映射结果以匹配目标域分布,并通过往返映射使图像可恢复。
在CycleGAN[134]的激励下,Yuan等人。[126]提出了一种由4个发生器和2个鉴别器组成的循环内循环SR网络(CinCGAN),分别构成了噪声LR⇀clean LR和clean LR⇀clean HR映射的两个循环。具体地说,在第一循环中,噪声LR图像被送入发生器,并且要求输出与真实干净LR图像的分布一致。然后它被送入另一台发电机,并被要求恢复原始输入。为了保证循环一致性、分布一致性和映射有效性,引入了几个损失函数(如对抗性损失、循环一致性损失、身份损失)。另一个CycleGAN的设计类似,只是映射域不同。
由于避免了预先定义的退化,非监督CinCGAN不仅可以达到与监督方法相当的性能,而且在非常苛刻的条件下也适用于无功情况。然而,由于SR问题的不适定本质和CinCGAN的复杂结构,需要一些先进的策略来降低训练的难度和不稳定性。
考虑到CNN的结构足以捕获大量用于反问题的低层图像统计信息,Ulyanov等人。[149]在执行SR之前,使用手工制作的随机初始化CNN。具体来说,他们定义了一个以随机向量z为输入并尝试生成目标HR图像I的生成器网络。目标是训练网络找到一个Iˆ,即yy降采样Iˆ与LR图像I相同。因为yx网络是随机初始化的,从来没有在数据集上训练过,唯一优先的是CNN结构本身。尽管该方法的性能仍然比有监督方法(+2dB)差得多,但它的性能明显优于传统的双三次上采样(+1dB)。此外,它还展示了CNN结构本身的合理性,并通过将深度学习方法与CNN结构或自相似性等人工先验知识相结合来提高超分辨率。
深度图记录了视点和场景中对象之间的距离,深度信息在许多任务中扮演着重要的角色,如姿势估计[150]、[151]、[152]、[153]、[154]等。然而,由于生产和经济的限制,深度传感器产生的深度图往往分辨率较低,存在噪声、量化、缺失值等退化效应,因此引入超分辨率来提高深度图的空间分辨率。
目前,深度图SR最流行的一种方法是使用另一种经济的RGB相机获取相同场景的HR图像,以指导LR深度图的超分辨。特别是宋等人。[155]利用深度场统计和深度图与RGB图像的局部相关性来约束全局统计和局部结构。Hui等人。[156]利用两个cnn同时对LR深度图和HR-RGB图像进行上采样,然后使用RGB特征作为相同分辨率下的上采样过程的指导。同样,Ni等人。[157]和Zhou等人。[158]利用HR-RGB图像分别提取HR边缘图和预测漏失高频分量作为导航。而肖等人。[159]利用金字塔网络放大接收场,分别从LR深度图和HR-RGB图像中提取特征,并融合这些特征预测HR深度图。以及Haefner等人。[160]充分利用颜色信息,利用阴影技术中的形状来指导超分辨率。
与上述工作相反,Riegler等人。[161]将CNNs与能量最小化模型结合起来,形成一个强大的变分模型,在不需要其他参考图像的情况下恢复HR深度图。
人脸图像超分辨率,也称为面部幻觉(FH),通常可以帮助完成其他与人脸相关的任务[6]、[72]、[73]、[162]。与一般图像相比,人脸图像具有更多的与人脸相关的结构化信息,因此将人脸先验知识(如标记、解析地图、身份)融入到FH中是一种非常流行和有前途的方法。
利用人脸先验的最直接的方法是约束生成的HR图像具有与地面真实HR图像相同的人脸相关信息。具体地说,CBN[163]通过交替优化FH和密集对应场估计来利用面部先验。Super-FAN[32]和MTUN[164]都引入了FAN,通过端到端的多任务学习来保证面部标志点的一致性。FSRNet[73]不仅使用面部地标热图,而且还使用面部解析图作为面部先验约束。SICNN[72]以恢复真实身份信息为目标,采用超身份丢失函数和领域综合训练方法来稳定联合训练。
与全色图像(PANs,即3个波段的RGB图像)相比,包含数百个波段的高光谱图像(hsi)提供了丰富的光谱特征,有助于完成各种视觉任务[174]、[175]、[176]、[177]。然而,由于硬件的限制,不仅采集高质量的hsi比采集盘困难得多,而且采集到的hsi的分辨率也低得多。因此,超分辨率被引入这一领域,研究者倾向于将HR-PANs和LR-HSIs结合起来预测HR-HSIs。
其中,黄等。[178]提出了一种稀疏去噪自动编码器,用于学习带有PANs的LR到HR映射并将其传输到HSIs。Masi等人。[179]使用SRCNN[24]并结合几个非线性辐射指数图以提高性能。Wei等人。[180]在残差学习的基础上提出了一种更深入的DRPNN[95],实现了更高的空间谱统一精度。最近,Qu等人。[181]联合训练两个编解码网络分别对PANs和HSIs执行SR,并通过共享解码器和应用诸如角度相似性损失和重建损失等约束将PAN域中的SR知识转移到HSI域。
在视频超分辨率方面,多帧提供了更多的场景信息,不仅存在帧内空间相关性,还存在帧间时间相关性(如运动、亮度和颜色变化)。因此,现有的工作主要集中在更好地利用时空依赖性,包括显式补偿(如光流算法、基于学习的方法)和递归方法等。
在基于光流算法的方法中,廖等人。[182]使用各种光流方法产生HR候选并通过CNN集成它们。VSRnet[183]和CVSRnet[184]采用Druleas算法实现运动补偿[185],并使用CNNs将成功帧作为输入,预测HR帧。而刘等人。[186],[187]进行校正光流对准,并提出一种时间自适应网络,以生成不同时间尺度的HR帧并自适应地对其进行聚集。
另外,也有人尝试直接学习运动补偿。vespnc[188]利用可训练的空间变换器[166]学习基于相邻帧的运动补偿,并将多个帧输入到时空ESPCN[82]中以进行端到端预测。陶等人。[189]从精确的LR成像模型出发,提出了一种亚像素级的模块来同时实现运动补偿和超分辨率,从而更有效地融合对齐的帧。
另一个趋势是在不需要显式运动补偿的情况下,使用递归方法来捕获时空相关性。具体地说,BRCN[190]、[191]采用双向框架,并使用CNN、RNN和con ditional CNN分别对空间、时间和时空依赖性进行建模。类似地,STCN[192]使用深度CNN和双向LSTM[193]来提取空间和时间信息。FRVSR[194]使用先前推断的HR估计,通过两个深cnn以递归的方式重建随后的HR帧。
除了上述工作外,FAST[195]利用压缩算法提取的结构和像素相关性的紧凑描述,将SR结果从一帧传输到相邻帧,并将最新SR算法的速度提高了15倍,性能损失很小(0.2dB)。以及Jo等人。[196]基于每个像素的局部时空邻域生成动态上采样滤波器和HR残差图像,同时避免了显式运动补偿。
基于深度学习的超分辨率算法也被广泛应用于其他领域,并显示出良好的性能。具体地说,RACNN[197]使用SR模型来增强LR图像细节的可辨别性以进行细粒度分类。类似地,感知GAN[198]通过对小对象的超分辨表示来解决小对象检测问题,获得与大对象相似的特性,并且对检测更具鉴别能力。FSR-GAN[199]在特征空间而不是像素空间中对小尺寸图像进行超分辨率分解,从而将原始差分特征转化为高分辨特征,极大地提高了图像检索的效率。此外,Dai等人。[7]验证了SR技术在边缘检测、语义分割、数字和场景识别等视觉应用中的有效性和实用性。Huang等人。[200]开发专门用于超分辨率遥感图像的RS-DRL。以及Jeon等人。[201]利用立体图像中的视差先验,以亚像素级的配准精度重建HR图像。
近年来,基于深度学习的图像超分辨率技术取得了突破性进展。本文综述了近年来随着深度学习在图像超分辨率方面的研究进展。主要讨论了有监督超分辨率和无监督超分辨率的改进,并介绍了一些特定领域的应用。尽管取得了巨大的成功,但仍有许多问题没有解决。在这一部分中,我们将明确指出这些问题,并介绍未来发展的一些研究趋势。希望通过本次调查,不仅能更好地了解图像的超分辨率特性,而且有助于今后该领域的研究和应用发展。
良好的网络设计不仅确定了一个性能上界很高的假设空间,而且有助于在不需要过多空间和计算冗余的情况下有效地学习数据表示。下面我们将介绍一些有希望的网络改进方向。
结合本地和全球信息。大的接受域提供了更多的上下文信息,有助于生成更真实的HR图像。将局部和全局信息结合起来,为超分辨率提供不同尺度的上下文信息是很有前途的。
结合低层次和高层次的信息。深层cnn中的浅层倾向于提取颜色和边缘等低级特征,而深层则提取对象身份等高级表示。因此,将底层细节与高层抽象语义结合起来,可以对HR资源重构起到很大的帮助。
上下文特定注意。不同的上下文关注SR的不同信息。例如,草区域可能更关注颜色和纹理,而动物身体区域可能更关注毛发细节。因此,运用注意机制挖掘语境信息,增强对关键特征的注意,有助于真实细节的生成。
轻量级架构。现有的SR模式倾向于追求最终性能,而忽略了模型的大小和推理速度。例如,对于Titan GTX上的DIV2K[44]的每幅图像,EDSR[33]为4×SR取20s,而DBPN[61]为8×SR[87]取35s。如此长的预测时间在实际应用中是不可接受的,因此轻量级体系结构势在必行。如何在保持性能的同时减小模型的规模并加快预测速度仍然是一个问题。
上采样层。虽然上采样操作对超分辨率起着非常重要的作用,但是现有的方法(SEC)。3.2)或多或少的缺点是:基于插值的方法计算量大,无法端到端学习,转置卷积产生棋盘状伪影,亚像素层导致接收场分布不均匀。因此,如何实现高效的上采样仍然需要研究,特别是在高标度系数的情况下。
除了良好的假设空间外,还需要稳健的学习策略来获得令人满意的结果。接下来我们将介绍一些有前途的学习策略方向。
损失函数。现有的损失函数可以被认为是建立LR/HR/SR图像之间的约束,并基于这些约束是否满足来指导优化。在实践中,这些损失函数往往是加权组合的,而SR的最佳损失函数仍不清楚。因此,探索这些图像之间的潜在相关性,寻找更精确的损失函数是最有前途的方向之一。
正常化。尽管BN在视觉任务中得到了广泛的应用,这大大加快了训练速度,提高了性能,但它在超分辨率方面被证明是次优的[33]、[34]、[142]。因此,还需要研究其它有效的SR归一化技术。
评价指标是机器学习最基本的组成部分之一。如果度量标准不能准确地度量模型性能,研究人员将很难验证改进。超分辨率指标面临着这样的挑战,需要更多的探索。
更准确的指标。用于超分辨率的最广泛的度量是PSNR和SSIM。然而,峰值信噪比往往会导致过度平滑,结果往往在几乎无法区分的图像之间变化很大。SSIM[62]从亮度、对比度和结构方面进行评估,但仍然无法准确测量图像的感知质量[10],[27]。此外,MOS最接近人的视觉反应,但需要耗费大量的人力和精力,且不可再生。因此,迫切需要更准确的重建质量评价指标。
盲IQA法。目前,用于SR的大多数指标都是参考方法,即假设我们已将具有完美质量的LR-HR图像配对。但由于获取这些数据集比较困难,常用的评价数据集往往采用人工降级的方式进行。在这种情况下,我们执行评估的任务实际上是预定义降级的逆过程。因此,发展盲IQA方法也有很大的要求。
如第2节所述。4、同一场景不同分辨率的图像往往很难采集,因此双三次插值在SR数据集的构造中得到了广泛的应用。然而,在这些数据集上训练的SR模型可能只学习预定义退化的逆过程。因此,如何实现无监督的超分辨率(即在没有成对LR-HR图像的数据集上进行训练)是一个很有前途的发展方向。
在现实世界中,图像的超分辨率是非常有限的,例如遭受未知的退化因子、丢失成对的LR-HR图像等。下面我们将介绍一些现实世界场景的方向。
处理各种退化。现实世界中的图像往往会出现未知的退化现象,如加性噪声、压缩伪影和模糊等,因此在实际场景中,人工退化训练的模型往往表现得很差。已有文献[41]、[126]、[128]、[144]提出了一些解决这一问题的方法,但这些方法都有一些固有的缺点,如训练难度大、假设过于完美等。这个问题急需解决。
特定于域的应用程序。超分辨率不仅可以直接用于特定领域的数据和场景,而且对其他视觉任务也有很大的帮助(秒)。5条)。因此,将SR技术应用于视频监控、人脸识别、目标跟踪、医学成像、场景渲染等领域,也是一个很有前途的方向。
多尺度超分辨率。大多数现有的SR模型的每一个SR与固定缩放因子,但在现实世界场景中,我们经常需要执行SR与任意缩放因子。因此,发展一个具有多尺度超分辨率的单一模型也是一个潜在的方向。