基于深度学习的单图超分辨

本文为 AI 研习社社区用户 @月本诚 独家投稿内容,欢迎扫描底部社区名片访问 @月本诚 的主页,查看更多动态。

阅读提示:本文约12800字/58图,建议阅读时间:37分钟。

放大的艺术 | 基于深度学习的单图超分辨

“放大的艺术 —— 细节决定成败”

超分辨(Super-Resolution)是一种用来提升图像或视频分辨率的技术,它能利用低清图像生成尽可能自然、逼真的高清图像。超分辨技术可用来解决图像增强、视频传输等问题,具有广阔的应用前景。超分辨技术可大致分为 a)基于插值的方法 b)基于重构的方法 c)基于学习的方法。其中基于监督式深度学习的超分辨方法是目前学习法中效果最好的一类,本文主要介绍这类方法近年来的主要进展,对一些代表性的方法进行说明和总结,以让读者有一个整体的认识。

一、定义超分辨问题

  • 监督式超分辨

我们将超分辨看做一个监督学习问题,并将其表示为从低清图像到高清图像的映射,即:

其中

分别表示低清图像与超分图像,

表示超分模型,

为模型中的参数。

基于深度学习的单图超分辨_第1张图片

图1. 超分辨模型即为低清图像到图像的映射

模型的学习目标是最小化超分图像与高清图像

的误差,即:

其中

为损失函数,

为正则项,

为惩罚系数。由于固有的信息缺失,低清图像对应的高清图像不唯一,所以往往用先验或正则项对模型参数加以约束。

  • 降级模型

要训练监督式超分辨模型的第一个问题是:如何获得“低清-高清”样本对?事实上,我们只能通过将任意一张图片当做高清图像然后将其缩小成低清图像的方式制作训练样本对,而反过来就无法做到,因为任意一张图片对应的“真实”高清图像是未知的(比如手机拍照得到的“普清”图片不存在“真实”的高清图像)。为此,我们必须先通过某种方式生成低清图像,生成低清图像的过程在超分辨的研究文献中被称为降级(Degradation),可用如下公式表示:

其中

表示降级映射,

为模型中的参数。将上式代入超分辨模型,可得:

可以发现,其实超分就是是降级的反过程,当超分图像

越来越接近高清图像

时,超分模型就会越来越接近降级模型的反函数。所以说,有什么样的降级模型假设,就会习得什么样的超分模型,降级模型的假设越贴近真实场景,习得的超分模型的效果就越好。

然而实际问题中的降级过程是非常复杂的,它会受散焦、压缩失真、传感器噪声、噪点等诸多因素的影响。现有降级模型假设有两种,第一种模型将降级过程简单的描述成下采样:

式中的

表示下采样操作,

表示下采样的倍数,为了简化问题,大多数超分模型都采用了这样的假设。而另一种模型更加复杂,它将模糊与噪声纳入考虑:

其中

表示卷积,

为卷积核,

为加性噪声,该模型假设低清图像由高清图像经过加模糊(用卷积来建模表示)、下采样和加噪(假设为加性噪声)操作后得出,这种假设更具广泛性,也更贴近实际情况。

基于深度学习的单图超分辨_第2张图片

图2. 考虑模糊与噪声的降级模型

二、如何评价超分图像的质量

超分辨的目的是生成与高清图像尽可能相同的图像,所以如何评价超分图像与高清图像的相似度是一个至关重要的问题。这里笔者列出最常用的三种评价方法,包括两种客观的评价方法和一种人为的主观评价方法。客观量化指标可以根据数据自动计算,但它不一定能较好的反映图像视觉质量;人为的主观评分会有一些统计偏差的问题,但是在志愿者数量足够的情况下能够更好的反映图像视觉质量。

  • 峰值信噪比

峰值信噪比PSNR(Peek Signal-to-Noise Ratio)是评价图像重构质量的常用指标之一,广泛应用于图像压缩、图像修复等任务。在超分辨场景下,PSNR(单位为dB)可由像素点取值范围的上界值

和图像间的MSE误差表示,即:

基于深度学习的单图超分辨_第3张图片

其中

表示高清图像的第

个像素,

为像素点的总数。以灰度图为例,像素值由一个字节即8位二进制表示,其最高取值为

,此时PSNR值一般在20dB到40dB之间浮动。可以发现,当

固定时PSNR指标是关于MSE误差的固定函数,它衡量的只是两个图像之间的平均像素误差,无法有效的反映图像之间的感知差异(即看起来是否足够真实),这降低了它在实际应用中的参考价值。但即使如此,由于目前还没有更好的视觉感知质量度量方法,PSNR指标依然是超分辨领域内使用最频繁的评价指标。

  • 结构相似度

受启发于人类视觉系统善于捕获结构信息的特点,研究者们提出了结构相似度指数SSIM(Structure Similarity Index)。SSIM通过计算两个图像在亮度、对比度和结构三个方面的相似度综合得出整体的相似度。其中,图像的亮度和对比度分别由像素点亮度的均值和方差表示,它们的相似度计算方式相同。图像的结构由归一化的像素点

的集合表示,图像间的结构相似度则通过内积计算。SSIM中各项指标的计算公式如下:

基于深度学习的单图超分辨_第4张图片

图3. SSIM指标计算的相关公式

公式中的

是为了防止数值计算不稳定而添加的常数,在理解相似度度量原理时可先忽略。最终的SSIM指标由三个子项相似度做幂积得出,其中的

均为超参数,一般情况通通取1,此时便得出了SSIM最常用的计算公式。SSIM在一定程度上反映了图像的视觉质量,更符合图像质量评估的需求,因此在超分辨模型中得到了广泛的应用。

  • 意见平均分

意见平均分MOS(Mean Opinion Score)是超分领域最常见的主观评价方法,其实就是我们常见的评分机制。该方法要求志愿者为模型生成的超分图像的质量打分(比如从1分到5分),并将所有志愿者分数的算数平均分作为一个模型最终评分。评分机制有一些固有的问题,比如每个人的鉴别能力、评价标准都不一样,不同人给同样一张图片打出的分数也很有可能不同。然而对研究人员来说,在评分人数足够的情况下,它确实是一个可信的方法,甚至是最好的办法。因为这个评分并不像电影评分这种事情那么随意和主观(掺杂着个人喜好与审美),不是大街上随便找几个人就能评的,如果评分的志愿者认真参与的话,我认为这种方法是足够可信的。

三、超分辨网络结构设计

自从2014年汤晓鸥团队发表第一篇使用CNN进行超分辨的文章以来,基于深度学习的超分辨方法开始井喷式发展,新模型层出不穷。以下我们先对各种网络进行简单的分类,然后介绍超分辨网络中的核心组件:上采样操作,最后介绍几个具有代表性的模型,通过简析它们的架构设计理念与设计技巧,展示主流超分辨网络的演进过程。

  • 超分辨网络分类

上采样是超分辨方法中的核心操作,虽然各种超分辨模型的架构差异很大,但是可以根据上采样策略将它们归为以下4类:

基于深度学习的单图超分辨_第5张图片

图4. 超分辨网络的4种类型

预上采样模型在一开始就使用固定的上采样操作将低清图像放大至目标尺寸,然后将其输入网络学习模糊图像到清晰图像的映射。将上采样变成一个固定的数据预处理操作的好处是网络本身无需考虑输入输出尺寸不匹配的问题,简化了建模过程,并且习得的模型可用于任意倍数的超分辨(上采样操作固定)。但缺点是所有的计算都在高维空间中进行,增加了网络的计算复杂度,并且固定的上采样过程本身也会产生一些虚假纹理,从而干扰网络的学习。

在后上采样模型中,上采样层被置于网络末端用来产生输出图像,并带有可学习参数。这样做不仅可以让网络能够自适应的学习上采样过程,还能让特征提取过程在低维空间上进行,极大的降低计算负担。然而,当超分辨的上采样倍数较大时,过多的信息缺失可能会使单个上采样层不堪重负,学习难度快速升高。此外,由于上采样操作不固定,所以这种方法不能适应不同的放大倍数,要为每一种放大倍数重新训练一次模型,很不方便。

逐步上采样模型通过多次上采样逐步获得目标尺寸的超分辨图像,这种设计不仅能降低学习难度,还能从一定程度上兼容不同的放大倍数。此外,这种多阶段学习的网络结构设计可以结合一些特定的学习方法(诸如课程学习、多监督学习)进一步降低学习难度。但即使如此,由于架构的复杂性,此类模型的训练难度依然较高。

交替式上下采样模型是一种较新出现的设计架构,它能够挖掘低清图像与高清图像之间的相互依赖关系,实验证明这样的设计确实能够得到更好的超分效果,但是它的上/下采样层的结构非常复杂,设计准则尚不明确,还需要进一步的研究和探索。

  • 上采样方法

上采样是超分辨网络设计中的关键一环,主要分为基于插值的方法和基于学习的方法。常用的插值法有以下三种:

  1. 最近邻插值 (Nearest Neibor): 使用中心像素块填充满插值空隙
  2. 双线性插值 (Bilinear): 在横竖两个方向上进行线性插值
  3. 双三次插值 (Bicubic): 在横竖两个方向上进行三次插值

其中双向插值的过程如下图所示,:

基于深度学习的单图超分辨_第6张图片

图5. 双向插值的过程

图中的蓝点表示原始像素,黄点由横向插值生成,绿点由纵向插值生成。插值时先进行横向插值再进行纵向插值,双线性插值和双三次插值的过程均如此,只是使用的插值函数不同。

基于插值的上采样方法是一个固定运算,而基于学习的上采样方法将使用带权重的网络层来学习上采样过程。当今应用最广泛的两种上采样层为反卷积层(Deconvolution Layer)和亚像素层(Sub-Pixel Layer),它们的运算过程如下图所示:

基于深度学习的单图超分辨_第7张图片

图6. 两种上采样层的区别

反卷积层与普通卷积相比只是多了像素扩展的步骤,在原始像素周围填充足够数量的0可以保证卷积得到的特征图的尺寸符合放大倍数要求。反卷积层由于其余原始卷积的兼容性而被广泛应用,但反卷积层具有“非均匀重叠效应”,这会导致生成图像带有典型的棋盘纹理,使生成效果变差。

亚像素层使用多个卷积核直接在原始图像上(带padding)做卷积,然后将得到的多个特征图进行重排列合成出一张更大的图像,这要求特征图的数量必须是放大倍数的平方。可以发现,亚像素层输出特征图的最大有效感受野为9,信息利用率比反卷积层更高(最大感受野为4)。但一个重构块(灰色虚线标识的块)内的所有像素共享相同的感受域,这可能会导致各块的边界处产生不自然的纹理。

  • 经典模型介绍

有了以上这些充足的知识准备,我们便可以较为容易地理解一众超分辨模型了。现如今,除了数量最多的单帧超分辨(单张低清图像输入)模型外,还出现了多帧超分辨(多张低清图像输入)和带参考图像的超分辨(额外输入内容相关的高清图像)模型。这两类新模型也非常有趣,但本文的重点是单帧超分辨模型,对其他模型感兴趣的读者可以阅读文末的相关文献进行深入了解。下表整理列出了本章要介绍的所有模型,读者可按需阅读。

表1. 十个经典的超分辨网络

基于深度学习的单图超分辨_第8张图片

第一阶段:单链路浅层网络

SRCNN

SRCNN是深度学习超分辨的开山之作,发表于2014年,此时AlexNet问世才2年,Tensorflow也还没有发布,深度学习的发展远不如现在这么繁荣。作者将超分过程抽象为1) 图像块抽取与表征 2) 非线性映射 3) 重构 三个步骤,每个步骤都可以用卷积来表示,从而组成了简洁的三层卷积结构。网络使用插值后的低清图像作为输入,第一个卷积层密集地抽取9x9的低清图像块(patch)并将每一个图像块表示成64维的特征向量,即低清表征;第二个卷积层利用一组(5x5个)低清特征向量生成一个高清像素的特征向量(32维),即完成低清表征到高清表征的非线性映射;第三个卷积层使用一组(5x5个)高清特征向量重构出一个高清像素,即利用特征重构图像。值得注意的是,为了避免边际效应,SRCNN中的卷积没有使用Padding,导致最后生成的图像尺寸变小, 所以在评估性能时只使用了高清图像的中心部分。

基于深度学习的单图超分辨_第9张图片

图7. SRCNN结构图

SRCNN的设计初衷并不是简单的套用CNN,而是归纳整合先前的超分辨研究成果。作者在原文中揭示了基于稀疏表示的超分辨方法与SRCNN的内在联系,并表示前者可以被解释为一种特定的卷积网络,这充分印证了CNN应用于超分辨任务的合理性与灵活性。

FSRCNN

FSRCNN(Faster SRCNN)和SRCNN的都出自汤晓鸥团队,它延用了SRCNN的三步超分步骤,但是对各个环节做了优化,如下图:

基于深度学习的单图超分辨_第10张图片

图8. FSRCNN结构图

首先FSRCNN采用后上采样策略并使用反卷积层重构图像,这使特征提取与非线性映射在原始的低清图像上进行,降低了计算复杂度。其次,FSRNN将非线性映射扩展成“收缩-映射-扩张”三步,在映射前使用1x1的卷积进行收缩降维,在映射后再通过多个1x1卷积核扩张维度,目的是降低映射过程的参数量与复杂度。第三,FSRCNN使用多个小尺寸卷积替代原来的单层大尺寸卷积,在提高感受野同时也降低了计算复杂度(两个3x3卷积与一个5x5卷积的感受野大小相同但是总参数量更小)。这一系列改进优化使FSRCNN不仅获得了40倍的速度提升,还能生成质量更高的图片。

ESPCN

前文介绍的亚像素卷积层正是在ESPCN(Efficient Sub-Pixel Convolution Network)模型中首次提出,该网络由两个普通卷积层和一个亚像素卷积层组成,其结构如下。

基于深度学习的单图超分辨_第11张图片

图9. ESPCN结构图

相比SRCNN,ESPCN不仅速度快而且效果更好,这得益于亚像素卷积层和后上采样策略。

第二阶段:多链路深层网络

2015年,何恺明等人提出的残差网络ResNet在解决深层网络难以训练的问题上大获成功,ResNet包揽了2015年ImageNet三项视觉识别竞赛的冠军,并摘得CVPR2016最佳论文奖,对后续研究产生了重大影响。此后的网络设计越来越多的利用残差学习使网络加深。本小节介绍的网络不只有一条前向的反馈链路,并且它们比之前的网络更深,笔者此处将这两个特性综合起来称之为多链路深层网络。

VDSR

VDSR(Very Deep Super Resolution Network)指出低清图像与高清图像相似度高,直接学习两者间的映射会引入大量的冗余计算,其实低清图像与高清图像的主要差别在于高频部分,所以只需学习二者之间的高频残差即可,这就自然的引入了残差学习。VDSR的网络结构如下所示:

基于深度学习的单图超分辨_第12张图片

图10. VDSR结构图

网络用深达20层的卷积网络学习插值后的低清图像与高清图像之间的残差,并在最后一层将残差与低清图像相加得到输出。为了保证图像的大小始终与高清图像保持一致,每个卷积层都使用了等大小填充(Same Padding)。虽然SRCNN的作者声称像素填充可能会导致边际效应,但在VDSR的验证实验中像素填充表现很好。此外,VDSR在训练时为同一高清图像准备了不同缩放倍率的低清图像,并发现这种训练方式学出的VDSR模型具备了多倍率超分辨的能力,其多倍率超分效果比固定倍率训练得出的SRCNN模型的效果还要好,如图所示(上侧是VDSR的超分结果,下侧是不同缩放级别SRCNN的超分结果):

基于深度学习的单图超分辨_第13张图片

图11. VDSR多级超分辨效果与SRCNN对比

DRCN

DRCN(Deep Recursive Convolutional Network)与VDSR同年发表,它们都是首尔国立大学计算机视觉实验室的工作,二者的性能表现也十分相近。DRCN分为嵌入部分、推断部分以及重构部分,与SRCNN的三个步骤对应,如下图所示。

基于深度学习的单图超分辨_第14张图片

图12. DRCN网络结构

嵌入部分的作用是从低清图像抽取特征。推断部分与SRCNN中的非线性映射部分等价,它是一个递归的卷积网络结构。而重构部分则将利用输入图像与每一次递归的输出特征图重构出高分辨图像。网络的展开形式如下:

基于深度学习的单图超分辨_第15张图片

图13. 展开后的DRCN网络

其中递归部分相当于卷积核共享的多层卷积网络,递归多少次意味着将相同的卷积运算重复多少次(图中为D次),它的重点在于每次递归时使用的卷积核相同。作者在分析前人的研究工作时发现,训练好的超分辨网络中多个非线性映射层之间的卷积核十分相似,这个现象使它们产生了在每一步非线性映射中使用相同卷积核的想法,并使用递归结构来实现。这样的递归结构设计使网络在保持足够深度的同时减少了大量参数。在重构部分中,网络先将低清图像与各级递归输出相加得到不同递归级别的重构图像,然后对各级重构图像进行加权平均得到最终的输出。由于递归网络的学习难度较大,作者专门设计了递归监督(Recursive-Supervision)式的损失函数避免训练中的梯度消失/爆炸问题。 总的来说,DRCN利用深层递归网络学习低清图像与高清图像间的残差,然后将低清图像与各级残差相加得到各级重构结果,最后对各级重构结果进行加权得到目标图像。

DRRN

沿着残差学习和递归学习的成功道路,DRRN进一步玩出了残差学习与递归学习的新花样,它与上文提到的几种模型的对比如下:

基于深度学习的单图超分辨_第16张图片

图14. DRRN与其它模型的结构对比

图(a)是ResNet的简化网络结构,它的残差结构是局部的,绿色虚线框表示残差单元。图(b)是VDSR的网络结构,紫色的线表示全局跳跃连接,它的残差结构是全局的。图(c)是DRCN的网络结构,蓝色虚线框表示递归块,同为绿色的卷积块间的参数共享,它是全局残差+递归+加权集成的结构。图(d)是DRRN的网络结构,红色的虚线框表示递归块,颜色相同的卷积层共享参数,它是多路径局部残差+全局残差+递归的结构。简单来说,DRRN是对前人的网络架构进行了有机结合,它达到了52层的深度,用更少的参数实现了更好的性能。

SRDenseNet

窃以为,ResNet的跳跃连接设计的成功促进了研究者们对于网络连接方式多样性的探索。以稠密连接为特色的DenseNet斩获了2017年CVPR最佳论文,DenseNet的稠密块(dense block)中各层的特征都会输入到后续的所有层,将所有层的特征都拼接(concatenate)起来,而不是像ResNet那样直接相加。这种结构能加强特征传播并缓解梯度消失/爆炸问题,同时特征在所有层的复用能够有效减少参数量。SRDenseNet将稠密连接应用到了超分辨率网络上,取得了不错的效果,其网络结构如下图:

基于深度学习的单图超分辨_第17张图片

图15. SRDenseNet的三种结构

SRDenseNet采用后上采样策略,前向传播过程分为4步:第1步使用一个卷积层提取低层特征;第2步使用多个稠密学习高层特征;第3步使用反卷积层进行上采样;第4步使用一个卷积层重构高清图像。根据上采样输入特征的不同,作者设计了图中的(a)、(b)、(c)3种结构,从上到下输入反卷积层的特征越来越多。(b)中多添加了从第一个卷积层到反卷积层的跳跃连接,将最底层卷积的输出特征与最顶层稠密块的输出特征拼接起来,再输入反卷积层。(c)中添加了稠密跳跃连接,将第一个卷积层的输出和每个稠密块的输出都输入之后的所有稠密块,使得反卷积层之前的所有层的连接都稠密化。这种设计使反卷积层输入的特征数量巨大,计算开销飙升,为此作者在反卷积层之间添加了一个1×1的卷积层来降低特征数量,称之为瓶颈层。实验结果表明网络“越稠密”越好,即(c)>(b)>(a),这充分表明不同级别特征的组合有利于超分辨率重建性能的提升。

LapSRN

大倍率(比如8倍)的超分辨在SISR领域内一直是个极具挑战性的问题,图像重构的难度因为细节信息的严重缺失而加大。为了解决这个问题,LapSRN(Laplacian Pyramid Super Resolution Network)采用逐步上采样策略进行超分辨。拉普拉斯金字塔是2008年提出的一种图像表征方法,LapSR的架构设计与拉普拉斯金字塔的图像融合过程十分相像,如下图

图16. LapSRN的网络结构

图中的红色箭头表示卷积运算,蓝色箭头表示反卷积运算,绿色箭头表示逐元素加法运算。LapSRN网络由特征提取分支和图像重构分支组成,前者负责学习高频残差,后者负责重构图像。两个分支都采用逐步上采样的结构,每次上采样的倍率都为2,每一级都通过将上采样后的低清图像与高频残差相加进行图像重构。由于尺寸放大是渐进式的,不是所有的操作都在大尺寸特征上进行,因此速度比较快。作者结合多级监督与Charbonnier惩罚函数(L1范数的变形)为LapSRN设计了有效的训练方案,取得了较为理想的效果。此外,由于LapSRN是逐级放大的,所以可以提取大倍率模型的中间重构结果作为小倍率的超分图像,实现多级别超分辨。

SRGAN

SRGAN首次将对抗训练应用到图像超分辨,并发现使用对抗训练生成的图像更加逼真、自然。具体地、SRGAN由生成器和判别器两部分组成,其生成器是一个超分辨网络,作者称之为SRResNet,而判别器是一个简单的二分类网络,用来判断生成器生成的图片是否为真实高清图像,如下图。

基于深度学习的单图超分辨_第18张图片

图17. SRGAN的生成器与判别器

其中SRResNet是一个结合局部残差+全局残差设计的深度残差网络,采用后上采样策略,图中的PixelShuffle指的是亚像素卷积层。判别器含有8个卷积层与2个全连接层,每一层的卷积核数量以2的倍数增长。实验发现,单独训练的SRResNet模型生成的图像具有更高的PSNR,但是视觉效果不如对抗训练得到的模型。值得注意的是,作者在训练SRResNet时提出了一种新的基于VGG网络的内容损失:

其中i和j表示VGG19网络中第i个最大池化层后的第j个卷积层得到的特征,

分别表示特征图的宽度和高度。其实就是使用预训练好的VGG网络提取图像的特征,然后计算图像特征之间的误差而不是原始像素点之间的误差,这种损失能够更好地衡量图像之间的结构相似度,更加鲁棒。采用对抗训练时的对抗损失为:

其中D和G分别代表判别器(Discriminator)和生成器(Generator)。最终的损失函数由内容损失和对抗损失组成,作者将其统称为感知损失,即:

其中内容损失(第一项)可以是基于MSE的损失函数,也可以是基于VGG的损失函数。最终的实验结果表明,基于VGG的损失比基于MSE的损失能够得到更逼真、自然的纹理细节。SRGAN的成功使对抗损失与VGG损失被广泛采用,成为提升超分辨性能的常用技巧。

DBPN

不同于以上所有架构,DBPN(Deep Back Projection Network)强调了从高清图像到低清图像映射的重要性,作者认为“低清->高清”映射与“高清->低清”映射之间是有关联的,利用这种关联可以进一步的约束搜索空间,提升超分辨性能。DBPN使用迭代式上下采样提供超分辨的错误反馈机制,网络使用的投射单元结构如下:

基于深度学习的单图超分辨_第19张图片

图18. DBPN中两种投射单元的结构图

以上采样投射单元为例,如果删去红色虚线框的部分,则该单元相当于普通的反卷积层。再来看红色框部分,该部分将上采样后的“原始版本”缩小后与低清图像输入相减,得到下采样映射的误差,然后再将这个误差放大,并将其与原始上采样版本相加(进行错误修正)得到最终的上采样结果。可以发现,该单元设计的核心思路就是利用下采样的误差修正上采样结果,确实利用了上下采样之间的关联性。下采样投射单元与上采样投射单元类似,只是将卷积层与反卷积层反过来用而已,此处不再赘述。DBPN的整体网络结构如下:

基于深度学习的单图超分辨_第20张图片

图19. DBPN网络结构图

网络分为初始特征提取、反向投射和重构三部分。为了防止投射部分的参数量过大,作者在初始特征提取部分添加了一个1x1卷积来提前减少参数。反向投射部分首先由上采样投射和下采样投射交替连接,每一层的输出都会拼接到后续的所有层(每一个投射单元之前都添加一个1x1的卷积层来减少参数)。最后,重构部分利用所有的上采样特征图生成目标图像。实验证明,DBPN在大倍率超分辨问题上是非常有效的,它以优异的8倍超分辨性能斩获了2018年NTIRE超分辨比赛的冠军。

性能对比

最后,用一张表格来直观的感受下以上众多模型的性能差异。

表2. 各模型在不同数据集/不同缩放倍率下的性能表现

基于深度学习的单图超分辨_第21张图片

四、总结与启发

超分辨是个十分活跃的研究领域,每年都有数篇顶级论文发布,本文盘点了18年及之前的经典方法,梳理了超分辨问题研究的发展思路。从方法层面看,超分辨网络架构的演进离不开深度学习技术的发展。残差学习、递归学习、稠密连接、GAN等深度学习的最新技术都在超分辨问题上得到了应用且卓有成效。网络架构的发展趋势是不断加深,但同时也通过各种手段来控制网络的参数量。现有的方法已经能够在8倍以内的超分辨问题上取得不错的效果。但是,太多的方法只关注提高性能而忽略了对其他重要问题的探索。还有以下几个重要的问题需要进一步探索和解决:

  1. 设计轻量级的网络:看起来前沿的超分辨方法在性能上大踏步前进,但是在落地应用上却步履蹒跚。轻量级架构、低计算复杂度对超分辨落地应用的重要性不言而喻。轻量、高效的超分辨网络不仅能推动图像超分辨的应用,还能促进视频超分辨研究的发展。
  2. 高倍率超分与降级模型兼容:高倍率放大(>=8倍)和降级模型兼容依然是超分辨领域的两大难题。现有的方法大都采用简单的下采样降级假设,没有考虑模糊核噪声等复杂的影响因素,离实际应用还有较大的距离。由于信息缺失严重,高倍率放大问题难以有效解决。
  3. 关于超分辨网络的理论解释: 虽然基于深度学习的超分辨方法取得了很好的效果,但是我们对于它的工作原理知之甚少,对它的解释只停留在在“表征学习”的阶段。关于这些超分辨网络学到了什么样的表征,为什么这样的表征能够帮助超分辨,还需要进一步的研究,这将有利于后续的研究。
  4. 设计合理、个性化的目标函数: 从前文的表格就可以发现,绝大多数模型都使用MSE误差,将每个像素点一视同仁。但事实上,不同问题场景下各像素点的重要程度肯定是不一样的,我们需要为特定任务定制更加合理的目标函数。对抗损失和VGG损失可以看做是一种尝试,但是它们的解释性是大问题。如果能为超分辨问题提出一系列定义明确、概念契合的指标,会大有裨益。

五、相关文献

3篇博文:2019年最新进展

  • 超分辨CVPR2019论文大盘点(http://bbs.cvmart.net/topics/452/cvpr-2019-lun-wen-da-pan-dian-chao-fen-bian-lv-pian)
  • CVPR 2019 | 步步为营!通过迭代式模糊核预测提高超分辨质量(https://ai.yanxishe.com/page/postDetail/13653)
  • CVPR 2019 | 基于多级神经纹理迁移的图像超分辨方法(https://ai.yanxishe.com/page/postDetail/11551)

2篇综述:深度学习超分辨

  • Yang W, Zhang X, Tian Y, et al. Deep learning for single image super-resolution: A brief review[J]. IEEE Transactions on Multimedia, 2019.
  • Wang Z, Chen J, Hoi S C H. Deep learning for image super-resolution: A survey[J]. arXiv preprint arXiv:1902.06068, 2019.

10个模型:从SRCNN到DBPN

  • Dong C, Loy C C, He K, et al. Image super-resolution using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 38(2): 295-307. (SRCNN)
  • Dong C, Loy C C, Tang X. Accelerating the super-resolution convolutional neural network[C]. European conference on computer vision. Springer, Cham, 2016: 391-407. (FSRCNN)
  • Shi W, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1874-1883. (ESPCN)
  • Kim J, Kwon Lee J, Mu Lee K. Accurate image super-resolution using very deep convolutional networks[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1646-1654. (VDSR)
  • Kim J, Kwon Lee J, Mu Lee K. Deeply-recursive convolutional network for image super-resolution[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1637-1645. (DRCN)
  • Tai Y, Yang J, Liu X. Image super-resolution via deep recursive residual network[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 3147-3155. (DRRN)
  • Lai W S, Huang J B, Ahuja N, et al. Deep laplacian pyramid networks for fast and accurate super-resolution[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 624-632. (LapSRN)
  • Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4681-4690. (SRGAN)
  • Tong T, Li G, Liu X, et al. Image super-resolution using dense skip connections[C]. Proceedings of the IEEE International Conference on Computer Vision. 2017: 4799-4807. (SRDenseNet)
  • Haris M, Shakhnarovich G, Ukita N. Deep back-projection networks for super-resolution[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1664-1673. (DBPN)

@月本诚 2019.8.20

你可能感兴趣的:(画质增强)