A Deep Journey into Super-resolution: A Survey阅读

摘要

作者探索比较30+种基于CNN的单帧超分辨率方法,并且在3+种经典的数据集上测试比较。将现有方法分九类:linear、residual、multi-branch、recursive、progressive、attention-based、adversarial designs。同时从模型复杂度、内存占用、输入和输出、学习细节、网络损失类型、及结构重要差异(depth、skip-connections、filters)上分析比较。
作者评价使用的datasets和codes(https://github.com/saeed-anwar/SRsurvey)。

引言

SR不仅在大型计算机显示器、高清电视机、手持设备(手机、平板、相机)等设备上至关重要,同时在目标检测(小目标)、监控录像人脸识别、医疗图像、遥感图像、天文图像、及取证领域有着重要性。
SR方法主要分traditional和deep learning方法。深度学习是机器学习分支,旨在数据间自动学习输入和输出关系。该篇论文作者主要分析总结单帧自然图像SR方法。关于SR有以下几点:
1. SR是ill-posed inverse problem 。为约束可解空间,可靠的先验信息至关重要;
2. 随着超分倍数的增加,复杂度增加。对越高的放大因子,丢失的场景细节的恢复会变得更加复杂,因此往往会导致错误信息的复制;
3. SR输出结果图的评判指标PSNR、SSIM与人的自我感知存在一定差异。

背景

LR(x)和HR(y)图像之间degradation可以如下表示:
Alt
SR即减少degradation影响,恢复近似真实图像: Alt
实际上,degradation是未知,且相当复杂。因此,在大多研究中,更喜欢如下degradation模型替代:
Alt
SR的目标,最小化data fidelity term。参数alpha是balancing factor,data fidelity term和image prior.
A Deep Journey into Super-resolution: A Survey阅读_第1张图片
作者主要探讨利用DNN学习先验知识的SR方法。

SISR

A Deep Journey into Super-resolution: A Survey阅读_第2张图片

  1. Linear networks
    无任何skip connections, or multiple-branches.代表有:
  • [SRCNN] (利用上采样操作bicubic插值,进而学习hierarchical特征表示)—基于DL的超分开创性工作。结构:卷积层(except the last conv)+ReLU,总共3conv+2ReLU. 第一个conv layer称作patch extraction or feature extraction,从输入图创建特征映射;第二个conv layer称作非线性映射,将特征映射转换为高维特征向量;第三个conv layer聚集特征映射到输出HR图。损失项为MSE.
  • [VDSR] 区别于浅层网络结构方法SRCNN、FSRCNN,Very deep super-resolution基于deep CNN。类似于VGG-net,使用fixed-size卷积层(3x3)。为避免收敛缓慢问题,提出两种有效策略:第一,学习residual mapping生成HR&LR间差异,而不是直接生成HR。降低目标难度,同时,让网络更集中高频信息。第二,gradient裁剪到[-theta, +theta],允许高速学习,从而加快训练速度。VDSR证明了深度网络可以提供更多的上下文,更好学习用于多尺度SR重建表示。
  • [DnCNN] 学习residual image(difference of LR and HR)高频信息。其结构类似SRCNN,由conv, batch normal, and ReLU组成。由于batch normal加入,其计算耗时。
  • [IRCNN] Image Restoration CNN,基于CNN提出的降噪方法。由7个扩展conv, batch normal, 非线性ReLU组成。
    以上,是先对LR上采样,然后学习特征。由于此种方法,对大尺寸及深网络来说,比较耗时。后期,直接在输入LR学习,然后在网络输出处上采样
  • [FSRCNN] 加速了SRCNN方法和提高了SR质量。由 4 conv + upsampling + deconv 组成:feature extraction, shrinking, non-linear mapping, and expansion layers(shrinking逆操作,增加维度). PReLU替代ReLU. 训练过程中,损失项仍是MSE;旋转、翻转、scaling用于数据增强。
  • [ESPCN] efficient sub-pixel convolutional neural network.
  1. Residual networks
    在网络设计中使用skip connections,避免梯度爆炸,同时使深层网络可行。最开始在图像分类中应用,最近使用残差学习提高了SR性能。该类方法,旨在学习残差,即input和GT图像高频信息。可分:single-stage、multi-stage networks.
  • [EDSR ] single stage. 从图像分类ResNet结构中改进而来。每个residual block删除batch normal layer和ReLU(outside residual blocks)得到实质性提高。
  • [CARN] Cascading residual network (single stage).ResNet Blocks学习输入LR和输出HR之间的关系。中间层的特征被级联和聚合到1x1卷积层。local cascading connections + global cascading connections, 由于multi-level representation and many shortcut connections,使信息传播更加有效。损失项:l1;优化:Adam(初始学习率1.0e-4,step 4e+5减半).
    multi-stage Residual Nets: 由multiple subnets组成。first subnet 通常预测coarse特征,其他subnet提高初始预测。
  • [FormResNet] build upon DnCNN, two networks. 第一个网络,包含欧几里得和感知loss;第二个网络’DiffResNet’ 类似DnCNN,第一个网络的输出作为输入,学习structured region.
  • [BTSRN] balanced two-stage residual networks, 由low-resolution stage和high-resolution stage组成。LR stage(six residual blocks),特征映射使用反卷积和最近邻上采样;然后upsampled特征映射输入HR stage(four residual blocks). Adam优化,初始学习率1e-3,每次迭代后以0.6的倍率指数下降。 RB由128维特征映射作为输入,64维作为输出。l2距离作为输出和真实直接差异计算。
  • [REDNet] Residual Encoder Decoder Network,由conv和对称deconv层组成,结构借鉴UNet。每个conv和deconv后,+ReLU。conv提取特征,保留目标结构和消除退化;deconv重建图像缺失的细节。同时,conv和deconv之间增加skip connection.
  1. Recursive networks
  • [DRCN] Deep Recursive Convolutional Network,由3个小网络组成,embedding net: convert 输入(灰度、彩图)为特征映射, inference net:通过conv+ReLU递归式分析图像, reconstruction net.
  • [DRRN] Deep Recursive Residual Network, 52conv。使用标准的SGD优化器进行参数学习;MSE作为loss.
  • [MemNet] a novel persistent memory network for image super-resolution.
  1. Progressive reconstruction designs
    主要处理large scaling factors.
  • [ SCN] sparse coding-based network. 模拟可学习迭代收缩阈值算法(LISTA)网络,构建多层神经网络。类似SRCNN,第一个conv层提取LR块特征,然后fed into LISTA网络。LISTA由2线性层+非线性层,学习和更新激活函数阈值,为简化训练,作者将非线性神经元分解成2线性scaling层(对角矩阵)+阈值单元神经元。LISTA之后,HR块由稀疏编码x 连续线性层的HR字典重建。最后,使用linear层,将HR块置换到原始位置,得到HR输出。
  • [LapSRN] Deep Laplacian pyramid super-resolution network. 放大x8。
  1. Densely Connected Networks
    受图像分类DenseNet结构的启发,提出基于densely connected CNN SR算法。
  • [ SR-DenseNet] 各层之间使用dense connections,即当前层的输入是前面所有层的输出。
  • [RDN] Residual Dense Network,结合residual skip connections 和 dense connections。
  • [D-DBPN] Dense deep back-projection network for super-resolution.
  1. Multi-branch designs
    与linear和skip-connections网络相反,multi-branch网络旨在multiple context scales获取a diverse set of features.
  • [ CNF] Fusing multiple convolutional neural networks for image super-resolution.每个SRCNN由不同层数CNN构建,其输出送入conv,然后通过sum-pooling融合。
  • [CMSC] Cascaded multi-scale cross-network,由特征提取层、级联子网络、重建网络组成。性能相比EDSR及MDSR较差。
  • [IDN] Information Distillation Network,特征提取块(2conv层)、multiple stacked information distillation blocks、重建块(17x17反卷积层)。distillation块:增强单元(6个 conv+leakyReLU)和压缩单元(每个增强块之后,使用1x1conv).
  1. Attention-based Networks
    注意力机制,认为并不是所有特征都是SR必需,且重要性不同。
  • [ SelNet] a novel selection unit for the image SR network. selection unit由identity mapping和ReLU、1x1conv、sigmoid层级联。SelNet总共有22层conv,selection unit添加到每个conv之后。
  • [RCAN] Residual channel attention network,一种深度CNN结构的单帧SR。包括递归式残差设计(每个全局残差网络中设计residual-connetion)、每个局部残差块设计有注意力通道(滤波激活,hxwxc映射到1x1xc维度).
  • [DRLN] densely residual Laplacian attention Network. 该方法主要亮点:模块化结构、残差单元密集连接、级联连接拉普朗斯注意力。DRLN利用不同连接,如long-skips,medium-skips,local-skips alongside the cascaded ones。3个残差单元被紧密连接学习紧凑特征表示,然后使用拉普朗斯注意力给特征加权。
  • [SRRAM] A residual attention module for SR.特征提取、特征尺度化(RAM,残差块、空间和通道注意力组成,学习通道间及内部依赖关系)、特征重建。
  1. Multiple-degradation handling networks
    考虑到实际中,图像的多个退化同时发生,因此只考虑双三次退化,比较局限。
  • [ ZSSR] Zero-Shot Super-resolution.使用简单的网络结构,用测试图像的下采样图训练。ZSSR总共有8conv,及ReLU(64)。
  • [SRMD] SR network for multiple degradations, 考虑concatenate LR图和其退化映射。首先3x3conv层级联提取特征,然后conv+ReLU+BN,最后conv操作提取HR子图像特征,多个HR子图像转换为最终单帧HR。其及变体重建的图PSNR较EDSR、MDSR、CMSC低。
  1. GAN models
    GAN运用博弈论方法,由G和D网络组成。G生成的SR图,D无法区别是真实HR还是人工SR输出。这种方法生成的SR,具有更好感知质量,相应PSNR降低。
  • [SRGAN ] 主要亮点,多任务损失函数:MSE(像素级相似性)、感知相似性(高级图像表示,即深层网络特征,定义距离度量指标)、对抗损失(在G和D中,平衡最小最大博弈)。该框架基本支持高维图像感知相似性的输出。
  • [EnhanceNet] 该方法,在SR输出时,创建了真实的纹理细节,overcome图像过渡平滑。EnhanceNet除使用常规的像素级MSEloss之外,增加:感知loss(以l1距离定义预训练网络中间特征表示)、纹理匹配loss(对深层特征的gram matrices,以l1量化,匹配LR和HR图像纹理).
  • [SRFeat] GAN-based SR algorithm with Feature Discrimination. 亮点是,使用额外的D网络真实地感知输入图像,帮助G生成高频结构特征,而不是噪声伪影。感知(对抗)loss+像素级l2损失。
  • [ESRGAN] Enhanced SR GAN,在SRGAN基础山删除BN,增加dense blocks。

[1]: Anwar S , Khan S , Barnes N . A Deep Journey into Super-resolution: A survey[J]. 2019.

你可能感兴趣的:(SR,计算机视觉,人工智能,深度学习)