Detail-revealing Deep Video Super-resolution 论文笔记

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记


简介

  • 视频超分辨关注的主要问题有两个:一是如何充分利用多帧关联信息,而是如何有效地融合图像细节到高分辨率图像中。
  • 动作补偿方面,深度学习方法用的是backward warping到参考帧,但这个方法其实并不是最优的。多帧融合方面,虽然很多CNN方法可以产生丰富的细节,但不能确定图像细节是来自内部的帧,还是外部的数据。在可缩放性方面,现有的方法对多尺度超分辨都不太灵活,包括ESPCN、VSRnet、VESPCN。
  • 基于现状,作者提出一个sub-pixel motion compensation(SPMC)层,用来有效处理动作补偿和特征图缩放。另外,用一个基于LSTM的框架来处理多帧输入。

Detail-revealing Deep Video Super-resolution 论文笔记_第1张图片

方法

  • 作者提出的框架如图2所示。这个网络主要分成三个部分:motion estimation, motion compensation和detail fusion。

Motion Estimation

  • motion estimation已经相对比较成熟了,方法有Flownet-S和VESPCN中的motion compensation transformer(MCT)。最后作者计划使用MCT。
    image_1bt465gh2hrm1r2vn1hj71cvp2d.png-7.1kB

Motion Compensation

  • motion compensation用的就是SPMC层。首先记LR、HR图像分别为 JL JH 。用公式可以表示为:
    image_1bt4646ra195e1hfd1p47vcgav20.png-7.3kB
  • 之前的模块已经得到帧之间的光流估计 F=(u,v) ,所以可以用Sampling Grid Generator生成格子(如下公式)。其中有一个 α 参数,说明在这一步分辨率就已经提高了(为什么要特地提高分辨率?)
    Detail-revealing Deep Video Super-resolution 论文笔记_第2张图片
  • 接着,用同样的方法重建出输出图像 JHq
    Detail-revealing Deep Video Super-resolution 论文笔记_第3张图片
  • 在本文中,作者选择 M(x)=max(0,1|x|) ,代表双线性插值核。
  • 这个网络的好处是,没有额外的参数,并且可微,能够反向传播。

detail fusion net

  • 经过SPMC层后,输出 {JHi} 已经变成HR的尺寸了,但比较稀疏(大约有15/16的值都是0)。作者把detail fusion net设计成编码-解码风格。前面的卷积层降低了分辨率,也使得特征图不那么稀疏,多帧图片也分别进入了LSTM模块,处理帧内关联信息,之后再通过deconvolution。结构可以这么表示:
    Detail-revealing Deep Video Super-resolution 论文笔记_第4张图片
  • 看最后输出的符号,这个是多入多出的网络?

训练方法

  • 一口气进行端到端训练会在动作估计部分出现zero flow的问题,导致最后结果和单图像SR差不多,所以做了一个三步训练:
    • 只训练motion estimation的参数。鉴于没有label,所以用无监督的warping loss。
      image_1bt47cjstor4o6e1us18pa16hl5j.png-8.5kB
    • 固定ME的参数,训练后面的网络。
      Snipaste_2017-10-23_17-00-13.png-5.3kB
    • 联合训练。
      image_1bt47csh8u64109slrf3q09ce60.png-3.8kB

实验

  • 作者自己收集了一个数据集,有975个1080p HD视频序列,每个序列有31帧。HR的尺寸为540*960,LR的尺寸为270*480,180*320,135*240。训练集945个,测试集和验证集30个。下面只贴结果
    Detail-revealing Deep Video Super-resolution 论文笔记_第5张图片
    Detail-revealing Deep Video Super-resolution 论文笔记_第6张图片

你可能感兴趣的:(深度学习,深度学习)