【CVPR20超分】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

论文:https://arxiv.org/pdf/2002.11616.pdf
代码:https://github.com/Mukosame/Zooming-Slow-Mo-CVPR-2020

任务简述:

时空超分辨率:将低分辨率低帧率的视频重建为高分辨率高帧率(慢动作slow motion?)视频。(一个联合帧插值和视频超分的任务。)

创新点:

  1. We propose a one-stage space-time super-resolution network that can address temporal interpolation and spatial SR simultaneously in a unified framework. 提出了一个一阶段的时空超分网络。在统一的框架里同时解决帧插值和视频超分,比起把两个任务的方法单纯串联起来做在性能,计算资源等方面都要好。
  2. We propose a frame feature temporal interpolation network leveraging local temporal contexts based on deformable sampling for intermediate LR frames. We devise a novel deformable ConvLSTM to explicitly enhance temporal alignment capacity and exploit global temporal contexts for handling large motions in videos. 针对中间LR帧,提出了一种基于可变形采样的利用局部时序上下文信息的帧特征时序插值网络。设计了一种新的可变形卷积加ConvLSTM模型来显式地增强时序对齐能力,并利用全局时序上下文信息来处理视频中的大运动。
  3. Our onestage method achieves state-of-the-art STVSR performance on both Vid4 and Vimeo . It is 3 times faster than the two-stage network: DAIN + EDVR while having a nearly 4xreduction in model size. 相比直接串联现存最好的帧插值方法和视频超分方法组合成的二阶段方法,该方法结果好,速度快。

方法

【CVPR20超分】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution_第1张图片
输入:输入
输出:在这里插入图片描述
算法流程:输入LR的奇数帧经由特征提取模块得到奇数帧的特征在这里插入图片描述,奇数帧的特征经由帧特征时序插值模块合成中间缺失的偶数帧的特征在这里插入图片描述至此得到连续的LR所有帧特征,将其输入至DeformableConvLSTM模块提取时序信息进行时序对齐和融合得到high level特征,最后通过高分辨率帧重建模块得到HR的所有帧。

  1. 帧特征时序插值模块
    【CVPR20超分】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution_第2张图片
    因为缺少从1到2的前向运动信息和3到2的后向信息而无法准确获得第二帧特征,所以借助第一帧和第三帧之间的运动信息估计出前向和后向运动信息从而合成第二帧特征。作者提出使用可变形采样函数隐式捕捉运动信息,可变形卷积中的offset即为运动的信息。
    分别对1和3做可变形卷积,而做可变形卷积所需的这两个offset即图中的 ϕ 1 \phi_1 ϕ1 ϕ 3 \phi_3 ϕ3是由1和3concat后做卷积得到(同样的网络结构不同的权重),对1和3做完可变形卷积后的特征图做线性混合函数在这里插入图片描述得到估计的第二帧特征,其中 α \alpha α β \beta β为可学习的1x1的卷积核。
    因为此处合成的第二帧特征在后面被约束要重建为高分辨率帧,所以这里会被迫使向更接近真实的第二帧低分辨率特征图的方向训练。
  2. DeformableConvLSTM模块
    【CVPR20超分】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution_第3张图片
    使用ConvLSTM来处理视频时序信息比较常见且有用,但对于较大的运动问题可能能力有限,所以在此之前作者提出先使用可变形卷积将上一帧的各状态特征与当前帧对齐,效果会比只是用LSTM更好。
    使用可变形卷积把上一帧的隐藏状态和细胞状态与当前帧对齐(可参考TDAN),解决视频中的巨大运动问题,对齐后的特征输入到convLSTM中,充分利用到时序信息。
    【CVPR20超分】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution_第4张图片
    文中提出这样的做法又做了一个双向的形式,将时序逆转再做了一次DeformableConvLSTM,最后输出的 h t h_t ht为前向和后向concat后的结果,具体细节可见代码。

实验

因为以前没有做联合任务的方法,所以作者选择了目前最好的三种帧插值的方法和四种超分方法(1种单图超分3种视频超分)两两组合构成解决联合任务的二阶段方法与作者的一阶段方法对比,结果如下:性能和速度远超他人。
【CVPR20超分】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution_第5张图片
消融实验:验证帧插值网络和deformableConvLSTM
(1)简单特征插值25.18dB 可变形特征插值25.34dB
(2)单纯ConvLSTM 25.68dB 加上可变形卷积对齐后 26.18dB 再加上双向后 26.31dB
【CVPR20超分】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution_第6张图片
总结:单任务做的很多了,可以开始做联合任务了。

你可能感兴趣的:(【CVPR20超分】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution)