3DSRnet: Video Super-resolution using 3D Convolutional Neural Networks论文笔记

3DSRnet: Video Super-resolution using 3D Convolutional Neural Networks论文笔记

论文链接

一. 简介

  • 虽然2D-CNNs 在图像建模方面具有强大的功能,但3D-CNNs 更适合于时空特征提取,因为它可以保存时间信息。
  • 本文提出了有效的3D-CNN 视频超分辨率,不需要运动对齐作为预处理。
  • 本文的3DSRnet 保持时空特征图的时间深度,最大限度地捕捉LR 和HR 帧之间的时间非线性特征,结合亚像素输出并且加入了残差学习。

二. 网络结构

整体框架

3DSRnet: Video Super-resolution using 3D Convolutional Neural Networks论文笔记_第1张图片

  • 上图为3DSRnet的输入和输出结构。例如有5个输入帧,输入帧通过3D-CNN进行时空特征提取,得到多通道输出。
  • 又因为比例因子为2,所以有四个输出通道。(输出通道= scale²)。对它们进行整形,得到HR 的残差帧。最后加上经过双三次放大的中间帧得到最终的HR 帧。

3D-CNN网络

3DSRnet: Video Super-resolution using 3D Convolutional Neural Networks论文笔记_第2张图片

  • 3D 卷积层
    用n 个3维过滤器(3×3×3)对5帧输入图片卷积,每个过滤器卷积后会得到一组时间特征图(GTFM)。默认滑动参数为(1,1,1),则得到的GTFM 时间深度为3。对应卷积计算如下所示,与2D 卷积计算类似。
    Alt

  • 外推(帧填充)
    由上可知,输入为5帧时,进行两次3D 卷积后GTFM 时间深度缩短为1了。而使用3D-CNNs就是为了篡改时间信息,从而引入时间非线性,所以在第1层到L-2 层进行外推(或填充)其前端和后端的输入,就可以使GTFMs保留整个网络的时间深度。最后两层不需要外推,则可以逐渐聚合时间信息,最后一层GTFM 深度为1。

  • 多通道输出
    VESPCN 中首次引入的多通道输出结构允许从LR直接映射到HR帧。方法是生成具有多个通道的输出,这些通道可以简单地重新排序和重塑,从而生成最终的HR输出。这种方法极大的减少了计算量。具体见第一张图片。

  • 残差学习
    残差学习是通过直接预测HR帧与相应的经过上采样的LR帧之间的差异,可让网络省去预测已经存在的内容的麻烦。本文的3DSRnet通过预测残差帧,来产生一个多通道HR 残差输出。(网络图中并没有给出残差学习?)

三. 实验

数据集

  • 一个训练或测试样本是由五张经过下采样的LR 帧和一张HR 帧组成。作者收集了两个数据类型,第一个视频类型显示空间复杂的场景,这意味着它们包含复杂的物体,例如城市的鸟瞰图;第二个视频类型在时间上很复杂,表示有很多动作。
  • 之后准备了两个数据集,smallSet和largeSet,是从上述两个数据类型中每一帧随机选择预定义数量的不重叠的子图像构成。

架构实验

  • 3D-CNNs对2D-CNNs的影响
    3DSRnet 网络在一个时间实例的滑动时间窗口中接受一个3D输入(多个LR输入帧)并生成一个单独的2D HR输出帧,所以它的架构设计实质是从3D 到2D。
    作为3DSRnet 的变体,作者尝试了3D和2D卷积相组合,简单地连接上一个3D 卷积层创建的GTFMs,然后执行2D 滤波,调整滤波器的数量,使所有架构具有相同数量的参数。对比结果如下表。
    3DSRnet: Video Super-resolution using 3D Convolutional Neural Networks论文笔记_第3张图片

  • 外推(填充)
    有两种外推方法,简单地用0像素填充TFMs 或用最外层的TFMs 重复填充。而实验结果表明,重复外推32.88 dB和零填充外推32.92 dB的性能差异不大。为了简单起见,实验时使用零填充外推法。

  • 尺度
    虽然多通道输出模型是有效的,但它必须针对不同的尺度因子对不同的网络进行训练,因为输出通道的数量是scale的2次方。
    但不同的放大尺度,都可以用本文中提出的×2的SR 网络。例如放大3倍时,输入图片先进行1.5倍的双立方上采样,再送入网络训练。
    对于使用这种单一网络方法和用不同放大尺度训练方法对比,前者效果是优于/等同 后者的。

方法对比

  • 与几种图片/视频SR 算法在数据集Vidset4 上效果对比。
    3DSRnet: Video Super-resolution using 3D Convolutional Neural Networks论文笔记_第4张图片

    (这篇论文还介绍了另一个子网络,用于处理对输入视频帧中包含了不同场景的情况,并对与输入中心帧不同场景的帧用时间最相近的帧进行替换。在这就不多做介绍了。)

你可能感兴趣的:(计算机视觉,深度学习)