EDVR: Video Restoration with Enhanced Deformable Convolutional Networks

论文:https://arxiv.org/abs/1905.02716
代码:https://github.com/xinntao/EDVR

该论文主要提出了两个模块:PCD对齐模块和TSA融合模块。

背景:
过去的视频恢复被视为简单的图像复原(视频和图像的处理还是有区别的),相邻帧的时间冗余没有充分利用。

PCD模块
金字塔级联和可变形模块(PCD,pyramid cascading deformable)

  • 使用Deformable卷积在特征级别将每个相邻帧对齐到参考帧,从粗到细对齐,以处理大型和复杂运动。具体就是,使用金字塔结构,首先将较低尺度的特征和粗估计进行对齐,然后将偏移量和对齐特征传播到较高尺度,以方便进行精确的运动补偿。
  • 在锥体对齐操作后,再级联一个额外的Deformable卷积,进一步提高对齐的鲁棒性。
    EDVR: Video Restoration with Enhanced Deformable Convolutional Networks_第1张图片

之前的对齐方法:

  1. 显式估计参考帧与相邻帧的光流场来对齐,根据估计的运动场对相邻帧矫正;
  2. 通过动态滤波或可变形卷积实现隐式补偿。

注:PCD帧对齐是在特征层上使用可变形卷积从粗到细进行对齐。

TSA模块
时间和空间注意力融合(TSA,temporal spatial attention)

  • 时间注意考虑参考帧与相邻帧间相关性,空间注意考虑单帧内部每个位置的特征。
  • 根据加权,通过相关系数卷积来进行融合。
    EDVR: Video Restoration with Enhanced Deformable Convolutional Networks_第2张图片

之前的融合方法:

  1. 使用卷积对所有帧进行早期融合;
  2. 采用递归网络逐步融合多帧;
  3. 时间自适应网络,动态融合时间尺度。
    没有考虑到每个帧潜在视觉信息量,不同帧和位置对重建的信息量和益处并不相同。(考虑帧内部信息)

注:注意力同时应用于时间和空间,以强调后续恢复的重要特征。

你可能感兴趣的:(深度学习)