CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline

文章目录

    • 原文信息
    • 初识
    • 相知
      • 组件分析
      • BasicVSR
      • IconVSR
      • 部分实验
    • 回顾

原文信息

CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第1张图片
原文链接

初识

相比于图像超分,视频超分(VSR,Video Super-Resolution)显然是一件更具挑战性的任务。视频超分比图像超分多了时间维度的信息、更为复杂,而在当时,现有的SOTA方法都基于各种各样的复杂设计,对于各组件也缺乏详细的分析。

所以这篇文章的核心贡献点就是:对目前VSR(vedio super-resolution)方法中的不同组件进行解耦+分析,并对部分组件经过细微修改,搭建了一套简单清晰的方案(Basic VSR),在效果和性能上都超越了当前的SOTA。BasicVSR也容易扩展成更强大的模型,文章在进行扩展后,也得到了更强的IconVSR。

CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第2张图片

从上图也可以看出来本文提出的方案在当时所有方法中的优越性

相知

组件分析

论文分析了当下的VSR方法,所其用到的技术分为四种组件:Propagation(传播)、Alignment(对齐)、Aggregation(聚合)以及Upsampling(上采样)。

其中,Propagation表示在时间维度上进行特征传播,Alignment表示对非对齐的图像/特征进行的空间变换操作,Aggregation进行对齐特征的进一步融合,Upsamping表示对聚合后的特征进行转换得到最终的高清视频(上采样)。作者认为影响最大的两个组件主要是Propagation和Alignment。

在这里插入图片描述

列举了当前VSR方法的各组件组成情况,其中最优的策略已加粗.

Propagation:这是对VSR方法影响最大的组件,目前的传播策略大致可以分为三类:local(局部)、unidirectional(单向)和bidirectional(双向)。

  • local局部策略:其直接忽略了长距离信息的建模(时间维度上帧间距离),即不采用任何时序上的特征传播策略,这显然限制了其表现。作者也做了一个实验来验证这个说法,如下图所示,将测试序列分为K段用BasicVSR进行超分,报告每帧的PSNR指标,其中黑色的虚线表示K=1(全局传播)作为对比基准。可以发现,当K越大其整体效果越差,并且每一段在两段会出现较大的波动,这说明时序信息,特别是长距离时序信息对于VSR是非常重要的。
    CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第3张图片
  • unidirectional单向策略:顾名思义,其做法是将特征是从第一帧逐步传播最后一帧。这会导致不同阵帧之间获取信息不平衡(早期帧获取信息少,后期帧获取信息多),从而导致早期的视频帧超分效果较差。作者也同样做实验对比了单向帧和双向帧的效果差异,如下图所示,黑线表示双向策略作为基准。可以看到单向策略中,早期帧的超分效果较差,并且整体效果弱于双向策略。(只有最后一帧超过了双向策略,这是因为双向策略的初始化特征为0导致的)
    CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第4张图片
  • bidirectional双向策略:不是单向的特征传播,包括了正向时序(forward)和逆向时序(backward)的特征传播,避免上述两种方式的缺点。对于图像帧数学公式: x i x_i xi,给定相邻的两帧数学公式: x i − 1 , x i + 1 x_{i-1},x_{i+1} xi1,xi+1,其前向和反向特征分别为:
    在这里插入图片描述

Alignment也非常重要,将高度相关但是未对齐的特征进行空间变换,从而使其对齐,用于后续的聚合操作。其主要也分为三类:without alignment(无对齐)、image alignment(图像对齐)和feature alignment(特征对齐)。

  • Without alignment无对齐:未对齐的特征/图像会导致性能欠佳(suboptimality),作者进行实验,取消BasicVSR中的对齐操作,直接对特征进行concate,导致1.19dB的PSNR下降.
  • Image alignment图像对齐:基于图像进行光流估计和变换(warping)进行图像对齐,但是由于光流估计得不准确,导致变换后的图像存在模糊、不准确的问题,导致效果欠佳。作者实验发现图像级对齐会导致0.17dB的PSNR下降.
  • Feature alignment特征对齐:基于图像进行光流估计,再对特征图进行变换,从而对齐特征。此外,对齐后的特征还会送入后续的残差Blocks进行进一步的细化:
    CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第5张图片

其中,S表示光流估计,W为空间变换,R为残差模块

Aggregation and Upsampling:BasicVSR采用最基础的组件,聚合操作是直接concate中间特征,上采样模块包括了几层卷积+pixel-shuffle操作。最后输出每一帧对应的高清图像:
在这里插入图片描述

pixel-shuffle是一种低计算量的上采样方式,可参考https://zhuanlan.zhihu.com/p/523432126

BasicVSR

BasicVSR的整体框架如下图所示,根据上述的分析,Propagation采用双向策略,Alignment采用基于feature-level的光流估计,Aggregation和Upsampling使用concate加pixel-shuffle操作.
CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第6张图片
BasicVSR简单但有效,在效果和性能上都不输现有的VSR方法,并且容易扩展。

IconVSR

作者基于BasicVSR,新增信息重填机制(Information-refill mechanism)和耦合传播(coupled propagation)得到IconVSR,这能进一步避免传播过程中的错误累积以及促进信息融合,从而提升模型表现。
CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第7张图片
Information-Refill:在图像边界以及遮挡区域通常存在不准确的对齐,在长距离信息传播时会导致误差的进一步累积。为了减缓这个问题的影响,作者提出了信息重填机制(information-reffil)来进行特征细化(refinement)。如上图(a)所示,作者额外采用了一个特征提取器对关键帧及其相邻帧提取深层特征,并且将提取出来的特征与传播链路中的对齐特征进行融合。具体融合过程如下式所示:
CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第8张图片
在这里插入图片描述

其中E表示特征提取器,C为卷积操作,R是与之前一样的残差Blocks.

简单地理解这个过程,就是在特征传播过程中,对于关键帧,在进行特征对齐之后(即经过之前的S和W操作],额外引入一个深度特征进行融合。因为这个深度特征只考虑了当前帧与相邻帧,有利于矫正长期累积的对齐错误。并且,由于关键帧只是所有图像集中一个很小的子集,所以这个机制带来的额外计算量也比较小。

Coupled Propagation:在BasicVSR中采用的双向传播机制是独立地在两个方向上进行的(backward与forward),每条分支只能捕获到单向过来的信息。作者为了更好地利用序列中的信息,将两条分支进行相互联系,如图(b)所示,在进行forward传播时,额外引入backward分支中累积的信息(先backward再forward)。具体过程如下式所示:
CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第9张图片
引入这种操作使得在forward分支中的每一步都可以考虑到整个序列的信息,使得输出质量更高,并且没有带来额外的计算负担。

部分实验

这里只列举部分实验结果和可视化对比效果,更多的消融实验与分析参照原文

下表展示了本文提出的方法与当前SOTA方案的对比(包括参数量、推理速度、效果等).
CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第10张图片

下面两张图展示了不同数据集上BasicVSR,IconVSR与其他方法的可视化对比结果。
CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline_第11张图片

回顾

本文发表于CVPR2021,是VSR领域一篇比较有代表性的论文,也开启了BasicVSR系列(包括后面的BasicVSR++、RealVSR等)。本文一作Kelvin C.K. Chan来自南洋理工大学,在图像超分和视频超分任务上都做了一些不错的工作,贴上其Google Scholar个人主页。

这篇文章没有涉及到太多网络模块的设计,更像是一篇梳理当前VSR的报告,通过对现有组件的结合搭建了一个简单有效的baseline,并基于其进行扩展,得到了IconVSR。它们在效果和性能上都表现得非常好。

你可能感兴趣的:(读点论文,-,视频算法,音视频,人工智能,计算机视觉)