Recurrent+Transformer 视频恢复领域的‘德艺双馨’

关注公众号,发现CV技术之美

本文分享论文『Recurrent Video Restoration Transformer with Guided Deformable Attention』,是 Jingyun 大佬继SwinIR,VRT之后的又一篇力作,在Transformer结构中套用了循环架构(笔者最近也在research这个点,奈何大佬太猛了)并从帧级对齐扩展到片段对齐。RVRT在VID4上超过了VRT,在REDS4上超过了Basicvsr++!

详细信息如下:

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第1张图片

  • 作者单位:苏黎世联邦理工、Meta、维尔茨堡大学 

  • 论文链接:https://arxiv.org/pdf/2206.02146.pdf

  • 项目链接:https://github.com/JingyunLiang/RVRT

      01      

看点

现有的视频恢复方法主要有两种 :

  1. 并行恢复所有帧,它具有时间信息融合的优势,但是模型尺寸大,内存消耗大

  2. 循环逐帧恢复,它跨帧共享参数所以模型尺寸较小,但是缺乏长期建模能力和并行性

本文提出循环视频恢复transformer(RVRT)来结合这上述优点,它在全局循环框架内并行的处理局部相邻帧从而在模型大小和效率之间实现良好的权衡,主要的贡献如下:

  • RVRT将视频分成多个片段,利用先前的片段特征来估计后续的片段特征。通过减小视频序列长度并且以更大的隐藏状态传递信息,缓解了循环网络中的信息丢失和噪声放大,还可以使模型部分并行化。

  • 使用引导变形注意(GDA)从整个推断片段中预测多个相关位置,然后通过注意机制聚合它们的特征来进行片段间对齐。

  • 在超分去噪去模糊的多基准数据集上实现了SOTA。

      02      

方法

Overview

框架如下图所示,模型由三部分组成:浅层特征提取,循环特征细化和帧重建。浅层特征提取使用卷积层和多个SwinIR中的RSTB块对低质视频LQ进行特征提取,然后使用循环特征细化模块进行时间建模,并使用引导变形注意进行视频对齐,最后馈入多个RSTB块生成最终特征并通过pixelShuffle进行HQ重建。

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第2张图片

循环特征细化

本文堆叠了L个循环特征细化模块,通过利用不同帧之间的时间相关性来细化视频特征。给定第层视频特征,首先将其分成个片段特征,每个片段特征包含N个相邻帧特征

402 Payment Required

。对齐的片段特征被计算为:

其中为光流,当前片段特征被计算为:

其中是浅层特征提取的输出,RFR(·)为循环特征细化模块,如右图,由一个用于特征融合的卷积层和用于特征细化的几个RSTB改进的MRSTB组成。MRSTB将原来的二维h × w注意窗口升级到三维 N × h × w,这使片段中的每一帧都能同时关注自身和其他帧来实现隐式特征聚合。此外,对视频序列进行反转以获得后向的信息。

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第3张图片

引导变形注意 

与之前的帧级对齐不同,GDA需要对齐相邻相关但未对齐的视频片段,如下图所示。令表示由第t-1个片段中的第帧到第t片段中第n帧的帧对齐特征。受Basicvsr的启发,首先使用光流获得预对齐特征,之后偏移(小写o)被计算为:

其中采CNN由多个卷积层和ReLU组成,每帧的光流拥有M个偏移,光流随后被更新为:

402 Payment Required

为了简单起见,本文将K、Q、V定义如下:

402 Payment Required

首先对特征进行投影,然后进行采样以减少冗余计算。然后对齐特征被一个注意机制计算:

402 Payment Required

其中是采样因子。最后,由于上述操作仅在空间上聚合信息,为此本文添加了一个MLP(两个全连接的和和一个GELU)以残差的形式来对通道进行交互。此外,可以将通道分成多个可变形组,以并行操作。可变形组进一步可以划分为多个注意头,并对不同注意头分别进行注意操作。

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第4张图片

值得注意的是,可变形卷积使用学习到的权值进行特征聚合,这可以看作是GDA的一种特例,即对不同的位置使用不同的投影矩阵,然后对得到的特征进行平均。其参数数和计算复杂度分别为和。相比之下,GDA对所有位置使用相同的投影矩阵,但生成动态权值来聚合它们。其参数数和计算复杂度为和,在选择合适的M和R时与可变形卷积相似。


      03      

实验

消融实验

不同视频对齐技术的消融研究

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第5张图片

不同GDA组件的消融研究

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第6张图片

定量评估

在BD Vid4 上达到了29.54dB,在BI REDS4 上达到了32.75dB

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第7张图片

参数量,时间等均优于VRT,与CNN架构还是没得比

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第8张图片

去模糊和去噪

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第9张图片

定性评估

细节肉眼可见的提升

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第10张图片

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第11张图片

END

欢迎加入「视频恢复交流群备注:修复

Recurrent+Transformer 视频恢复领域的‘德艺双馨’_第12张图片

你可能感兴趣的:(java,机器学习,人工智能,计算机视觉,python)