【图像超分辨率论文】BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment

BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment

Abstract

递归结构是视频超分辨率任务的一个流行框架选择。最先进的方法BasicVSR采用双向传播与特征对齐,有效地利用了整个输入视频的信息。在这项研究中,我们通过提出二阶网格传播和流动引导的可变形对齐来重新设计BasicVSR。我们表明,通过增强传播和对齐的递归框架,我们可以更有效地利用错位视频帧的时空信息。在类似的计算约束下,新的组件导致了性能的提高。
特别是,我们的模型BasicVSR++在参数数量相似的情况下,PSNR超过BasicVSR 0.82 dB。除了视频超级分辨率外,BasicVSR++还能很好地适用于其他视频修复任务,如压缩视频增强。在NTIRE 2021中,BasicVSR++在视频超级分辨率和压缩视频增强挑战中获得三个冠军和一个亚军。代码和模型将被发布到MMEditing1

1. 引言

视频超级分辨率(VSR)具有挑战性,因为人们需要在错位排列的视频帧中收集互补的信息进行修复。一种普遍的方法是滑动窗口框架[9, 32, 35, 38],其中视频中的每一帧都是利用短时窗内的帧进行修复。与滑动窗口框架相反,递归框架试图通过传播潜在的特征来利用长期的依赖关系。一般来说,这些方法[8, 10, 11, 12, 14, 27]与滑动窗口框架中的方法相比,模型更紧凑。然而,在一个循环模型中,长期信息的传递和跨帧特征的对齐问题仍然很棘手。

Chan等人最近的一项工作[2]仔细研究了这些问题。它将常见的VSR管道总结为四个部分,即传播、对齐、聚合和升频,并提出BasicVSR。在BasicVSR中,双向传播被采用来利用整个输入视频的形成来进行重建。对于对齐,光流被用于特征扭曲。BasicVSR是一个简洁而强大的骨干,其中的组件可以很容易地被添加以提高性能。然而,它在传播和对齐方面的初级设计限制了信息聚合的功效。因此,该网络往往难以恢复精细的细节,特别是在处理被遮挡的复杂区域时。这些缺点要求我们在传播和排列方面进行完善的设计。

在这项工作中,我们通过设计二阶网格传播和流动引导的可变形排列来重新设计BasicVSR,使信息能够更有效地被传播和聚集。

  1. 拟议的二阶网格传播,如图1(a)所示,解决了BasicVSR的两个限制:i)我们允许更积极的双向传播,以网格的方式排列,和ii)我们放松BasicVSR中的一阶马尔可夫属性的假设,并将二阶连接[28]纳入网络,以便信息可以从不同的时空位置聚合起来。这两个修改都改善了网络中的信息流,提高了网络对遮挡和细小区域的鲁棒性。
  2. BasicVSR显示了使用光流进行时间对齐的优势。然而,光流对遮挡并不稳健。不准确的流量估计可能会危及修复的性能。可变形配准[32, 33, 35]在VSR中显示了其优越性,但它在实践中很难训练[3]。为了利用可变形配准的优势,同时克服训练的不稳定性,我们提出了流量引导的可变形配准,如图1(b)所示。在提议的模块中,我们不直接学习DCN的偏移量[6, 42],而是通过使用光流场作为基数偏移集,并由流场残余物提炼,来减少偏移学习的负担。后者可以比原来的DCN偏移量学习得更稳定。

上述两个组件是新颖的,更多的讨论可以在相关工作部分找到。通过更有效的设计,BasicVSR++可以采用比其同行更轻的骨架。因此,BasicVSR++超越了现有的技术水平,包括BasicVSR和IconVSR(更精细的BasicVSR变体),同时保持了效率(图1(c))。特别是,与它的前身BasicVSR相比,在REDS4[35]上,在类似的参数数量下,PSNR获得了0.82dB的增益。此外,BasicVSR++在NTIRE 2021视频超分辨率[29]和压缩视频增强[39]挑战赛中获得了三个冠军和一个亚军。

2. 相关工作

递归网络

递归框架是各种视频处理任务中采用的流行结构,如超分辨率[8, 10, 11, 12, 14, 27]、去模糊环[24, 41]和帧插值[36]。例如,RSDN[12]采用单向传播,带有递归细节结构块和隐藏状态适应模块,以增强对外观变化和错误积累的鲁棒性。Chan等人[2]提出BasicVSR。这项工作证明了双向传播比单向传播的重要性,以更好地利用时间上的特征。此外,该研究还显示了特征对齐在对齐高度相关但不对齐的特征方面的优势。我们请读者参考[2],了解这些组件与更传统的传播和对齐方式的详细比较。在我们的实验中,我们着重于与BasicVSR进行比较,因为它是最先进的VSR方法。

网格连接

网格状的设计在各种视觉任务中都可以看到,如物体检测[5, 30, 34],语义分割[7, 30, 34, 43],以及帧插值[25]。一般来说,这些设计将一个给定的图像/特征分解成多个分辨率,并在不同的分辨率下采用网格来捕捉精细和粗略的信息。与上述方法不同,BasicVSR++不采用多尺度设计。相反,网格结构被设计为以双向的方式跨时传播。我们将不同的框架用网格连接起来,反复细化特征,提高表达能力。

高阶传播

高阶传播已经被研究用来改善梯度流[16, 20, 28]。这些方法在不同的任务中表现出改进,包括分类[16]和语言建模[28]。然而,这些方法没有考虑时间对齐,这在VSR的任务中被证明是至关重要的[2]。为了允许二阶传播中的时间对齐,我们将对齐纳入我们的传播方案,将我们的流指导的可变形对齐扩展到二阶设置。

可变形对齐

一些作品[32, 33, 35, 37]采用了可变形对齐。TDAN[32]使用可变形卷积在特征水平上进行对齐。EDVR[35]进一步提出了一个具有多尺度设计的金字塔级联可变形(PCD)对齐。最近,Chan等人[3]分析了可变形的对齐方式,并表明与基于流的对齐方式相比,性能增益来自于偏移的多样性。受[3]的启发,我们采用了可变形配准,但采用了重新表述的方式来克服训练的不稳定性[3]。我们的流动引导的可变形对齐与偏移保真损失[3]不同。后者在训练中使用光流作为损失函数。相比之下,我们直接将光流纳入我们的模型,作为基础偏移量,允许在训练和推理过程中提供更明确的指导。

3. 方法

BasicVSR++由两个有效的修改组成,用于改进传播和对齐。如图2所示,给定一个输入视频,首先应用剩余块从每一帧中提取特征。然后,这些特征在我们的二阶网格传播方案下进行传播,其中对齐是由我们的流动引导的可变形对齐进行的。在传播之后,聚合的特征被用来通过卷积和像素洗牌来生成输出图像。
【图像超分辨率论文】BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment_第1张图片

3.1. 二阶网格传播

大多数现有方法采用单向传播[12, 14, 27]。一些作品[2, 10, 11]采用双向传播,以利用视频序列中的可用信息。特别是IconVSR[2]由一个耦合的传播方案组成,它有顺序连接的分支,以促进信息交流。

在双向传播有效性的激励下,我们设计了一个网格传播方案,以便通过传播实现重复细化。更具体地说,中间特征在时间上以交替的方式向后和向前传播。通过传播,来自不同帧的信息可以被 "重访 "并被用于特征的细化。与现有的只传播一次特征的工作相比,网格传播从整个序列中反复提取信息,提高了特征的可表达性。

为了进一步提高传播的稳健性,我们放宽了BasicVSR中一阶马尔可夫属性的假设,采用二阶连接,实现了二阶马尔可夫链。通过这种放松,信息可以从不同的时空位置聚集起来,提高了在遮挡和精细区域的鲁棒性和有效性。综合上述两个部分,我们设计了如下的二阶网格传播。设xi为输入图像,gi为通过多个残差块从xi中提取的特征,f j i为在第j个传播分支的第i个时间步计算的特征。在这一节中,我们描述了前向传播的程序,后向传播的程序定义与此类似。为了计算特征f j i,我们首先使用我们提出的流动引导的可变形对齐方式对f j i-1和f j i-2进行对齐(遵循二阶马尔科夫链),这将在下一节讨论。

3.2. 流动引导的可变形对齐

可变形对齐[33, 35]比基于流动的对齐[9, 38]有明显的改进,这要归功于可变形卷积(DCN)[6, 42]中固有的偏移多样性[3]。然而,可变形配准模块可能很难训练[3]。训练的不稳定性常常导致偏移量溢出,恶化了最终的性能。为了利用偏移量的多样性,同时克服不稳定性,我们建议采用光流来指导可变形配准,这是由可变形配准和基于光流的配准之间的密切关系所激发的[3]。图3中显示了图形说明。在本节的其余部分,我们将详细介绍前向传播的对齐程序。后向传播的程序定义与此类似。为了简化记法,上标j被省略了。
【图像超分辨率论文】BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment_第2张图片
图3:流动引导的可变形对齐。光流是 用来预对准特征。然后,对齐的特征被连接起来以产生DCN偏移(对光流的残留物)。A 然后将DCN应用于未扭曲的特征。只有一阶连接,二阶连接被省略了 为了简单起见,省略了二阶连接。

讨论。与现有的直接计算DCN偏移量的方法[32, 33, 35, 37]不同,我们提出的流动引导的可变形对准采用了光流作为引导。其好处是双重的。首先,由于CNN已知有局部感受野,通过使用光流对特征进行预对准,可以帮助学习关集。其次,通过只学习残差,网络工作只需要学习与光流的微小偏差,减少了典型的可变形对齐模块的负担。此外,DCN中的调制掩码不是直接连接扭曲的特征,而是作为注意力图来权衡不同像素的贡献,提供额外的灵活性。

你可能感兴趣的:(图像超分辨率论文,音视频,计算机视觉,深度学习)