【图像超分辨率论文】BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

Abstract

视频超级分辨率(VSR)方法往往比图像对应的组件多,需要利用额外的时间维度,复杂的组成并不罕见。在这项研究中,我们希望解开这个结,并在四个基本功能的指导下重新考虑VSR的一些最基本的组件,即传播、对齐、聚合和上采样。通过重新使用一些现有的组件,加上最小的重新设计,我们展示了一个简洁的管道,BasicVSR,与许多最先进的算法相比,在速度和修复质量方面实现了惊人的改进。我们进行了系统的分析,以解释如何获得这种增益,并讨论了其中的陷阱。我们进一步展示了BasicVSR的可扩展性,提出了一个信息补给机制和一个耦合传播方案来促进信息聚合。BasicVSR和它的前张力IconVSR可以作为未来VSR方法的强大基线。

1.Introduce

与单幅图像超分辨率相比,视频超分辨率(VSR)带来了额外的挑战,因为它涉及到视频序列中多个高度相关但错位的帧的信息汇总。

已经提出了各种方法来应对这一挑战。有些设计可能是非常复杂的。例如,在有代表性的方法EDVR[32]中,采用了一个多尺度可变形对齐模块和多个注意力层来对齐和整合来自不同帧的特征。在RBPN[9]中,多个投影模块被用来依次聚合来自多个帧的特征。这种设计是有效的,但不可避免地增加了运行时间和模型的复杂性(见图1)。此外,与SISR不同,VSR方法潜在的复杂和不相似的设计给实现和扩展现有方法带来了困难,阻碍了再生产和公平比较。

我们有必要退一步,重新考虑VSR模型的不同设计,目的是为VSR寻找一个更通用、更有效、更容易实现的基线。我们通过将流行的VSR方法分解为基于功能的子模块来开始我们的搜索。正如表1所总结的,大多数现有的方法需要四个相互关联的组件,即传播、对齐、聚合和上采样。这样的分解使我们能够系统地研究每个组件下的各种选择,并了解它们的优点和缺点。

通过广泛的实验,我们发现,通过对现有选项进行小规模的重新设计,我们已经可以达到一个强大而高效的VSR基线,而不需要花哨的东西。在本文中,我们强调了这种可能性之一,名为BasicVSR。我们观察到,在上述四个组件中,传播和对齐组件的选择可能导致性能和效率方面的巨大波动。我们的实验建议使用双向传播方案来最大限度地收集信息,并使用基于光流的方法来估计两个相邻帧之间的对应关系以进行特征对齐。通过简单地将这些传播和对齐组件与普遍采用的聚合(即特征串联)和上采样(即像素散列[27])的设计进行简化,BasicVSR在性能(高达0.61 dB)和效率(高达24倍的速度)上都优于现有的技术水平[9, 12, 32]。

由于它的简单性和多功能性,BasicVSR为扩展到更复杂的网络提供了一个可行的起点。通过使用BasicVSR作为基础,我们提出了IconVSR,它包括两个新的扩展来改进聚合和传播部分。第一个扩展被命名为信息补给。该机制利用一个额外的模块从稀疏选择的帧(关键帧)中提取特征,然后将这些特征插入到主网络中进行特征细化。第二个扩展是一个耦合传播方案,它促进了前向和后向传播分支之间的信息交流。这两个模块不仅减少了传播过程中由于遮挡和图像边界造成的错误积累,而且还降低了传播过程中获取完整信息的顺序,以生成高质量的特征。有了这两个新设计,IconVSR超过了BasicVSR,PSNR提高了0.31dB。

我们认为,鉴于围绕VSR研究的方法越来越多,我们的工作是及时的。我们需要一个强大、简单而又可扩展的基线。在VSR方法的主要功能的指导下,我们重新考虑了现有管道中的一些基本组件,并提出了一个高效的VSR基线。我们表明,简单的组件在适当地整合后,会产生协同作用,并带来最先进的性能。我们进一步介绍了一个用两个新模块扩展BasicVSR的例子,以完善传播和聚合组件。

2. 相关工作

现有的VSR方法[10, 21, 28, 34, 20, 12, 13]主要可以分为两个框架–滑动窗口和递归。早期的方法[1, 29, 33]在滑动窗口框架中预测低分辨率(LR)帧之间的光流,并执行空间扭曲来进行对齐。后来的方法则诉诸于更复杂的隐式配准方法。例如,TDAN[30]采用可变形卷积(DCNs)[5, 37]在特征层面对齐不同的帧。EDVR[32]进一步以多尺度的方式使用DCNs来进行更精确的对齐。DUF[16]利用动态上采样滤波器来隐含地处理运动。一些方法采取了复租的框架。RSDN[12]提出了一个递归的细节结构块和一个隐藏的状态适应模块,以提高对外观变化和错误累积的鲁棒性。RRN[13]采用了层与层之间的残差映射与身份跳过连接,以确保形成流的流畅性并长期保存纹理信息。上述研究导致了许多新的和复杂的组件来解决VSR中的传播和排列问题。在这里,我们重新研究了一些组件,发现双向传播加上一个简单的基于光流的特征对齐,就足以胜过许多最先进的方法。

IconVSR中的信息补给机制让人想起基于间隔的处理概念[4, 15, 26, 35, 36, 38, 39]。这些方法将视频帧分为独立的区间,其特征是关键帧和非关键帧。然后,关键帧和非关键帧由不同的管道进行处理。例如,FAST[35]应用SRCNN[6, 7]来超解关键帧。然后,非关键帧被使用放大的关键帧和存储在压缩视频编解码器中的运动向量进行恢复。IconVSR继承了关键帧的概念,但与现有的独立处理区间的方法不同,我们通过传播分支连接区间,进行了一次进步。通过这种设计,长期信息可以在相互连接的区间内传播,进一步提高了效果。

3. 方法

视频超分辨率,从本质上讲,涉及到一个漫长而复杂的处理管道,因为它不仅需要从空间维度,也需要从时间维度进行汇总形成。现有的研究通常专注于某一方面的功能,以取得进展,可能不会集体考虑各种组件的协同作用。我们有必要从宏观上重新审视各个组成部分,并发现一个继承了现有方法优点的通用基线。在这项工作中,我们进行了广泛的分析,并提出了一个简单、强大和通用的基线,即BasicVSR,它可以作为设计中具有丰富灵活性的骨干。

3.1. BasicVSR

为了发现通用框架以促进VSR方法的分析和开发,我们将搜索范围限制在普遍采用的元素上,如光流和残余块。图2描述了基本VSR的概况。

传播

传播是VSR中最有影响力的组件之一。它规定了视频序列中的信息如何被利用。现有的传播方案可以分为三个主要组别:本地、单向和双向传播。在下文中,我们将讨论前两者的弱点,以激励我们在BasicVSR中选择双向传播的方式。

  • 本地传播
    滑动窗口方法[9, 13, 32]将局部窗口内的LR图像作为输入,并采用局部信息进行修复。在这种设计中,可获得的信息被限制在一个局部邻域内。对远处图像的忽略不可避免地限制了滑动窗口方法的潜力。为了验证我们的主张,我们从一个全局性的接受场(在时间维度上)开始,逐渐缩小接受场。我们将测试序列分成K个片段,并使用我们的BasicVSR来独立恢复每个片段。图3描述了与K=1(全局传播)情况的PSNR差异。首先,当片段的数量减少时(即时间接受领域增加),PSNR的差异减少(即性能更好)。这表明,远处帧的信息对修复是有益的,不应该被忽视。其次,PSNR的差异在每个片段的两端最大,表明有必要采用长序列来积累长期信息。
  • 单向传播
    上述问题可以通过采用单向传播来解决[8, 12, 14, 25],即信息按顺序从第一帧传播到最后一帧。然而,在这种情况下,不同帧收到的信息是不平衡的。具体来说,第一帧除了自身之外没有收到来自视频序列的信息,而最后一帧则收到来自整个序列的信息。因此,较早的帧预计会出现次优结果。为了证明其效果,我们将BasicVSR(使用双向传播)与它的单向变体(具有可比的网络复杂性)进行比较。从图4中,我们看到单向模型在早期时间段获得的PSNR明显低于双向传播,而且随着帧数的增加,更多的信息被聚合,差异逐渐减少。此外,在只采用部分信息的情况下,观察到性能持续下降0.5dB。这些观察揭示了单向传播的次优性。人们可以通过从序列的最后一帧传播信息来提高输出质量。
  • 双向传播
    上述两个问题可以通过双向传播来同时解决,在双向传播中,特征在时间上是独立向前和向后传播的。受此启发,BasicVSR采用了一个典型的双向传播方案。给定一个LR图像xi,其相邻的帧xi-1和xi+1,以及从其相邻帧传播的相应特征,表示为h f i-1和h b i+1,我们有

对齐

空间对齐在VSR中起着重要的作用,因为它负责对齐高度相关但不对齐的图像/特征,以便随后进行聚合。主要的工作可以分为三类:无对齐、图像对齐和特征对齐。在本节中,我们将进行实验来分析每一个类别,并验证我们对特征对齐的选择。

  • 无对齐方式
    现有的递归方法[8, 10, 11, 12, 14]在传播过程中一般不进行对齐。不对齐的特征/图像阻碍了聚合,并最终导致了不合格的性能。这种次优性可以通过我们的实验反映出来,我们在BasicVSR中删除了空间对齐模块。在这种情况下,我们直接将非对齐的特征串联起来进行还原。如果没有适当的对齐,传播的特征与输入图像在空间上是不对齐的。因此,局部操作,如卷积,具有相对较小的接受域,在汇总相应位置的信息时效率很低。观察到PSNR下降了1.19dB。这一结果表明,采用具有足够大的接受域的操作来聚合来自遥远空间位置的信息是非常关键的。

  • 图像对齐
    早期的工作[17, 33]通过计算光流并在修复前对图像进行扭曲来进行对齐。最近,Chan等人[2]表明,将空间对齐从图像层面转移到特征层面会产生明显的改善。在这项工作中,我们进一步进行实验来验证他们的说法。我们在BasicVSR的一个变体上比较了图像扭曲和特征扭曲。由于光流估计的不准确,扭曲的图像不可避免地会出现模糊和不正确的情况。细节的损失最终导致了输出的降低。在我们的实验中,当采用图像对齐时,观察到0.17dB的下降。这一观察证实了将空间对齐转移到特征层面的必要性。

  • 特征对齐
    重新移动/图像对齐的劣质性能促使我们诉诸于特征对齐。与基于流的方法[17, 25, 33]类似,BasicVSR采用光流进行空间对齐。但我们没有像以前的工作那样对图像进行扭曲,而是对特征进行扭曲以获得更好的性能。然后,对齐的特征被传递给多个剩余块进行细化。从形式上看,我们有

聚合和升频

BasicVSR采用了聚合和上采样的基本组件。具体来说,给定中间特征h {b,f} i,一个由多个卷积和像素洗牌组成的上采样模块[27]被用来生成输出的HR图像。

BasicVSR的总结

上面的分析激励了BasicVSR的设计选择。对于传播,BasicVSR选择了双向传播,强调长期和全局传播。对于对齐,BasicVSR采用了一个简单的基于流的对齐,但在特征层面上进行。对于聚合和上采样,流行的特征连接和像素洗牌的选择就足够了。尽管是一个简单扼要的方法,BasicVSR在修复质量和效率方面都取得了很好的表现。BasicVSR还具有高度的通用性,因为它可以很容易地容纳额外的组件来处理更具挑战性的场景,正如我们接下来所展示的。

3.2. 从BasicVSR到IconVSR

以BasicVSR为骨干,我们引入了两个新的组件–信息填充机制和耦合传播(IconVSR),以减轻传播过程中的错误积累并促进信息的聚合。

信息补给

在遮挡区域和图像边界上的不准确对齐是一个突出的挑战,会导致错误积累,特别是当我们在框架中采用长期传播时。为了减轻这种错误特征带来的不良影响,我们提出了一种信息重填机制来完善特征。如图5(a)所示,一个额外的特征提取器被用来从输入帧(关键帧)的子集和它们各自的邻居中提取深度特征。然后,提取的特征通过卷积与对齐的特征h¯ i(公式2)融合。值得注意的是,特征提取器和特征融合只应用于稀疏选择的关键帧。因此,信息重填机制带来的计算负担是微不足道的。虽然信息重填继承了关键帧的思想,但我们在此指出,与现有的基于区间的方法[15, 35]不同的是,耦合传播中的区间(由关键帧分隔)是独立处理的。

在双向设置中,特征通常在两个相反的方向上独立传播。在这种设计中,每个传播分支中的特征都是根据部分信息计算的,这些信息来自以前的帧或未来的帧。为了利用序列中的信息,我们提出了一个耦合的传播方案,其中传播模块是相互连接的。如图5(b)所示,在耦合传播中,向后传播的特征h b i被作为前向传播模块的输入(参见公式1,3)。通过耦合传播,前向传播分支接收来自过去和未来帧的信息,导致更高质量的特征,从而获得更好的输出。更重要的是,由于耦合传播只需要改变分支的连接,可以在不引入计算开销的情况下获得性能的提高。

5. 消融研究

5.1. 从BasicVSR到IconVSR的信息重填

我们对信息填充前后的特征进行定性的可视化,以获得对该机制的深入了解。如图8(a)所示,在信息填充之前,由于不存在对应关系,扭曲的特征中的边界像素基本上成为零。丢失的信息不可避免地恶化了特征的质量,导致输出结果的下降。通过我们的信息补给机制,额外的特征可以用来 "补给 "那些特征排列不整齐的区域中丢失的信息。然后,检索到的信息可以被用于后续的特征细化和传播。上述效果在具有精细细节的区域尤其明显。在这些区域,由于对齐错误,来自相邻帧的信息不能有效地汇总,往往导致质量下降。通过信息再填充,额外的特征有助于恢复细节,从而提高质量。例如,如图9所示,通过补给机制,车牌号可以更清晰地重建。耦合传播。为了消除耦合传播方案,我们禁用了信息填充机制,并将IconVSR与BasicVSR进行比较。在图8(b)中,黄色方框表示一个在以前的帧中被遮挡的区域,BasicVSR中的前向传播分支不能接收该区域的信息。红色方框表示一个在序列的所有帧中都存在的区域,因此可以在后面的帧中找到该区域的大量 “快照”。通过耦合传播,向后传播的特征被更有效地利用,因此可以重建更多的细节和更精细的边缘。

你可能感兴趣的:(图像超分辨率论文,计算机视觉,深度学习,人工智能)