论文来源:ECCV2018
论文链接:Spatio-Temporal Transformer Network for Video Restoration | SpringerLink
改进STN(空间变换网络)为STTN(时空变换网络)来解决光流估计中常见的遮挡问题。
先由一个时空流估计网络对输入的图像序列输出预测的光流估计结果(u,v,z),包括空间上的光流u,v和跨帧的时间流z。其网络结构是一个浅层U-Net,下采样2次后又上采样回原尺寸,最后得到光流估计结果。然后用时空采样器根据这三个分量的偏移对像素位置进行采样,采样函数采用了三线性插值的方法。通过这种方法来利用相邻帧信息对当前帧进行重建。
最先进的视频恢复方法集成了光流估计网络来利用时间信息。然而,这些网络通常只考虑一对连续帧,因此不能捕获长距离的时间依赖性,并且不能跨多个时间步建立对应。为了缓解这些问题,我们提出了一种新的时空变换网络(STTN),它可以同时处理多个帧,从而减轻光流估计中常见的遮挡干扰。我们提出的STTN包括一个在空间和时间上估计光流的模块和一个使用估计的光流选择性地扭曲目标帧的重采样层。在我们的实验中,我们证明了所提出的网络的有效性,并展示了在视频超分辨率和视频去模糊方面最先进的恢复结果。
balabala
在本文中,我们基于这些思想,提出了一种特定于任务的端到端无监督时空流估计方法,它是一种密集的光流,通过允许多个连续帧作为网络输入,选择性地捕获长距离的时间相关性。为此,我们将空间变换网络[13]扩展为时空变换网络(STTN),它能够在空间和时间上建立密集的像素对应。我们证明了在多个连续的帧上进行推理并在每个像素位置选择其中一个帧有助于缓解光流估计中常见的遮挡问题。我们的方法的另一个优点是,它可以以无监督的方式进行训练,从而使大的标记数据集的可用性变得不必要。当与为特定任务定制的视频恢复网络结合使用时,我们以最小的计算开销获得了可观的性能增益。我们证明了我们提出的STTN对于视频超分辨率和视频去模糊的挑战性任务的有效性,并且在现有技术的基础上有了很大的提高。总之,我们作出以下贡献:
我们引入了一种时空流估计网络,该网络可以选择性地捕获长距离的时间相关性,而不需要大量的计算开销,并且可以缓解传统光流估计中的遮挡问题。
我们提出了一种时空采样器,它可以通过估计的时空流对输入数据进行时空操作。
通过简单地将所提出的网络置于最先进的方法之上,我们在具有挑战性的视频恢复任务(如视频超分辨率和去模糊)上显示了有希望的结果。
Jaderberg等人[13]提出的空间变换网络(STN)能够对特征图进行一般性的扭曲,在许多视觉应用中得到了广泛的应用。特别是对于视频恢复任务,许多深度学习方法基于STN的变体来估计相邻帧之间的光流,并将目标帧对准参考帧[30–32,34]。然而,STN只允许对输入数据进行空间操作。为了在每个时间步处理多个视频帧,需要多次使用STN,这在应用于实时设置时是一个严重的限制。
因此,我们引入了一种新型的时空变换网络(STTN),该网络能够有效地实现输入数据的时空扭曲,并减轻传统STN的局限性的同时没有很大的计算开销。在图1中,我们提出的STTN的整体结构由一个时空流估计网络和一个时空采样器组成。在下面的部分中,我们将详细介绍每个组件。
传统的基于模型的方法共同解决光流估计和视频恢复问题[1–3,28],最近基于学习的方法通过使用现成的方法来估计光流[29,45],或者通过使用子网络来估计光流[30,31,34]。
然而,所有这些先前的方法都估计两个连续帧(参考帧和目标帧)之间的光流,因此需要计算N次光流来处理每个时间步的N个目标帧。此外,如图3所示,在没有很好地建立对应关系(例如遮挡和光照变化)的情况下,传统的流量估计网络是不可靠的。
为了克服这些限制,我们提出了一种新的时空流估计网络,它采用多个相邻帧序列
作为输入,其中H,W,C,T表示高度、宽度、通道数和输入帧数,并输出归一化的三维时空光流.值得注意的是,输出流的高度和宽度可能与输入流的高度和宽度不同,具体取决于应用。因此,我们的时空网络可以在一个时间步长内非常有效地处理多个帧,并且与传统的只考虑一个目标帧的工作不同,由于多个目标帧中有多个匹配候选,因此它对遮挡和光照变化的鲁棒性更强。
所提议的类似U-net[48]的时空流估计网络的详细配置如图2所示。所有卷积层用3×3过滤器和之后是批量标准化[49]和ReLu,除了最后一个卷积层后面是tanh以输出标准化流。由于我们的光流估计网络是完全卷积的,一旦训练完成,它可以在推理时用来处理任意(空间)大小的帧。
通过使用3.1节中的时空流,选择性地扭曲多个目标帧来合成与参考帧对齐的新图像,需要在三维时空空间中执行采样的新采样器。本文将传统的空间采样模块从二维空间扩展到三维空间,提出了一种时空采样模块。我们的时空采样器将多个目标帧的强度值插值为:
其中表示位置(x,y)处的像素插值而是具有时间偏移i的像素位置(n,m)处的的强度值i∈ Δ. 例如,我们可以定义窗体的滑动窗口Δ = {−2,...,3}. 函数δ 定义使用时空流(u、v、z)的插值方法。任何函数δ 定义的子梯度可用于[13]中介绍的采样。这里,我们使用三线性插值δ 在我们的视频恢复任务。它由下式给出:
注意,时空流(u,v,z)的非规范化版本在(2)中被定义,即,u(x,y)和v(x,y)表示水平和垂直运动位移,并且z(x,y)被映射到接近目标帧索引的实值,该目标帧索引被倾向于在(x,y)处匹配。
类似于[13]中的双线性空间采样过程,我们的三维空间三线性采样机制也是可微的。关于我们的时空流的梯度推导如下:
注意,的梯度可被类似的导出,更一般地说,我们的时空转换器可以获取一组的特征映射取代图像作为输入,关于的梯度如下所示:
这意味着所提出的时空取样器允许损失梯度容易地反向传播到输入帧或特征图中。
我们的时空流估计网络可以同时处理多个不同的帧,可以用更少的计算工作量代替传统方法中光流估计模块的多种用途[30,31,45]。此外,我们的时空采样机制也可以非常有效地处理现代gpu。此外,与传统的STN方法在单个目标帧中估计匹配点相比,该网络可以从时空空间的多个帧中找到更好的对应点。这导致了一个网络可以对异常值的遮挡或照明变化的鲁棒性更强。
我们的时空变换网络直接将空间变换网络扩展到三维空间。正因为如此,以前空间变换网络的许多特性可以在所提出的网络中得到推广。首先,我们的时空变换网络可以很容易地以端到端的方式训练,因为损失梯度可以向后流过采样器和流量估计网络,并且可以将其放置在传统网络的任何位置以有效地选择性地变换或合并多个特征图。因此,除了我们的视频复原任务外,所提出的模块还可以应用于许多应用中。第二,与空间变换器仅在二维空间域上对特征图进行上下缩放不同,我们的时空变换器不仅可以在空间域上改变形状,还可以在时间空间上改变形状。接下来,如[13]中所建议的,我们的网络也可以在网络的深度增加的情况下多次添加,或者在不同的时间步并行处理多个对象,而空间变换网络只能在单个时间步处理多个对象。
最近基于学习的光流估计方法是在大型合成数据集上训练的,如Flyinging Chairs[4]和MPI Sintel数据集[22]。然而,据我们所知,没有可用的数据集可以用来直接训练我们的时空流估计网络,并且利用光流数据集来训练所提出的网络并不简单。因此,我们以无监督的方式训练我们的网络。特别地,对于我们的视频恢复应用,我们建议通过将来自时空采样器的合成图像约束为:
中,表示与时间步t处的参考帧相对应的地面真值帧。
在本节中,我们将展示STTN的强大功能和多功能性,并展示如何通过简单地添加所提出的时空变换器来进一步改进最先进的图像和视频恢复网络。
为了评估STTN的扭曲性能,我们使用具有不同超参数设置(例如,目标帧数)的视频数据集来训练该方法。如图4(a)所示,我们使用了一个带STTN的视频恢复网络,以及由卷积层和残差块组成的图像处理模块,如[34,44,50]所示。该网络通过联合最小化公式5中的Lflow和潜在真值图像和地面真值图像之间的MSE来训练,并比较了扭曲(合成)和地面真值帧。
首先,我们使用超分辨率数据集训练网络。由于没有标准的高分辨率视频超分辨率数据集可用,我们收集了一组高质量的youtube视频,并提取了120k超高清帧来训练网络。下一步,我们通过将干净的视频帧缩小4倍,然后对其进行量化,然后再将低分辨率帧提升到原始图像大小。我们评估了八个不同设置下训练的网络:其中四个取2-5个输入帧,然后对估计的流和目标帧进行采样。另外四个网络也以2-5个帧作为网络输入,但同时以参考帧和目标帧运行采样器,即参考帧也被视为目标帧。类似地,我们还比较了在视频去模糊数据集上训练的不同网络[45]。在图4(b)–(c)中,扭曲帧的质量根据重建误差(即Lflow)进行评估。总的来说,网络随着更多的输入性能越来越好,虽然由于我们增加更多的帧性能增益在慢慢饱和。此外,我们观察到,将参考帧视为目标可以显著降低重建误差,因为它可以在没有对应的情况下渲染参考帧本身。因此,我们将参考帧作为后续实验的目标。在图5(e)–(h)中,我们的流程图和变换后的图像是可视化的。如预期的那样,运动呼啦圈遮挡的背景区域主要由参考帧本身映射,用彩色箭头表示。
我们进一步将我们的网络集成到最先进的超分辨率网络中,并提供比较来展示我们网络的性能。
我们提出了一种新的时空变压器网络(STTN),它推广了空间变压器网络[13],同时减轻了它的一些限制。我们的STTN由一个时空流估计模块和一个时空采样器组成,前者从多个图像帧(或特征图)中计算三维时空流,后者在时空空间中插值多个输入。通过这种方式,所提出的模型有效地缓解了传统流量估计网络中存在的区域不匹配的问题,通过同时利用多个输入而不是使用单个目标输入。在多个视频恢复任务中证明了该模型的优越性,我们只需在传统网络的基础上简单地增加所提出的模块,就可以获得最先进的性能。