自从相机发明以来,人们对高质量视频的追求从未停止过。
分辨率从480p,720p,到1080p,现在是2K,4K;帧速率从25FPS到60FPS,到240FPS,960FPS甚至更高.
如果仅依靠相机的硬件迭代来增加帧速率,则会有限制,因为相机传感器在单位时间内捕获的光有限制。而且,相机硬件迭代周期长,成本高。
最近,商汤算法团队提出了一种二次视频内插算法,可以感知视频中运动的加速度。打破了以往帧内插法的线性模型,预测了二次光流。与深卷积网络融合,使您的视频平滑。
这种方法有多强大?对比一下:
如果放慢视频速度,可以明显感觉到没有帧内插的慢动作视频(左)会明显冻结,而商汤二次(二次)视频帧内插方法(右)处理的视频播放流畅。
二次插值与传统线性插值
以往的视频帧插值方法(包括相、DVF、SepConv和SuperSloMo等)假设相邻帧之间的运动是均匀的,即沿直线匀速运动。然而,真实场景中的运动往往是复杂的、非线性的,传统的线性模型会导致帧内插结果不准确。
以投掷橄榄球运动视频为例(见下图1)。实际运动的轨迹是抛物线。如果在第0帧和第1帧之间插入一个帧,线性模型方法会将该轨迹模拟为线性轨迹(从右数第二个),这与实际的运动轨迹(右三)完全不同。
图1:开发用于加速感知视频插值的二次模型。 最左侧的子图显示了视频中的四个连续帧,描述了足球的弹丸运动。 其他三个子图通过不同的算法显示帧0和1之间的插值结果。 请注意,我们将这些结果重叠以更好地可视化插值轨迹。 由于线性模型[31]假设两个框架之间的运动均匀,因此它无法很好地逼近现实世界中的运动。 相比之下,我们的二次方方法可以利用来自四个相邻帧的加速度信息,并在视频帧之间生成更准确的视频。
二次插值帧是如何“细化”的?
上堂研究团队建立了一个能够感知视频运动加速度的网络模型。与传统的线性帧插值模型使用两帧输入不同,它使用四个相邻的图像帧来预测从输入帧到中间帧的光流。简单流程图如下:
图2:二次视频插值算法概述。 我们首先使用现成的模型来估计输入帧的流场。 然后,我们引入二次流预测和逆流层来估计ft→0和ft→1。 我们在本文中详细描述了ft→0的估计过程,并且可以类似地计算ft→1。 最后,我们通过将输入帧与ft→0和ft→1扭曲和融合来合成中间帧。
、、 和 是输入视频连续的四帧。给定任意时刻t(0
其中,二次光流预测是寻找中学常提到的匀速变速运动位移的过程:假设在时间[-1,1]处的运动是匀速加速度,则可以利用位移来推断时间0的速度和加速度,即,可计算从时间0到任意时间t的位移:
图3:视频中物体运动的示意图,,,分别表示物体,,, 中的位置
通过上述方法,我们可以进行对称计算。在这一点上,我们得到了加速度信息和。
为了得到高质量的中间帧,需要求出反向光流和。
为此,上堂课题组提出了一种可微的“光流反转层”来预测和。以下转换公式可用于有效地将和转换为和,但它可能在反向光流的移动边界处引起强烈的振铃效应(见图4)。
为了消除这些强振荡部分,上堂研究团队提出了一种基于深度神经网络的自适应反向光流采样滤波器(Adaptive flow filter)。
实验表明,自适应滤波器(ada)能有效地降低光流反转引起的振铃效应,从而提高最终合成帧的质量。
自适应流过滤可减少(a)中的伪影,并生成更高质量的图像(d)。
实验结果
研究团队对GOPRO、Adobe240、UCF101和DAVIS四种知名视频数据集进行了评估,并与业界领先的帧内插方法Phase、DVF、SepConv和SuperSloMo进行了比较。在每个数据集上,商汤二级视频PIN方法明显超过现有的方法(见表1和2)。
表1.上堂提出的方法与业界领先的GOPRO和Adobe240数据集方法的比较
表2:GOPRO数据集上的ASFP。
表3:商汤方法与UCF101和DAVIS数据集上的行业领先方法的比较
此外,上堂研究团队还对各种方法生成的中间帧的关键点进行了跟踪和可视化。从图5中两种情况下的视频运动轨迹可以看出,真实慢动作相机采集到的中间帧(GT)轨迹是弯曲的。由线性模型(SepConv、SuperSloMo、Oursw/o qua)生成的中间帧的运动轨迹均为直线。相反,上汤模型能更准确地预测非线性轨迹,得到更好的帧内插结果。
图5:GOPRO数据集上的定性结果。 每个示例的第一行显示了插值中心框架和地面真相的重叠。 重叠的图像越清晰,表示插值结果越准确。 每个示例的第二行通过特征点跟踪显示了所有7个插值帧的插值轨迹。
总结
论文地址或源码下载地址:关注“图像算法”wx公众号 回复"商汤插值",商汤算法团队提出了一种可以合成高质量中间帧的二次视频插值算法, 此方法将视频的相邻帧的加速度信息用于非线性视频帧插值,并有助于端到端训练。 与在不同视频数据集上的现有线性模型相比,该方法能够更准确地对现实世界中的复杂运动进行建模,并产生更令人满意的结果。 虽然我们在这项工作中专注于二次函数,但提出的公式是通用的,可以扩展到甚至更高阶的插值方法,例如三次模型。 我们还希望该框架能够应用于其他相关任务,例如多帧光学流程和新颖的视图合成。
综上所述,商汤提出的帧内插法能够较好地预测视频中的运动加速度,可以比现有的线性帧内插算法更好地预测中间帧。