论文阅读 | Long-term Video Frame Interpolation via Feature Propagation

前言:CVPR2022的一篇插帧的文章,从一个有趣的角度讲了目前插帧存在的问题,并且用的方法Propagation也很新颖
论文地址:【here】

Long-term Video Frame Interpolation via Feature Propagation

问题阐述

目前插帧的文章几乎很少从帧间的大时间间隔考虑。随着连续帧之间的时间距离的增加,插值帧变得非常具有挑战性。
(这里我的理解是,虽然有插8帧16帧这样的数据集,但是这样的数据集原本帧率就很高,但降低帧率插帧的数据集就几乎没有)
采用的方法:基于传播的方法,过去用于动作识别、实例分割、语义分割
依据:在大帧间距离时,恢复的帧更依赖靠近它自己的那个参考帧,而不是平等的依赖相邻两帧

网络设计

  • 特征提取网络:Encoder
  • 传播网络:motion-to-feature network (M2FNet)
  • 光流预测网络:FFNet(PWC)
  • 特征解码网络:Feature-to-Frame Decoding
  • 插值网络:INet

论文阅读 | Long-term Video Frame Interpolation via Feature Propagation_第1张图片
特征提取网络:普通的encoder,编码不同层特征
传播网络(M2FNet):包括global (DG) and local (DL) motion decoders.
DG:分别传播生成m个不同时间间隔的帧,由t向t+i方向传播,具体实现如下
在这里插入图片描述
DL:再对DG网络的输入连接原输入再进行一遍特征提取
在这里插入图片描述
光流预测网络:
预测特征层的不同光流,具体有:
论文阅读 | Long-term Video Frame Interpolation via Feature Propagation_第2张图片
特征解码网络:
对于预测i时刻的帧来说,用从初始t时刻到i-1时刻的特征用光流warp得到若干个i时刻 特征,用attention加权得到一个新的warp特征v
论文阅读 | Long-term Video Frame Interpolation via Feature Propagation_第3张图片
解码网络的输入为五个不同特征cat到一起
在这里插入图片描述

插值网络:
文中提到,这样的设计在长距离效果好,在帧间短距离效果不太好,因为,短距离更平均的依赖相邻两帧,而这个网络更侧重于依赖近的一帧。
因此做了一个tradeoff,在距离短的时候,采用SLOMO网络插帧,距离长的时候,用文章提出的PNet,
论文阅读 | Long-term Video Frame Interpolation via Feature Propagation_第4张图片

实验结果

对比实验:在帧率小的时候(长距离)的确效果更好
论文阅读 | Long-term Video Frame Interpolation via Feature Propagation_第5张图片
frame GAP 增加:性能会下降,加了PNet使下降程度变缓
论文阅读 | Long-term Video Frame Interpolation via Feature Propagation_第6张图片

下图的实验说明了:插帧的中间时刻的效果的确没有两边的好(24倍插帧)
论文阅读 | Long-term Video Frame Interpolation via Feature Propagation_第7张图片

你可能感兴趣的:(论文阅读,深度学习,人工智能)