论文阅读 | Optimizing Video Prediction via Video Frame Interpolation

前言:CVPR2022利用视频插帧做视频预测的文章,用到的是优化的思想,不用训练网络
论文地址:【here】

Optimizing Video Prediction via Video Frame Interpolation

引言

介绍了什么是视频预测,即给连续两张图片预测接下来一张图片或几张图片
目前视频预测存在的问题:需要对场景设置限制,泛化性不好
文章思想:利用已经成熟领域的视频插帧的网络进行视频预测

网络架构

优化流程
这张架构图可以清晰明了的阐释优化过程
论文阅读 | Optimizing Video Prediction via Video Frame Interpolation_第1张图片
视频插帧网络G选定,已知xt-1和xt图片
先初始化一个ft+1-t的光流,后向warp得到xt+1图片
将xt+1和xt-1输入网络,可以由网络得到输出It,和已有的xt比较得到一个图像级别的损失,光流比较也可以得到一个图像级别的损失,这两个损失加权集合起来得到一个总损失
于是
论文阅读 | Optimizing Video Prediction via Video Frame Interpolation_第2张图片
利用这样的一个微分后向传播公式,不断的更新原初始化光流,于是又可以重新开始一次迭代
文章给了实验的迭代次数和结果的关系
论文阅读 | Optimizing Video Prediction via Video Frame Interpolation_第3张图片
这就是整个网络的一个流程,还是比较简单明了的

实验细节
作者还给了一些实验细节
初始化的输入光流
作者利用下面的公式来初始化光流
在这里插入图片描述
即使前向光流t-t-1取负,约等于t-t+1,再利用前向后向光流相互转换的计算得到后向光流t+1-t

网络的最终输出
一般的插帧网络的输出都由两部分组成,即左右两边帧warp后的融合而成
论文阅读 | Optimizing Video Prediction via Video Frame Interpolation_第4张图片
这里作者只用右边帧warp后的结果,即(6),作者解释It+1和Xt+1更接近并可以不用考虑mask的影响

实验结果

在驾驶数据集上
论文阅读 | Optimizing Video Prediction via Video Frame Interpolation_第5张图片

在其他数据集上
论文阅读 | Optimizing Video Prediction via Video Frame Interpolation_第6张图片
可以发现结果提升非常明显,可见用视频插帧的方法应用到视频预测是有效的,并且二者发展的成熟度相差很多

你可能感兴趣的:(论文阅读,计算机视觉,人工智能)