video prediction深度学习算法汇总

SDC-Net:Video prediction using spatially-displaced convolution

ECCV2018,未开源,来自英伟达团队,看结构是vid2vid前身,与另一篇CVPR2019 oral 《Improving Semantic Segmentation via Video Propagation and Label Relaxation》,三者应该来自同一团队。

主要思想是希望结合vector based方法(光流融合类)和kernel based方法各自的优点,即vector based擅长捕捉大motion,kernel based方法擅长捕捉小细节(受kernel size限制无法建模large motion)。

video prediction深度学习算法汇总_第1张图片

vector-based可以理解为传统光流法的融合,文章使用双线性采样。

kernel-based很像卷积的操作,每个像素点给出一个与该像素点为中心的patch等大的核,与该patch卷积乘法后得到该像素点变换后的值。

本文则是提出两种方法结合起来的SDC-based,先vector-based,再kernel-based。

 video prediction深度学习算法汇总_第2张图片

网络架构如图,本文借助训练好的FlowNet2作为光流生成工具,对输入序列计算光流后,与对应帧叠加,变成每帧为5个通道(RGB3+光流2)的视频序列。输入G之后生成下一帧的光流u和v(所谓的vector-based),和两个方向的K(kernel based),每个方向都有原图像素点等多个k。

网络使用了3D卷积,K的head使用了三线性插值代替反卷积,削弱棋盘问题。

文中提到了光流本身存在的不准确的问题,所有没有使用光流作监督(否则效果会变差),然而还是使用了光流作为输入,这是会存在问题的做法(后作vid2vid里没有再这么做,而是只采用光流预测正确的部分作监督)。

训练步骤比较繁琐,先训(u,v),再fix Network只训K的head(K初始化为近似middle-one-hot),再用L1训全部,最后用finetune loss提升生成图像的真实性。

PhyDNet:Disentangling Physical Dynamics from Unknown Factors for Unsupervised Video Prediction

CVPR2020,未开源,来自法国。

主要思想是试图用深度网络构建物理约束模型,方法是用卷积模拟偏导,用moment loss作监督,学到物理信息,从而对已有的网络(文中使用ConvLSTM)进行信息补充。

video prediction深度学习算法汇总_第3张图片

如图,右边为已有深度网络可以捕捉到的信息,本文试图使用深度网络通过偏微分方程来建模先验物理知识,即左边的信息。最后将物理信息和已有信息结合获得更好的结果。

video prediction深度学习算法汇总_第4张图片

video prediction深度学习算法汇总_第5张图片

本文主要创新点在PhyCell,该单元的计算公式:

E(u)表示的是对输入真实帧的encode,ht为t时刻隐变量,Φ(h(t, x))是隐变量对空间每个像素点的偏导和,该公式与很多物理模型公式类似,如热力学方程、波动方程、对流扩散方程等。 

Kt也是由网络学出来。该式可以改写成以下公式:

video prediction深度学习算法汇总_第6张图片

式(6)被认为是通过数学模型推算出的数值,式(7)则被认为是基于数据训练对数学模型进行的修正,其中K公式如下:

 

Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity and Temporal-Consistency Video Prediction

CVPR2020,开源,来自中科院计算所。

主要思想是用小波变换分别获得时间、空间域的低频和高频信息,并融入网络,试图解决视频预测任务中空间维度细节和时间维度motion不准的问题。

作者认为之前视频预测问题在两方面:

1. 细节特征的丢失,往往是下采样造成的空间高频细节丢失。虽然空洞卷积可以替代下采样,但是空洞卷积对small objects不友好。

2.动态场景里的动作往往有多个频率,如小汽车比大卡车快。作者认为之前的RNN类网络无法捕捉不同频率的动作。

video prediction深度学习算法汇总_第7张图片作者给出该方法对速度拟合的优势示例。

video prediction深度学习算法汇总_第8张图片

文章分别用DWT-S模块和DWT-T模块对空间高低频和时间高低频进行捕捉,空间1高3低,时间2高2低。采用LSTM迭代往前预测的方法,每帧使用卷积+RRDB(来自ESRGAN,当初尝试过使用ESRGAN做超分辨,但是效果不咋滴)来进行特征提取,每个RRDB后融合DWT-S获取的当前scale下的高低频信息。时间维度高低频信息融合在LSTM后,进行一个时间维度的矫正。

video prediction深度学习算法汇总_第9张图片

该文号称多频分析第一人,引入S-WAM和T-WAM结构,从实验结果来看,WAM的引入对网络确实带来不小提升,但在网络结构上,个人认为并不能算是非常好的设计。在没有WAM的情况下,网络是比PredRNN还差的,即使是完全体比E3D-LSTM好了不少(不过E3D论文中的Mnist指标就很难复现,不如MIM),但是文章是用了GAN loss的,E3D和PredRNN++基本都是主要基于L1 L2,GAN loss带来的指标上的改进占多少,文章没有做消融实验。

 

你可能感兴趣的:(深度学习,视频预测)