【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019

题目: Video Generation from Single Semantic Label Map

  • 原文:https://arxiv.org/pdf/1903.04480v1.pdf
  • pytorch代码:https://github.com/junting/seg2vid

摘要

任务:

video generation conditioned on a single semantic label map, which provides a good between flexibility and quality int he generation process.

从一张语义分割图,生成多帧图像,从而生成视频。

方法:

we synthesize
high quality content by only generating the first frame. We employ a cVAE for predicting optical flow as
a beneficial intermediate step to generate a video sequence
conditioned on the initial single frame.
【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019_第1张图片
先从语义图用image generation的方法生成图像,再用提出的方法来预测光流、再生成多帧图像。

本文用到的方法:

  • image generation: pix2pixHD
  • video generation: cVAE(proposed)

为什么不用video2video:

【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019_第2张图片
video2video的好处是end-to-end。但是端对端的坏处是不好训练,因为不同的物体有不同的运动。所以本文才采用的分治策略,变成语义图->首帧图像->多帧视频。

怎么预测运动:

因为各语义的运动状况不一样,比如建筑和行人有着不同的运动状态。所以本文还利用了语义信息,将语义和首帧图像作为两个输入,来预测之后的运动。运动模式则用光流(optical flow)来建模,根据光流来warp图像。

本文贡献:

  • novel task of conditioning video generation on a single semantic label map, allowing a good balance between flexibility and quality compared to existing video generation approaches.
  • divided into two sub-problems, i.e., image generation followed by image-to-sequence generation, such that each stage can specialize on one problem.
  • make full use of the semantic categorical prior in motion prediction when only one starting frame is available. It helps predict more accurate optical flow, thereby producing better future frames.

相关工作

Image Generation

  • unconditional image generation: 根据一个随机向量来生成图像,比如GAN, VAE。
  • conditional image generation: 根据语义信息、文本信息、语音等来生成图像,比如pix2pixHD就是根据语义图来生成图像。

Video Generation

  • unconditional video generation: 根据多个随机向量来生成一组连续的图像,比如TGAN, MoCoGAN。
  • conditional video generation: 根据一组连续的语义图来生成视频,比如vid2vid。本文的工作也属于video generation,不过只需要一张语义图。

Video Prediction

  • 通过中间的隐变量来映射到最后的图像,以Ground truth为监督信息来进行训练
  • 通过预测出optical flow或filter来生成预测图像。本文即预测optical flow,并且是一种非监督训练方式。

本文工作

【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019_第3张图片

Image-to-Image

【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019_第4张图片

从Semantic Label Map到Starting Frame的过程就是用到的Pix2pixHD方法(这个方法是可以替代的,比如Nvidia新出的SPADE)

Image-to-Video

Conditional VAE(核心方法)

【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019_第5张图片

接受两个输入:一组视频图像,通过Encoder产生隐向量z_m; 一个首帧图像,通过Encoder产生z_{I_0}。这两个z合道一起,再加上首帧图像,输入到Flow-Decoder中。这样Inference的时候,只需要首帧图像,再加一个符合标准分布的噪声z,就可以产生一组序列图像。

Flow Prediction

【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019_第6张图片

在本文里,Decoder并不直接产生视频图像,而是先预测出光流图,再根据光流来warp首帧图像从而产生多帧视频图。同时为了保证光流预测的准确性,使用了cycle机制,生成forward flow过程和backward flow过程,利用cycle来监督光流的信息。还加入了occlusion mask来提高性能。

Video frame Generation

【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019_第7张图片

得到光流图后,就是通过warp操作来对首帧图像进行形变。但是为了改良warp的效果,加入了一个Post-processing network来调整生成图像。

Loss Function

to do

Flow prediction with semantic label maps

【论文阅读】Video Generation from Single Semantic Label Map-CVPR2019_第8张图片

为了在训练时网络可以考虑到语义信息,将语义图分为foreground semantic和background semantic,然后分别输入到一个encoder中,使得网络在学习时能有侧重点。

实验

本文主要是在Cityscapes、UCF101等数据集上做实验。具体的量化实验结果可以去论文里看,直接看生成的效果:

(在我跑了一下开源的代码后,感觉效果确实不错。)

总结

之前在看运动预测时,大多是根据多帧图像来生成光流,然后预测之后的图像。而这篇利用单帧图像来做预测还是挺有意思的。并且单帧图像生成光流对现在自己的研究也有一些用。只跑了源码的Inference,具体的细节还没看。总之是篇不错且有意思的研究。

比较重要的参考文献

  • Y. Li, C. Fang, J. Yang, Z. Wang, X. Lu, and M.-H. Yang. Flow-grounded spatial-temporal video prediction from still
    images. arXiv preprint arXiv:1807.09755, 2018. 3, 6
  • S. Meister, J. Hur, and S. Roth. Unflow: Unsupervised learning of optical flow with a bidirectional census loss. arXiv
    preprint arXiv:1711.07837, 2017. 2
  • C. Vondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics. In Advances In Neural Informa-
    tion Processing Systems, pages 613–621, 2016. 1, 2
  • J. Walker, C. Doersch, A. Gupta, and M. Hebert. An uncertain future: Forecasting from static images using variational
    autoencoders. In European Conference on Computer Vision, pages 835–851. Springer, 2016. 3
  • T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, G. Liu, A. Tao, J. Kautz, and B. Catanzaro. Video-to-video synthesis. arXiv preprint
    arXiv:1808.06601, 2018. 1, 2, 3, 6
  • T. Xue, J.Wu, K. Bouman, and B. Freeman. Visual dynamics: Probabilistic future frame synthesis via cross convolutional networks. In Advances in Neural Information Processing Systems, pages 91–99, 2016. 3, 4

你可能感兴趣的:(Deep,learning)