Inserting Videos into Videos_论文阅读

CVPR 2019
原文链接:https://arxiv.org/pdf/1903.06571v1.pdf

摘要

主要任务:将对象视频插入场景视频中的指定位置,使新得到的视频看起来真实。
亮点:不使用复杂的标注,处理不同的对象运动和复杂的背景。
方法:合成假数据对。

简述

遇到的挑战:在没有任何监督的情况下,需要处理不同背景,遮挡,光照条件和物体尺寸等挑战性问题。 例如,过分依赖于对象分割方法的算法的性能,该算法通常无法在复杂场景中准确地裁剪前景对象。
解决方法:首先解决图像域中的相关问题,即如何将给定的对象图像插入到来自不同视频的其他帧中。为了缓解不成对数据的问题,提出合成可以为对象插入提供监控信号的伪数据。
   通过混合来自每个视频的对象图像和随机背景补丁来生成伪数据。 然后,网络学习如何从混合数据重建对象。 由于重建误差提供了强有力的监督信号,这种方法利用不成对的真实数据促进了生成对抗框架的学习过程。 在推理期间,将新对象混合到场景视频的目标位置,然后馈送到训练的网络。
  使用去噪自动编码器的想法:在合成当前帧之前将随机噪声注入到先前的帧中。从而降低帧崩溃。 它迫使网络学习先前帧和当前输入之间的语义,而不是盲目地复制和粘贴来自先前帧的大部分信息。

主要贡献

1)从图像到视频的对象插入领域。
2)提出了一种新颖的方法来合成有监督的假训练对,它可以帮助深层神经网络学习插入没有监督真实对的对象。
3)开发了一个新的条件GAN模型,以促进无人监督的真实和有监督的假训练对的联合训练。
4)证明了所提出的算法可以基于具有挑战性的真实世界输入视频来合成逼真的视频。

相关工作

图像插入
视频合成

算法

你可能感兴趣的:(GAN,视频合成)