Few-shot Video-to-Video Synthesis

Few-shot Video-to-Video Synthesis

打卡+坚持
今日语录:千里之行始于足下
论文
代码

让蒙娜丽莎说话,让大卫雕塑跳舞的快速视频到视频的合成

摘要

  • 视频到视频的合成v旨在把输入的语义视频,例如人体姿态或者是分割掩模的视频转换为输出的具有真实感的视频。尽管当下最好的vid2vid已经取得很大的进展,但是仍然有两个主要的限制性。第一个是,他们缺乏数据,在训练的时候需要大量的目标人物或者是场景的图像。其次,这个学习模型的泛化能力有限。一个姿态到人的vid2vid模型只能合成在训练集中单个人的姿态。他不能泛化到其他不在训练集中的其他人。为了解决这种局限性,我们提出了一种小样本的vid2vid的框架,这种框架学习通过在测试时利用少量的样本图片合成之前没有见过的物体或场景的视频。我们的模型通过利用一个注意力机制的新型网络权值生成模块实现小样本的泛化能力。我们使用几个大规模的视频数据集,包括人类舞蹈视频、说话的人脸和街景视频,与基准比较并进行了大量的实验验证。实验结果验证了该框架在解决现有vid2vid方法的两个局限性方面的有效性。代码可以在我们的网站上找到。

1. Introduction

  • 视频-视频合成是指将输入的语义视频转换为输出的具有真实感的视频。它的应用范围很广,包括利用人体姿态序列[7,12,57,67]生成人类跳舞的视频,或者使用分段掩模序列[57]生成驾驶视频。通常,要获得这样的模型,首先要收集目标任务的训练数据集。它可以是一组目标人物表演各种动作的视频,也可以是一组在城市里行驶的汽车上的摄像头捕捉到的街道场景视频。然后使用该数据集训练一个模型,该模型在测试时将新的输入语义视频转换为对应的真实感视频。换句话来说,我们希望有这样的vid2vid模型,对于人来说,它可以生成此人在训练集中没有的新动作的视频,而对于一个街道场景,vid2vid模型可以生成与训练集中具有相同风格的新街道场景的视频。随着生成式对抗网络框架发展以及条件生成式对抗网络的出现,现有的vid2vid方法表现出了很好的前景。

  • 我们认为仅推广到新的输入语义视频时不够的。我们还应该建立一个模型,它可以推广到未知的领域,比如生成训练数据集中没有包含的人类受试者的视频。更理想的情况是,一个vid2vid模型应该能够通过利用测试时给出的几个样本图像来合成未知的视频。如果一个vid2vid模型不能推广到训练集中没有的人或场景风格,那么我们必须为每个新的主题或场景样式训练一个模型。此外,如果一个vid2vid模型仅使用少量的样本图像无法实现这种域泛化能力,那么就必须为每个新的主题或场景样式收集大量的图像。这将使得模型不容易扩展。遗憾的是,现有的vid2vid方法存在这些缺点,因为它们没有不能这样进行泛化。

Few-shot Video-to-Video Synthesis_第1张图片
vid2vid与few-shot vid2vid的对比 图一

  • 现有的vid2vid方法[7,12,57]没有考虑将其推广到不可见域。一个训练好的模型只能用来合成类似于训练集中的视频。例如,vid2vid模型只能用于生成训练集中的人的视频。当需要为一个新的人合成视频时,需要收集这个人的数据集,并使用它来训练一个新的vid2vid模型。而我们的few-shot vid2vid模型没有局限性。我们的模型可以利用测试时提供的少量样本图像来合成新的人的视频。

  • 为了解决这些限制,我们提出了few-shot vid2vid框架。few-shot vid2vid 框架需要两个输入来生成视频,如图1所示。除了像vid2vid中那样的输入语义视频外,它还需要第二个输入,该输入由一些在测试时可用的目标域样本图像组成。注意,这在现有的vid2vid方法中中是不存在的[7,12,57,67]。我们的模型使用这些少量的示例图像,通过一种新的网络权值生成机制来动态配置视频合成机制。具体来说,我们训练一个模型来使用样本图像生成网络权值并精心设计了学习目标函数,方便学习网络权值生成模块。

  • 我们通过使用几个大规模的视频数据集,包括跳舞视频,头部讲话视频和街道场景视频与各种基准方法的比较进行了广泛的实验验证。实验结果表明,该方法有效地解决了现有vid2vid框架的局限性。此外,我们的模型的性能与训练数据集中视频的多样性以及测试时可用的样本图像的数量呈正比。当模型在训练时遇到更多不同的域时,它可以更好地泛化来处理未知的域(图7(a))。当在测试时给模型更多的样本图像时,合成视频的质量会提高(图7(b))。

2. Related Work

GANS:

  • few-shot vid2vid模型是基于GANs。具体来说,我们使用的是Conditional GAN框架。我们不是通过输入一些噪声样本来生成输出[13,42,32,14,25],而是基于用户输入的数据生成输出,这使得我们可以更灵活地控制输出。当然,用户输入的数据可以是不同形式的,包括图像[22,68,30,41]、分类标签[39,35,65,4]、文本描述[43,66,62]以及视频[7,12,57,67]。这里,我们采用的数据是视频。但是与现有的以视频为唯一数据输入的videoconditional GANs不同的是,我们的模型还采用了一组样本图像。这些样本图片是在测试时提供的,我们使用它们通过一个新的网络权值生成模块动态地确定我们的视频合成模型的网络权值。这有助于网络生成未见过的视频。

Image-to-image synthesis:

  • 图像-图像的合成是将输入图像从一个域转换到另一个域的对应图像[22,50,3,46,68,30,21,69,58,8,41,31,2],这是vid2vid的基本原理。对于视频来说,新的挑战在于生成的帧序列不仅具有真实感,而且在时间上作为一个整体是一致的。最近,人们提出了一种利用自适应实例归一化技术[19]生成不可见域图像的FUNIT[31]。我们的工作与之不同,我们的目标是视频合成和实现泛化到看不见的领域通过网络权值生成方案。我们在实验部分会比较这些技术。

Video generative models

  • 视频生成模型可以分为三个主要的类别,包括:

    1). 无条件视频合成模型[54,45,51],将随机噪声样本转换为视频片段

    2). 视频预测模型[48、24、11、34、33、63、55、56、10、53、29、27、18、28、16、40],根据观测到的视频帧来生成之后的视频帧。

    3). vid2vid模型[57,7,12,67],它将输入的语义视频转换成逼真的视频。

    我们的工作属于最后一类,但与之前的工作相比,我们的目标是一个vid2vid模型,它可以利用测试时给出的少量示例图像来合成未知域的视频。

Adaptive networks

  • 自适应网络是指根据输入数据动态计算部分权值的网络。这类网络与常规网络具有不同的归纳偏差,已在序列建模[15]、图像滤波[23,59,49]、帧插值[38,37]和神经结构搜索[64]等多个任务中得到应用。在这里,我们将其应用于vid2vid任务。

Human pose transfer synthesizes

  • 人体姿势转换通过利用不同姿势的人的图像合成一个新的姿势。为了获得高质量的生成结果,现有的人体姿态传递方法主要利用人体先验,如身体部位建模[1]或基于人体表面的坐标映射[36]。我们的工作不同于这些工作,因为我们的方法更有
    泛化性。除了输入语义视频外,我们不使用特定的人体先验。因此,相同的模型可以直接用于其他vid2vid任务,如街景视频合成,如图5所示。此外,我们的模型是为视频合成而设计的,而现有的人体姿态转移方法大多是为静态图像合成而设计的,没有考虑问题的时间方面。最终,我们的方法呈现了时间上更一致的结果(图4)。

3. Few-shot Video-to-Video Synthesis

视频-视频合成的目的是学习一个映射函数,它可以把输入的语义图像序列
在这里插入图片描述
转换成
在这里插入图片描述

未完待续!!!!!!!!!!!!!!!!!!

你可能感兴趣的:(计算机视觉)