【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation

文章目录

  • 前言
  • 原理
  • 方法
    • 图像 DPM(Diffusion Probabilistic Model)![在这里插入图片描述](https://img-blog.csdnimg.cn/0fa806ea7f77425a8c1b1eda68bb768f.png)
    • 视频DPM
    • 分解 Diffusion 过程
    • 使用预训练的DPM
  • 实验

前言

VideoFusion[1] 是阿里达摩院在今年3月提出的一种新的基于 DPM 的视频生成方法。和之前的一些视频生成方法(Imagen Video、Make-A-Video等)相比,VideoFusion 摒弃了常见的 spatial/temporal super-resolution 方法,完全使用 DPM 来做图像和视频序列的生成。此外,VideoFusion 相关的模型和代码也在达摩院的 ModelScope 上进行了开源[2] ,可以直接在网页上直接实现相关的 demo。本文将简要介绍 VideoFusion 的原理以及相应的本地部署方法。

原理

扩散模型(Diffusion Probabilistic Model,DPM)在图像生成领域取得了非常大的进展,可以生成高质量、多样的图像。因此,一种非常自然的想法就是利用扩散模型来生成视频。然而,目前基于扩散模型的视频生成还处于一个比较初级的阶段。因为视频和图像相比是更高维的数据(多了一个时间维度),并且在 spatial-temporal 上具有更强的相关性。

扩散模型一般有两个过程,加噪(noising)过程和去噪(denoising)过程[3]。之前的一些工作中,当作者使用DPMs 来生成图像时,不同的关键帧往往使用不同的 noise。然而,我们知道,视频的帧与帧之间具有很强的相关性,相邻两帧的图像往往大部分内容是相似的,只有少部分内容是不同的。使用不同噪声生成的图像,很难保证具有足够强的相关性。因此,VideoDefusion 尝试将视频生成过程中的噪声(noise)进行分解,将噪声分成基础噪声(base noise)和残差噪声(residual noise)。其中,基础噪声保证视频帧与帧之间大部分内容的一致性,是视频中所有帧共享的噪声;残差噪声负责保证帧与帧之间的差异,保证视频的多样性,不同帧的残差噪声是不相同的。

【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation_第1张图片
此外,作者还发现,使用这种方法实际上是将视频的风格和动作进行了分解(就像是 GAN-based 方法的 content code 和 motion code)。作者给出了一张图来演示这种区别,Figure 1 中演示了三段视频,每一行都是一个视频。第一行和第二行两个视频共享基础噪声,所以体现到生成的视频中就是视频风格(背景、穿着、色调)相同,动作不同;第二行和第三行两个视频共享残差噪声,体现到生成的视频中就是动作相同,视频风格不同。

方法

图像 DPM(Diffusion Probabilistic Model)【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation_第2张图片

视频DPM

【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation_第3张图片

分解 Diffusion 过程

【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation_第4张图片
作者也贴了张图介绍了一下 VideoFusion 的 noising 过程,实际就是每次 noising 加上两个噪声,一个是基础噪声b,只根据扩散 step 变化,加到视频中所有帧上,另一个是残差噪声r,每一帧每一个 step 的残差噪声都不同。

【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation_第5张图片

使用预训练的DPM

【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation_第6张图片

实验

作者主要使用了三个数据集(UCF101、Sky Time-lapse、TaiChi-HD做定量分析,用 Fréchet Video Distance (FVD) 、Kernel Video Distance (KVD) 、Inception Score (IS)作为评价指标。此外,作者在 WebVid-10M 上训练了一个 text-to-video 的模型,用来定性评估模型图像的生成效果。

你可能感兴趣的:(论文精读,人工智能,计算机视觉,深度学习)