论文学习——VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation

VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation(用于高质量视频生成的解耦扩散模型)

英文原文链接:https://arxiv.org/abs/2303.08320

Abstract

概率扩散模型(DPM)通过向数据点内逐步加入噪声来构建前向扩散过程,再通过学习反向去噪过程来生成新样本,这种方法能处理较为复杂的数据分布,并在图像合成领域大放异彩。

但在高维数据空间中使用DPM生成视频仍然很困难。先前的方法使用标准扩散过程,在这个过程中,相同视频片段中的帧会被独立的噪声破坏,忽略了视频中应有的内容上的冗余性和时间上的相关性。

本工作提出了一种解耦的扩散过程,通过将每一帧的噪声分别为在所有帧之间共享的基础噪声和在时间轴上变化的剩余噪声两部分。而去噪过程使用两个联合学习的网络来匹配相应的噪声解耦过程。该模型可以从预训练的图像扩散模型中受益。

1. Introduction

将DPM运用到图像生成上的任务有很多,而使用DPM模型生成视频仍然处于一个早期阶段,由于视频数据处于更高维度,并且涉及到复杂的时空关系,该任务面临着许多挑战

如abstract所述,这些基于DPM的视频生成方法都使用标准扩散过程,同一个视频的不同帧之间加入了独立的噪声,而视频在有噪声的潜变量上的时间相关性也被逐渐破坏。因此,相应DPM模型在去噪过程中,就需要从互相独立的噪声样本中重建连贯的帧。然而,在去噪网络中同

你可能感兴趣的:(论文学习,学习,人工智能,计算机视觉)