CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio

注1:本文系“计算机视觉/三维重建论文速递”系列之一,致力于简洁清晰完整地介绍、解读计算机视觉,特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。
本次介绍的论文是:2023, CVPR, MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
文章DOI:
https://doi.org/10.48550/arXiv.2212.09478

CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio_第1张图片

CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

1 引言

人工智能在图像、视频和音频领域的内容生成方面取得了长足的进步。例如,DALL·E 2可以创建栩栩如生的艺术图像,DiffWave可以产生高保真的音频。但是,这些生成的内容只能提供单一感官体验,要么只有视觉要么只有听觉。与之相比,网络上大量由人类创作的内容往往涉及多模态,能同时提供视听体验,对人类来说更具吸引力。本文将从单模态生成向多模态联合生成迈出新的一步,专注于开放域音视频联合生成,以创造更加逼真的视频。

CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio_第2张图片

多模态生成的主要挑战在于:1)视频和音频是两种不同的数据模式,一个是3D信号,一个是1D波形,如何在一个模型中并行处理是个问题;2)视频和音频在时间维度上同步,需要模型能捕捉两者之间的关联并使其相互影响。

为解决以上问题,本文提出了第一个多模态扩散模型MM-Diffusion,包含两个耦合的降噪自动编码器,用于音视频联合生成。与现有的单模态模型不同,MM-Diffusion包含一个顺序的多模态U型网络,进行联合降噪处理。两个子网络分别用于逐步生成对齐的音视频对。为确保语义一致性,本文还提出了一个新的基于随机位移的注意力模块,桥接两个子网络,实现高效的跨模态对齐,增强音视频之间的逼真度。

2 动机

最近的生成模型进展很大一部分要归功于扩散模型。它们包括正向过程(信号映射到噪声)和反向过程(噪声映射到信号)。目前扩散模型主要用于单模态内容生成,如图像、视频或音频。将扩散模型应用于多模态生成仍很少被探索。

CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio_第3张图片

多模态生成的核心优势在于可以学习多个模态的联合分布。例如,在生成配对的音视频时,如果仅学习每个模态的条件分布 p ( v ∣ a ) p(v|a) p(va), p ( a ∣ v ) p(a|v) p(av),而不学习联合分布 p ( a , v ) p(a,v) p(a,v),将无法捕捉两者之间的内在统计关联。因此,设计一个联合模型 p ( a , v ) p(a,v) p(a,v),同时适应音频和视频两种完全不同的模式,是本文的关键动机。

具体来说,本文期望通过一个统一的多模态扩散模型,实现高质量的音视频联合生成。这不仅能增强单模态的生成质量,还能赋予生成内容更强的逼真感和沉浸感。

3 方法

本文提出了第一个多模态扩散模型MM-Diffusion,用于实现高质量的音视频联合生成。
CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio_第4张图片

3.1 多模态扩散模型

给定音频数据 a ∈ A a\in A aA和视频数据 v ∈ V v\in V vV,它们的正向过程是独立的:

q ( a t ∣ a _ t − 1 ) = N ( a t ; ( 1 − β t ) a _ t − 1 , β t I ) (1) q(a_t|a\_{t-1})=\mathcal{N}(a_t;(1-\beta_t)a\_{t-1},\beta_tI) \tag{1} q(ata_t1)=N(at;(1βt)a_t1,βtI)(1)

反向过程学习一个联合模型 θ _ a v \theta\_{av} θ_av,以联合重构音视频对:

p _ θ _ a v ( a _ t − 1 ∣ a t , v t ) = N ( a _ t − 1 ; μ _ θ _ a v ( a t , v t ) ) (2) p\_{\theta\_{av}}(a\_{t-1}|a_t,v_t)=\mathcal{N}(a\_{t-1};\mu\_{\theta\_{av}}(a_t,v_t)) \tag{2} p_θ_av(a_t1at,vt)=N(a_t1;μ_θ_av(at,vt))(2)

核心在于反向过程中考虑了两者的关联。用于优化整个网络的目标是 ϵ \epsilon ϵ-prediction loss:

L θ a v = E ϵ ∼ N ( 0 , I ) ∣ ϵ − ϵ θ _ a v ( a t , v t ) ∣ 2 (3) \mathcal{L}_{\theta_{av}}=\mathbb{E}_{\epsilon \sim\mathcal{N}(0,I)} | \epsilon - \epsilon_{\theta\_{av}}(a_t,v_t) | ^2 \tag{3} Lθav=EϵN(0,I)ϵϵθ_av(at,vt)2(3)

3.2 耦合U型网络

如图1所示,模型包含两个单模态U型网络,进行音视频的联合降噪处理。

  • 视频子网络使用2D+1D卷积和注意力
  • 音频子网络使用膨胀卷积和更长的历史依赖性建模

为桥接两个子网络,文章提出一种新的基于随机位移的多模态注意力模块(RS-MMA),如图2所示。其具有两个优点:

  • 将复杂度从 O ( T W H × T ) O(TWH\times T) O(TWH×T)降低到 O ( S W H × T F ) O(SWH\times\frac{T}{F}) O(SWH×FT)
  • 保持局部依赖建模能力

具体来说,给定视频帧 v ∈ R F × H × W v\in\mathbb{R}^{F\times H\times W} vRF×H×W和音频 a ∈ R C × T a\in\mathbb{R}^{C\times T} aRC×T:

(1) 将音频 a a a分割成 F F F段,每段形状为 C × T F C\times\frac{T}{F} C×FT

(2) 设置窗口大小 S S S,随机位移 R ∈ [ 0 , F − S ] R \in [0,F-S] R[0,FS]

(3) 计算第 i i i段音频与视频片段 v _ s : e v\_{s:e} v_s:e的注意力,其中 s = ( i + R ) s=(i+R)%\ F s=(i+R), e = ( i + R + S ) e=(i+R+S)%\ F e=(i+R+S)

3.3 条件生成

本模型虽然是无条件训练的,但可以零样本迁移到条件生成任务上,包括音频到视频,视频到音频。这可以验证模型的跨模态建模能力。

具体来说,使用替换法和基于梯度的方法进行条件采样。这不需要额外的微调,显示了扩散模型的强大能力。

4 实验和结果

实验在Landscape和AIST++数据集上进行,与最新单模态生成模型进行比较。结果显示MM-Diffusion可以显著提升音视频的生成质量,验证了模型的有效性。

具体来说,在Landscape数据集上,相比于SOTA模型,提升了FVD 25.0%和FAD 32.9%。在AIST++数据集上,提升了FVD 56.

我们还展示了模型进行零样本迁移的能力。如图3所示,模型可以根据类似模式的音频生成相似场景的视频,或者根据舞蹈视频的节奏生成匹配的音频。这进一步证明了我们的联合学习可以增强单模态生成。

CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio_第5张图片

我们也进行了主观评估。在AMT上进行的相关性评估显示,我们生成的音视频比既有的两阶段模型更好,与真实数据的差距也更小。图形图灵测试中,84.9%的Landscape合成音视频能成功迷惑用户,证明了生成结果的逼真度。

CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio_第6张图片

5 不足和未来展望

本文是第一个探索多模态联合生成的工作,也存在一些不足:

  1. 目前是无条件的生成方式,缺乏控制能力

  2. 生成质量尚可继续提升,人物细节生成仍需努力

  3. 训练和推理速度有待优化

未来的一些可能的研究方向包括:

  1. 探索文本语义控制的条件音视频生成

  2. 在具体的下游任务中探索多模态扩散模型,如视频补全、背景音乐合成等

  3. 进一步提升模型质量和速度

6 总结

本文提出了第一个多模态扩散模型MM-Diffusion,实现了高质量的音视频联合生成。主要贡献是提出了多模态扩散的形式化表示,设计了耦合的U型网络进行联合建模。实验结果展示了生成效果显著优于当前最先进的单模态模型。本文向着多模态生成迈出了重要的一步。后续工作可以探索条件生成和Downstream应用。

你可能感兴趣的:(#,计算机视觉/三维重建论文速递,CVPR,Diffusion,MM-Diffusion,Multi-modal,多模态)