Efficient Diffusion Models for Vision: A Survey

Efficient Diffusion Models for Vision: A Survey

论文:https://arxiv.org/abs/2210.09292

摘要

​ 扩散模型(DM)在内容生成方面表现出了最先进的性能,无需对抗性训练。这些模型采用两步过程进行训练。首先,前向扩散过程会逐渐增加数据(通常是图像)的噪声。然后,反向扩散过程逐渐去除噪声,将其转化为正在建模的目标分布的样本。DM受非平衡热力学的启发,具有固有的高计算复杂性。由于高维空间中频繁的函数求值和梯度计算,这些模型在训练和推理阶段都会产生相当大的计算开销。这不仅会妨碍基于扩散的建模的民主化,而且会阻碍扩散模型在实际应用中的适应性。更不用说,由于过度的能源消耗和环境恐慌,计算模型的效率正迅速成为一个重要问题。这些因素导致了文献中的多个贡献,这些贡献集中在设计计算效率高的DM上。在这篇综述中,我们介绍了视觉扩散模型的最新进展,特别关注影响DM计算效率的重要设计方面。特别是,我们强调最近提出的设计选择,这些设计选择导致了更高效的DM。与其他最近的评论不同,这些评论从广泛的角度讨论了扩散模型,本次调查旨在通过突出文献中的设计策略来推动这一研究方向,从而为更广泛的研究群体提供实用的模型。我们还从计算效率的角度展望了视觉扩散模型的未来。

1. 介绍

​ 深度生成性建模已经成为最令人兴奋的计算工具之一,甚至挑战着人类的创造力[1]。在过去十年中,生成对抗网络(GAN)[91]、[92]由于其高质量的样本生成而受到了广泛关注。然而,扩散模型[2]、[3]、[4]最近已成为一种更强大的生成技术,威胁着GAN在合成数据生成中的统治地位。

​ 扩散模型由于其比GAN更稳定的训练以及生成的样本质量更高而迅速流行。这些模型能够解决GAN的一些臭名昭著的局限性,如模式崩溃、对抗性学习的开销和收敛失败[5]。与GAN相比,扩散模型的训练过程使用了一种非常不同的策略,包括用高斯噪声污染训练数据,然后学习从噪声中恢复原始数据。从可扩展性和可并行性的角度来看,这些模型也很适合,这增加了它们的吸引力。此外,由于他们的训练过程是基于对原始数据进行小的修改并对其进行校正,因此他们学习的数据分布的样本与原始数据密切相关。因此,在生成的样本中实现了强烈的真实感。正是由于这些属性,当前图像生成的最新技术受到扩散模型的强烈影响,取得了惊人的结果[6]、[7]、[10]。

​ 由于其惊人的生成能力,扩散模型很快在低级和高级视觉任务中得到应用,包括但不限于图像去噪[93]、[74]、修补[100]、图像超分辨率[98]、[99]、[101]、语义分割[94]、[95]、[96]、图像到图像的翻译[4]等,自从扩散概率模型[8]比最初的扩散模型[46]有了重大进展以来,这方面的研究论文数量不断增加,每天都有新的令人兴奋的模型出现。特别是,在DALL-E[7]、Imagen[102]和Stable[80]模型实现了高质量的文本到图像生成之后,扩散建模在社交媒体上得到了相当大的宣传。最近,文本到视频的生成技术进一步助长了这种炒作,视频看起来相当复杂[88],[103]。图1提供了关于扩散模型的最新文献的统计数据和时间线概述,以显示其受欢迎程度,特别是在视觉社区。

Efficient Diffusion Models for Vision: A Survey_第1张图片

​ 扩散模型属于概率模型的一类,它需要过多的计算资源来建模未观察到的数据细节。他们的训练过程需要评估遵循迭代估计(和梯度计算)的模型。当处理图像和视频等高维数据时,计算成本变得特别巨大[9]。例如,[11]中的高端扩散模型培训需要V100 GPU150-1000 天。此外,由于推理阶段还需要对有噪声的输入空间进行重复评估,因此该阶段的计算要求也很高。在[11]中,需要5天的A100 GPU才能产生50k样本。Rombach等人[80]正确地指出,训练有效扩散模型的巨大计算需求是这项技术民主化的关键瓶颈,因为研究界通常缺乏这类资源。显然,使用扩散模型的最令人兴奋的结果首先是由Meta AI[88]和Google Research[103]实现的,他们拥有巨大的计算能力。同样值得注意的是,评估一个已经训练好的模型需要花费大量的时间和内存,因为模型可能需要运行多个步骤(例如25-1000)以生成样本[10]。这是扩散模型实际应用的潜在障碍,尤其是在资源受限的环境中。

​ 在当代大规模数据时代,早期关于扩散模型的研究侧重于高质量样本的生成,而忽略了计算成本[8],[11],[12]。然而,在达到合理的质量里程碑之后,最近的工作也开始考虑计算效率,例如[80]、[97]、[60]。特别是,为了解决推理阶段生成过程缓慢的真正缺陷,最近的工作出现了一种新趋势,重点是提高效率。在这篇综述文章中,我们将在计算效率视角下发展的扩散模型统称为有效扩散模型。这些新兴模型对研究界更有价值,因为它们需要可访问的计算资源。尽管在提高计算效率方面不断取得进展,但在样本生成方面,扩散模型仍然比GAN慢得多[13],[14]。我们在不牺牲样本生成的高质量的情况下,回顾了与效率相关的现有工作。此外,我们还讨论了模型速度和采样质量之间的权衡。

为什么模型效率至关重要?扩散模型已经能够产生惊人质量的图像和视频,几乎不需要用户的努力-见图2。这预示着这些模型在日常生活应用领域中的广泛应用,如娱乐行业。扩散模型或任何人工智能平台的创新能力都不是免费的。高质量的生成性建模是能量密集型的,质量要求越高,消耗的能量就越多。训练一个复杂的人工智能模型需要时间、金钱和力量[15]、[16],从而留下大量的碳足迹。从一个角度来看,OpenAI在45 TB的数据上训练了GPT-3模型[17]。Nvidia使用512个V100 GPU训练了MegatronLM的最终版本,这是一种与GPT-3相当但比GPT-3小的语言模型。单个V100 GPU可能消耗300瓦。如果我们估计功耗为250瓦,512 V100 GPU使用128000瓦或128千瓦(kW)[18]。MegatronLM运行9天需要27648千瓦时的电力。根据美国能源信息管理局的数据,平均家庭每年消耗10649千瓦时。这意味着,培训MegatronLM所需的能量几乎相当于三座房屋一年所需的能源。在目前最受炒作的扩散模型中(由于其执行文本到图像任务的能力),例如DALL-e[7]、Imagen[102]和Stable[80],Stable是迄今为止最有效的,因为其扩散过程主要在低维潜在空间中进行。然而,即使是这个模型的训练也需要相当于燃烧近7000公斤煤炭的能量1。更不用说文本到图像扩散模型已经依赖于语言模型,如上面提到的GPT-3。其他扩散模型,尤其是对于更复杂的任务,例如文本到视频,预计需要更多的能量2。因此,由于这些模型的快速普及,重点关注更高效的方案至关重要。

Efficient Diffusion Models for Vision: A Survey_第2张图片

本次调查的动机和独特性:由于扩散模型最近受到了研究界的极大关注,文献在这方面正经历着大量的贡献。这也导致了最近出现的评论文章。其中,Yang等人[3]从方法和应用的角度回顾了扩散建模的广阔方向,Cao等人[2]也更广泛地讨论了扩散模型。与我们的综述更相关的是[4],它关注视觉领域中的扩散模型。一方面,在这之前,所有这些评论都已经浮出水面方向完全成熟。例如,使用扩散模型[88]、[103]实现高质量文本到视频生成的突破实际上是在所有这些调查出现之后实现的。另一方面,这些调查都没有关注模型的计算效率,这是推动这一研究方向的中心方面。因此,这些调查留下了明显的空白。我们的目标是通过强调提高扩散模型计算效率的技术的基本方案来解决这一问题。我们从这一务实的角度对现有方法进行了全面审查,预计将以本文编写过程中出现的审查未涵盖的方式推进这一研究方向。

2. 扩散模型概述

​ 概率扩散模型的最初想法是对随机噪声的特定分布进行建模。因此,生成样本的分布应该与原始样本的分布相同。它包括一个正向过程(或扩散过程),其中复杂数据(通常是图像)被逐渐加噪,以及一个反向过程(或反向扩散过程)。这里,我们特别描述了三种模型,因为它们对有效扩散结构的影响。它包括去噪扩散概率模型(DDPM)[8]、潜在扩散模型(LDM)[10]和特征金字塔潜在扩散模型[19]。

A. The Baseline: Denoising diffusion probabilistic models (DDPM):

Efficient Diffusion Models for Vision: A Survey_第3张图片

​ 假设我们有一个从真实数据分布中采样的原始数据点 x 0 ∼ q ( x ) x_0∼q(x) x0q(x)。让我们定义一个正向扩散过程,在该过程中,我们逐渐向样本添加少量高斯噪声,从而产生一系列噪声样本 x 1 , … , x T x_1,…,x_T x1xT。步长 [ β t ∈ ( 0 , 1 ) ] t = 1 T [β_t∈(0,1)] ^T_{t=1} [βt(01)]t1T由方差调度控制。

在这里插入图片描述

​ 然而,扩散模型的实际优势是称为反向扩散的反向过程,因为训练扩散模型的目的是学习反向过程。这可以通过训练神经网络来近似这些条件概率来完成,以便运行反向扩散过程。

在这里插入图片描述

​ 当条件为 x 0 x_0 x0时,反向条件概率是可处理的

在这里插入图片描述

​ 将训练数据的概率最大化的反向马尔可夫变换用于训练扩散模型。实践中的训练类似于减小负对数概率的变化上限。由于此配置与VAE极为相似,我们可以应用变化下限来优化负对数似然。

在这里插入图片描述

​ 为了使方程中的每个分量都可以解析计算,可以将目标重新表述为许多KL散度和熵项的混合。让我们分别标记变分下限损耗的每个分量:
在这里插入图片描述

​ 由于LVLB中的每个KL项(不包括L0)都比较两个高斯分布,因此它们可以以封闭形式计算。在反向扩散过程中,训练神经网络来近似条件概率分布。由于 x t x_t xt在训练时可用作输入,高斯噪声项可以重新参数化为:

在这里插入图片描述

​ 从经验上讲,训练扩散模型在忽略加权项的简化目标下效果更好:

在这里插入图片描述

​ 最后一个简单的目标是 L = L t + C L=L_t+C L=Lt+C,其中C是一个不依赖于 θ θ θ的常数。

模型效率:通过遵循反向扩散过程的马尔可夫链从DDPM生成样本非常缓慢,因为T可以达到一个或几千个步骤。例如,在Nvidia 2080 Ti GPU上,从DDPM中采集尺寸为32×32的50k图像大约需要20小时,但从GAN中采集不到一分钟。

B. Latent diffusion model (LDM):

Efficient Diffusion Models for Vision: A Survey_第4张图片

​ 这些模型在潜在空间而不是像素空间执行扩散过程,降低了训练成本,提高了推理速度。这是由发现驱动的,即大多数图片比特都有助于感知细节,并且语义和概念组成在极端压缩后仍然存在。通过生成性建模学习,LDM通过首先使用自动编码器去除像素级冗余,然后利用扩散过程对学习到的潜在信息操纵/生成语义思想,从而松散地分解感知压缩和语义压缩。

​ 在感知压缩过程中使用自动编码器模型。E编码器用于压缩输入图片x∈ ×3转换为较小的2D潜向量。 z = ϵ ( x ) ∈ R h × w × c z=\epsilon(x)∈R^{h×w×c} z=ϵ(x)Rh×w×c,其中下采样率 f = H / h = W / w = 2 m , m ∈ N f=H/h=W/w=2^m,m∈ N f=H/h=W/w=2mmN然后,解码器D从潜在向量 x ~ = D ( z ) \widetilde{x}=D(z) x D(z)重建图像。为了防止潜在空间中的任意大的方差,该研究研究了自动编码器训练中的两种正则化。

​ LDM模型的神经主干被实现为时间条件UNet。该模型能够主要从2D卷积层构建底层UNet,并使用重新加权的边界进一步将目标集中在感知上最相关的比特上,该边界现在为:

在这里插入图片描述
​ 在潜在向量z上,发生扩散和去噪过程。去噪模型是一个有时间条件的UNet,它补充了一个交叉注意机制,以管理图片制作的灵活条件信息(例如类标签、语义图、图像的模糊变体)。该设计类似于将各种模态的表示融合到具有交叉注意机制的模型中。每种条件信息都与特定于域的编码器 τ ∈ R M × d τ τ∈\mathbb{R}^{M×d_τ} τRM×dτ

Efficient Diffusion Models for Vision: A Survey_第5张图片

C. Feature Pyramid Latent Diffusion Model ( Frido):

Efficient Diffusion Models for Vision: A Survey_第6张图片

​ Frido将输入图像分解为与尺度无关的量化特征,然后通过粗选通到细选通获得输出结果。简而言之,作者首先使用多尺度MS-VQGAN(multi-scale VQGAN),将输入图像编码到潜在空间,然后使用Frido在潜在空间中进行扩散。MS-VQGAN的编码器将输入图像编码为N级潜在变量,类似于图像金字塔,但在潜在空间中。低级潜在变量保持低级视觉细节,而高级潜在变量保持高级形状和结构。然后,解码器将获得的所有尺度的隐藏变量解码为输出图像。这个隐藏变量的金字塔的大小也会随着层数的增加而减小,并且每层都是上层的一半。通过这种方式,可以维护高级语义信息和更低级的细节。给定图像 x 0 x_0 x0,编码器E首先生成N个尺度的潜在特征图集每个尺度T步需要 N T N × T N S t e p T NTN×TNStepT NTN×TNStepT。然后向前添加噪声的扩散操作首先破坏图像的细节,然后破坏高级形状,最后破坏整个图像的结构。

​ 相应的去噪过程是一个从高水平到低水平的过程。基于先前的U-Net,作者提出了一种特征金字塔U-Net(PyU-Net)[19],以实现多尺度的去噪过程。该PyU网络的两个创新之处:通过向每个尺度添加一个轻量级网络,每个层的隐藏变量映射到同一维度,以便它们可以统一为U-Net的输入。相应地,也有必要为U-Net的输入增加轻量化。要重新映射回当前缩放信息维度的网络量。添加了从粗到精的门控,以允许低级别去噪,从而利用现有的高级别信息。为了更有效地进行培训,作者使用了教师强制技巧,与教师强制一起工作,以保持培训效率,同时防止过度匹配,并使UNet能够获得有关当前规模级别和时间步长的信息。最后,另一个特定级别的投影解码U-Net输出,以预测z上添加的噪声,目标如下:

在这里插入图片描述

3. EFFECTIVE STRATEGIES FOR EFFICIENT DIFFUSION MODELS:

​ 扩散模型需要重构需要采样的数据分布。有效扩散模型的主要障碍是其采样过程效率低下,因为从DDPM生成样本非常缓慢。扩散模型依赖于扩散步骤的长马尔可夫链来生成样本,因此在时间和计算方面可能非常昂贵。

​ 近年来,为加快取样程序作出了重大努力。我们将这些影响策略分为两类:高效设计策略(EDS)和高效过程策略(EPS),前者建议对基线扩散模型的设计进行修改,后者建议如何提高扩散模型的效率或加快采样过程。然而,这些策略是通过修改文献推断出来的,未来的工作可能包括以下未提及的一些新颖策略。

A. Efficient Design Strategies (EDS)

Efficient Diffusion Models for Vision: A Survey_第7张图片

​ 这些策略基于扩散模型的架构。表1包括了所包括的每个建筑类别中的一些代表性工作。以下讨论了每个类别的简要描述及其对扩散模型效率的影响:
Efficient Diffusion Models for Vision: A Survey_第8张图片

1-分类器导向或非导向设计:分类器导向是最近开发的一种策略,用于在训练后条件扩散模型中平衡模式覆盖率和样本保真度,低温采样或截断用于其他形式的生成模型。一个例子是Nichol[44]的一个工作,该工作在噪声图像 x t x_t xt上训练分类器 f φ ( y ∣ x t , t ) f_φ(y|x_t,t) fφ(yxtt),和使用渐变 ∇ x l o g f φ ( y ∣ x t ) ∇xlog f_φ(y|x_t) xlogfφ(yxt),以通过改变噪声预测来将扩散采样过程导向条件信息y(例如,目标类标签)。

​ 指导是一种权衡:它增强了对调节信号和整体样本质量的坚持,但变化的代价很高。尽管分类器指南成功地权衡了截断或低温采样的质量指标(IS和FID),但它仍然依赖于图像分类器的梯度。

​ 无分类器引导[20]在没有这种梯度的情况下实现了相同的效果。无分类器引导是修改梯度以具有与分类器引导相同的效果但没有分类器的替代方法。它提高了样本质量,同时降低了扩散模型中的样本多样性。

2-离散或连续设计:扩散过程是一个连续的例子,其特征可能是随机微分方程。概率流ODE(扩散ODE)是连续时间微分方程[45]。去噪扩散概率模型(DDPMs)[8]在连续状态空间中的图像和波形生成方面显示了令人印象深刻的结果。

​ 去噪扩散模型在许多常见图像数据集上产生了显著的对数似然分数,并且在连续情况下产生了高质量的图像。许多数据集是离散的,但为了便于建模,它们经常被嵌入到连续的空间中,并被连续建模。

​ 结构化的破坏过程适用于文本数据,使用令牌之间的相似性来实现渐进破坏和去噪。具有离散状态空间的扩散模型首先由Sohl-Dickstein等人[46]引入,他们考虑了二元随机变量的扩散过程。考虑二元随机变量的简单2×。

​ Hoogeboom等人[47]后来将其扩展到分类变量,提出了一个转移矩阵。

​ 然而,这可能会导致棘手的建模问题,例如“去量化”阻塞、奇怪的梯度问题以及理解对数似然度量的困难。通过单独表示离散数据,可以避免所有这些顾虑。

​ 对于有序数据,离散模型不是均匀地过渡到任何其他状态,而是通过使用离散的截断高斯分布来模拟连续的空间扩散模型。

​ 就有效设计而言,离散扩散设计更可取,因为它有助于减少样本数量。具有离散状态空间的扩散模型首先由Sohl-Dickstein等人[46]提出,他考虑了二元随机变量的扩散过程。

​ 尽管扩散模型已经在离散和连续状态空间中提出,但当前的许多工作都集中于在连续状态空间(例如,对于实值图像和波形数据)中运行的高斯扩散过程。

3-分数匹配网络或SDE设计:分数网络可用于创建ODE(“基于分数的扩散ODE”),用于评估精确概率[30],[48]。他们通过将参数化得分网络与一阶数据得分函数匹配来模拟数据的分布。关于随机变量x的对数似然的梯度被定义为分数。

在这里插入图片描述

​ 分数匹配的目的是通过优化Fisher散度来减少ptextdata和ptextdata之间的差异。它已用于医学应用,如低剂量计算机断层扫描(LDCT),导致低信号-信噪比(SNR)和诊断性能的潜在损害。条件降噪扩散概率模型(DDPM)已被证明能够提高LDCT降噪性能,并在高计算效率下获得令人鼓舞的结果。特别是考虑到原始DDPM模型的高采样成本,可以对快速常微分方程(ODE)求解器进行缩放,以大大提高采样效率。实验[49]表明,加速DDPM可以在不降低图像质量的情况下实现20倍的加速。

​ 随机微分方程(SDE)[21]是一个微分方程,其中一个或多个项是随机过程,产生的解本身就是随机过程。

​ 扩散ODE可以看作是一种减少离散化误差的半线性形式。DPM solver在CIFAR-10上用50个步骤完成了SOTA[73],它可以生成高质量的图像),这是一个广泛的升级。

​ 与具有离散步长的传统扩散方法相比,微分方程的数值公式使用高级求解器实现了更有效的采样。灵感来自分数SDE和概率流(扩散),ODE。

4-金字塔或非金字塔设计:训练扩散模型的金字塔方法,使其能够通过提供坐标信息作为条件来理解输入的不同尺度。这些模型连接输入图像并协调每个像素的值。然后,将随机调整到目标分辨率的大小应用于合并的输入。调整后的坐标值用正弦波编码,扩展到高维空间,并作为训练时的条件。得益于类似UNet的模型结构[59],成本函数对所有不同的分辨率都是海带不变的,因此可以仅使用单个网络进行优化。多尺度分数函数(采样速度)是扩散模型的最关键缺点,通过反向采样过程,与单个完整DDPM相比,采样速度也可以更快。

​ 因此,金字塔或多尺度方法为扩散模型提供了更好的效率。

5-基于像素或潜在表示的设计:数字图像的大部分比特对应于不重要的信息。

​ 虽然DM允许通过最小化负责任的损失项来抑制语义上无意义的信息,但梯度(在训练期间)和神经网络主干(在训练和推理期间)仍然必须在所有像素上进行评估,从而导致冗余计算和不必要的昂贵优化和推理。

​ 模型类潜伏扩散模型(LDMs)通过单个网络通道从潜伏空间提供有效的图像生成。LDMs在学习的潜伏空间中工作,在空间维度方面表现出更好的缩放特性。

​ 因此,与基于像素的设计相比,潜在模型是有效的。

B. Efficient Process Strategies (EPS)

​ 这些战略的目标是改进扩散过程本身。表2包括所包括的每个工艺类别中的一些代表性工作。下面对每种类型及其对扩散模型效率的影响进行了简要描述:

Efficient Diffusion Models for Vision: A Survey_第9张图片

1-训练策略:为了提高采样速度,有几种策略侧重于修改训练模式和噪声时间表。然而,再训练模型需要更多的处理,并增加了不稳定训练的风险。幸运的是,有一系列称为无训练采样的方法,它们使用预先训练的模型直接增强了采样算法。

​ 高级无训练采样的目的是提供一种有效的采样方法,用于以更少的步骤和更高的精度从预先训练的模型中学习。分析方法、隐式采样器、微分方程求解器采样器和动态规划调整是三种类型。

​ 通过使用内存技术,动态编程可以遍历所有选项,以在相对较短的时间内找到最佳解决方案。与以前的高效采样方法相比,动态规划方法发现了最佳采样路径,而不是构造更快速减少误差的强步骤。

2-噪声分布策略:与DDPM[8]不同,DDPM将噪声规模定义为常数,对噪声规模学习效果的研究受到了很大的关注[55],因为噪声计划学习在扩散和采样期间也很重要。

​ 每个采样步骤都可以被视为在直达前面分布的直线上的随机游走,这表明降噪可能有助于采样操作。随机噪声的随机游动由扩散和采样过程中的噪声学习引导,从而实现更有效的重构。

​ 在大多数已知方法中,扩散过程的潜在噪声分布是高斯噪声。另一方面,用更多的自由度拟合分布可以提高此类生成模型的性能。正在研究扩散过程的其他噪声分布形式。去噪扩散伽马模型(DDGM)[54]表明,伽马分布的噪声改善了图像和声音的生成。

​ 从随机噪声中获得的样本将在每个采样步骤中重新调整,以更接近原始分布。

​ 然而,使用扩散模型进行采样需要太多的步骤,导致耗时的情况[74]。

3-混合或统一策略:混合建模需要将另一种形式的生成模型合并到扩散模型管道中,以利用其他人的高采样速度,如对抗性训练网络和自回归编码器,以及高表达性,如规范化流[75]、[60]、[62]。因此,通过将两个或多个模型与指定的模式组合来提取所有的优势,可能会导致一种称为混合建模的升级。

​ 扩散方案学习的目的是研究不同扩散模式对模型速度的影响。截断扩散和采样过程,从而缩短采样时间,有利于降低采样时间,同时提高生产质量。截断模式的主要目标是使用各种生成模型(如GAN[76]和V AE[77])生成较少分散的数据。

​ 通过逐步从一个样本模型提取知识到另一个样本,可以增强扩散模型[78]。在教学生创建尽可能接近教师模型的一步样本之前,学生模型在每个蒸馏步骤中都会根据教师模型重新加权。因此,学生模型可以在每次蒸馏操作期间将样本步骤的数量减少一半。

​ 广义扩散的加速方法有助于广泛模型的求解,并提供了有效采样机制的见解。其他相关研究建立了扩散模型与去噪分数匹配之间的关系,这可以被认为是一种统一。

4-调度策略:改进训练计划需要更新经典的训练方法,如扩散方案、噪声方案和数据分配方案,所有这些都与采样无关。

​ 在求解扩散SDE时,减小离散化步长有助于加快采样操作。然而,这种技术会导致离散化错误,并显著影响模型性能[60]。因此,已经设计了几种策略来优化离散化方案,以在保持优良样本质量的同时最小化采样步骤。

​ 为了创建预测,马尔可夫过程仅使用前一阶段的样本,这限制了大量早期数据的使用。相比之下,非马尔科夫过程的转换核可能依赖于更多的样本,并使用这些样本中的更多信息。因此,它可以创建具有高步长的准确预测,从而加快采样方法。

​ 或者,只需执行反向过程的某些阶段以获取样本,就可以用样本质量换取采样速度。一些采样可以通过在早期暂停或截断正向和反向过程,或者通过重新训练学生网络并通过知识蒸馏绕过部分阶段来完成。

​ 使用强条件条件,扩散取样可以在几个步骤中完成。早期停止(ES)DDPM通过使用VAE生成之前的数据来生成隐式分布,从而学习潜在空间[66]。

​ 如前所述,生成过程通常需要与扩散过程相同的步骤来重建DDPM中的原始数据分布[8]。然而,扩散模型具有所谓的解耦特性,因为它不需要相同数量的扩散和采样步骤。隐式采样方法基于生成隐式模型,包括确定性扩散和跳步采样。令人惊讶的是,隐式模型不需要重新训练,因为前锋的扩散概率密度在任何时候都是恒定的。DDIM[43]使用连续过程公式来解决跳跃加速问题。

5-检索策略:在训练过程中,RDM[71]、[72]从外部数据库获取最近邻居的集合,扩散模型以这些信息样本为条件。检索增强的工作原理是查找与您提供的提示类似的照片,然后让模型在创建过程中查看它们。

​ 在训练过程中,通过CLIP和从每个训练实例附近获得的可比较视觉特征被输入扩散模型。通过使用CLIP的组合图像-文本嵌入空间[79],该模型在未经明确训练的任务(如类条件或文本-图像合成)上提供了非常有竞争力的性能,并且可能取决于文本和图片嵌入,以提高其性能。检索增强扩散模型[80]最近被有效地用于文本引导的艺术图像合成。

​ Retrieval Augmented Text to Image Generator(Re-Imagen),[81]是一种生成模型,它使用提取的信息来生成高度忠实的图像,即使对于罕见或不可见的实体也是如此。在文本消息中,Re-Imagen访问外部多模态知识库以检索相关对(图像、文本),并将其用作生成图像的参考。

4. 比较性能和讨论

​ 在本节中,我们将讨论不同扩散模型的比较性能,特别是在采样效率和参数数量方面。我们还将讨论未来的工作方向,以引导新的研究进入这个令人兴奋的领域。

​ 如前所述,迄今为止的研究重点主要是提高生成样品的质量,稳定扩散改变了过程,重点是效率。在进行比较分析之前,我们将提到研究界用于比较扩散模型性能的重要质量和效率指标。

1-初始得分(IS):初始得分旨在根据ImageNet数据集评估创建图片的多样性和分辨率[82]。它分为两部分:多样性测量和质量测量。多样性是根据生成样本的类别熵来衡量的:熵越高,样本的多样性就越大。使用熵和样本与相关类别图片之间的相似性来衡量质量,因为如果样本更接近ImageNet数据集的特定类别图片,则样本将具有更高的分辨率。

2 Frechet初始距离(FID):虽然初始分数包括合适的评估方法,但其建立取决于具有1000个类的特定数据集以及包括随机性(如初始权重和代码结构)的训练网络。因此,ImageNet和真实世界照片之间的偏差可能会导致不正确的结果。

​ 此外,样本批量大大低于1000个类别,导致低置信统计。要解决来自特定参考数据集的偏差,建议FID[83]。使用均值和协方差,分数计算真实世界数据分布与生成样本之间的距离。

3负对数概率(NLL):Razavi等人将负对数似然视为描述所有数据分布模式的一种常见评估指标。在流场标准化方面已经做了大量工作[而VAE场采用NLL作为评估选项之一。一些扩散模型,如增强型DDPM,将NLL视为训练目标。

​ 一些效率指标包括:

1-采样速度或吞吐量:快速采样是扩散模型与采样质量指标一起的主要效率目标。采样/秒。一个简单的度量是生成这些样本的步骤数,因为步骤数较少是可取的。

2-计算工作量:现代HPC数据中心是解决扩散模型等重计算工作量的关键。由于NVIDIA Tesla V100 Tensor Core是最先进的数据中心GPU之一,一些工作将扩散模型的性能与V100天进行了比较。

3-模型复杂性:参数数量:模型参数是重要的指标。然而,很难将其与效率直接联系起来,因为新的重型和性能最佳的模型中的更多参数在参数数量上是密集的。

​ 但是,如果可以用较少的参数实现相同的性能,则表明模型效率。

​ 然而,与成熟的质量指标相比,效率指标仍然没有标准化,基于效率指标的开放挑战和基准仍然缺失。这是有助于扩散模型效率研究的另一个方向。

​ 由于生成图像合成模型的兴起,图像修补最近已成为一个重要的研究问题[44],[40],[84],[85]。大多数修复解决方案在对象移除或纹理合成方面表现良好,而语义生成仍然难以实现。为了解决这些问题,推出了NTIRE 2022[84]图像修补挑战赛,其目标是开发解决方案,在生成引人注目的语义图像的同时,在不同且具有挑战性的掩模上实现稳健的性能。提出的挑战包括两个方面:无监督图像修复和语义引导图像修复。对于Track1,向参与者提供了四个数据集:FFHQ、Places、ImageNet和WikiArt,并训练他们的模型执行一个与掩模无关的图像修复解决方案。对于 Track 2,FFHQ 和Places.。

Efficient Diffusion Models for Vision: A Survey_第10张图片

​ 总的来说,扩散模型在图像绘制中表现出优异的效果,因为它们可以在没有直接监督的情况下应用于此任务。在这个挑战中,这些方法在每个数据集7000张图像上进行了测试。然而,挑战的获胜者依赖于一个潜在扩散模型(LDM)引用的LDM系统,该系统在潜在表示而非像素级执行降噪过程,从而将推理时间大大减少到平均每512×512图像大小10秒。

​ 为了发现潜在扩散模型[10]对文学新兴趋势的影响,我们使用书目网络。为此,我们使用聚类方法。在聚类分析中,子问题的数量由分辨率设置。此参数的值越大,将创建的簇越多。我们试图尽量减少集群的数量,以集中在相关性广告影响方面最具代表性的工作上,这导致基于50篇研究论文的三个集群。图7以三原色显示了这些簇,表中列出了每个簇中的一篇代表性论文。这种文献计量网络的可视化提供了对相关文献的自动洞察,而这些文献是无法手动理解的。这种可视化及其理解的深度帮助我们修改了分类法,这将在下面的章节中讨论。

Efficient Diffusion Models for Vision: A Survey_第11张图片

Efficient Diffusion Models for Vision: A Survey_第12张图片

5. 未来工作方向

​ 扩散模型的流行性、可用性和创造性正在吸引计算机视觉界的新研究,特别是在有效利用计算资源和稳定扩散的开源可用性之后。可以公平地说,稳定扩散已被证明是一个改变游戏规则的模型。然而,每天都有新的文学作品出现,以应对其他挑战。一些新兴的研究方向如下:

  • 检索增强通过查找与指定提示相似的图像,然后模型可以在生成过程中看到它们。

  • 另一个新兴领域是少镜头扩散模型(FSDM)的开发,该模型为利用条件DDPM的少镜头生成提供了一个框架。通过使用基于集合的视觉变换器(Vit)聚集图像补丁信息,训练这些模型以适应基于给定类别的小图像集的生成过程。像DreamBooth[86]这样的新方法是“个性化”文本到图像扩散模型(专门针对用户的需求)。给定一个主题的几个图像作为输入,这样的模型可以对预先训练的文本到图像模型进行微调,使其学会将唯一标识符与特定主题绑定。通过利用模型中嵌入的语义先验和新的特定于类的先验保留损失,这些模型能够在参考图像中未出现的不同场景、姿势、视图和照明条件下合成对象。[32]介绍了CycleDiffusion,它表明大规模文本到图像扩散模型可以用作零镜头图像到图像编辑器。它可以通过在基于能量的模型的统一即插即用公式中控制潜在代码来指导预先训练的扩散模型和GAN。

  • 过去,大多数文本到图像模型都是作为适当的应用程序开发的。然而,稳定扩散开源的到来已经引发了另一个趋势,这将有助于扩散研究的发展。

  • 另一个新的研究方向是视频扩散模型的创新架构[87],[3],这是标准图像架构的自然扩展。该架构可以使用来自图像和视频数据的联合训练来生成以及更高分辨率的视频。无文本视频数据的视频生成可以引入如所示的高效设计[88]。

  • 由于扩散模型具有多对多的性质,因此它是人类运动的理想选择,但它们往往是资源密集型的,难以控制。运动扩散模型(MDM)是一种经过仔细调整的无分类器生成扩散模型,用于人体运动域。该模型基于变压器,并结合了运动生成文献中的知识。它在每个散射阶段使用样本预测而不是噪声。这有助于在运动位置和速度处使用已确定的几何损失,例如脚接触损失。这是一种通用方法,允许不同的调节模式和不同的生成任务。类似的工作是Motiondiffle[90],它是使用扩散模型的文本驱动人类运动生成。它表明了用扩散模型生成复杂的视觉数据的未来趋势。

  • 扩散模型的可解释性和可解释性将显示这些模型的内部工作和学习过程。如果实际的学习过程得到很好的解释,它可以导致有效的扩散模型设计。引入了一种称为DAAM[31]的可解释性方法,以基于对潜在去噪子网络中的交叉关注激活进行放大和聚合来生成像素级属性图。

6. 结论

​ 在这篇综述中,我们介绍了扩散模型的最新进展,并讨论了导致DM变得低效和计算昂贵的重要设计方面。我们专注于最近提出的设计选择,这些设计选择产生了有效的扩散模型。与之前对扩散模型进行一般分类的工作不同,本文讨论了导致高效和低效扩散模型的有效策略。我们从效率指标的角度对现有的扩散方法进行了比较分析,并为计算效率扩散模型的未来研究工作提供了新的方向。

你可能感兴趣的:(扩散模型,人工智能,深度学习,计算机视觉)