稳定扩散生成模型(Stable Diffusion)是一种潜在的文本到图像扩散模型,能够在给定任何文本输入的情况下生成照片般逼真的图像
Stable Diffusion 是基于latent-diffusion 并与 Stability AI and Runway合作实现的
模型是在LAION 数据集上训练的。使用200个DDIM迭代和η = 1.0生成的样本。我们使用无条件指导[32]与s = 10.0。
通过将图像结构过程处理为( decomposing the image formation process)去噪自编码器
的连续应用(a sequential application of denoising autoencoders),扩散模型
(DMs),实现了对图像数据的最先进的合成结果。
此外,他们的公式(formulation)允许一个指导机制(a guiding mechanism)来控制图像生成过程,而无需再训练
.
然而,由于这些模型通常直接在像素空间中运行,强大的DMs模型的优化通常需要数百天的GPU,而且由于顺序评估,推理是昂贵的。
为了了使DM能够在有限的计算资源上进行训练,同时保持其质量和灵活性,我们将其应用于强大的预训练自动编码器
(autoencoders)的潜在空间中。
与之前的工作相比,在这种表示上训练扩散模型首次允许在降低复杂度和保持细节复杂度之间达到一个接近最优的点(near-optimal),大大提高了视觉保真度.。。。
. 通过在模型架构中引入交叉注意层(cross-attention layer),我们将扩散模型转化为强大而灵活的生成器,用于一般条件输入,如文本或边界框,以卷积方式和高分辨率的合成成为可能。
我们的潜在扩散模型(LDMs
)在图像内绘制和类条件图像合成方面获得,并且在各种任务上具有高度竞争力的性能,包括文本到图像合成、无条件图像生成和超分辨率,同时与基于像素的DMs(pixed-based DMS)相比,显著降低了计算需求
。
图像合成需要巨大的计算资源。特别是复杂的、自然的场景的高分辨率图像合成,
目前主要是通过扩大基于可能性的(likelihood-based)模型,可能包含自回归(AR)transformers
的数十亿个参数,相关论文为:
相比之下,GANs的有希望的结果已被揭示大多局限于可变性相对有限的数据 (limited variability),因为它们的对抗性学习过程不容易扩展(not easyily scale to)到建模复杂的、多模态分布(multi-modal distributions),相关研究
被引 3448
)被引51091
)最近,扩散模型
[82],基于自动编码器去噪层次,已经显示了令人印象深刻的成就
结果在图像合成[30,85]和超过并定义了[7,45,48,57],
最先进的类条件图像合成
[15,31]和超分辨率[72]。
此外,即使是无条件的 DMs,也可以很容易地应用于诸如图像修复和上色等任务[85]
基于冲程的(strike-base)合成[53]
DDIM采样
来自论文 [84] 2010.Denoising diffusion implicit models ( 去噪扩散隐式模型 )
DDPMs
: Denoising diffusion probabilistic model)在没有对抗性训练(without adversarial training)的情况下实现了高质量的图像生成,但它们需要多次模拟马尔可夫链(Markov chain)才能生成样本。去噪扩散隐式模型(DDIMs)
,这是一种更有效的迭代隐式概率模型( denoising diffusion implicit models),具有与DDPMs相同的训练过程。一类更有效的迭代隐式概率模型(iterative implicit probabilistic models ),具有与DDPM相同的训练过程。对应于确定性的生成过程
,从而产生能够快速产生高质量样本的隐式模型。我们使用扩散概率模型(diffusion probabilistic models)提出了高质量的图像合成结果,这是一类潜在变量模型(a class of latent variable models) 的灵感来自于非平衡热力学的方法(1503.Deep unsupervised learning using nonequilibrium thermodynamics)
最好的结果是根据扩散概率模型的新颖的连接和去噪分数匹配朗之万动力学( Langevin dynamics)来训练加权变分界( on a weighted variational bound),和我们的模型自然承认一个渐进的有损减压方案(progressive lossy decompression scheme),可以解释为自回归解码的泛化(as a generalization of autoregressive decoding)。
扩散概率模型(A diffusion probabilistic model)
(为了简洁起见,我们称之为“扩散模型”)
是一个参数化的马尔可夫链
,使用变分推理(variational inference)训练,在有限时间后产生与数据匹配的样本,这条链的转换被学习来逆转一个扩散过程,这是一个马尔可夫链,它逐渐在相反的采样方向的数据中增加噪声,直到信号被破坏。。 .当扩散包含少量的高斯噪声时,将采样链转换设置为条件高斯噪声就足够了,允许一个特别简单的神经网络参数化。
扩散模型定义起来很简单, 训练效率也很高。。
我们还证明了扩散模型的一定参数化揭示了训练过程中多个噪声水平的去噪分数匹配(denoising score matching)和采样过程中退火朗之万动力学的等价性(equivalence)