Stable Diffusion能力强、功能多、插件广,本文拟概述SD的全流程,方便梳理算法各结构的关系
SD发展的重点论文
- Denoising Diffusion Probabilistic Models(首次提出去噪扩散模型DDPM)
- Diffusion Models Beat GANs on Image Synthesis(OpenAI 改进UNet,DM超越GAN,Classifier Guidance)
- High-Resolution Image Synthesis with Latent Diffusion Models(提出隐变量扩散模型LDM,是SD的第一版)
- CLASSIFIER-FREE DIFFUSION GUIDANCE(Classifier-free Guidance)
- Scalable Diffusion Models with Transformers(一种基于Transformer架构的新型扩散模型DiT)
SD是一个基于latent扩散模型的文本生成图像模型。SD的核心来源于Latent Diffusion这个工作,常规的扩散模型是基于像素的生成模型,而Latent Diffusion是基于隐变量的生成模型。它先采用一个autoencoder将图像压缩到latent空间,然后用扩散模型来生成图像的latents,最后送入autoencoder的decoder模块就可以得到生成的图像。
基于latent的扩散模型的优势在于计算效率更高效,因为图像的latent空间要比图像pixel空间要小,这也是SD的核心优势。文生图模型往往参数量比较大,基于pixe