论文:High-Resolution Image Synthesis with Latent Diffusion Models
代码:https://github.com/CompVis/latent-diffusion
出处:CVPR2022 | 慕尼黑大学
贡献:
最近火热的 AI 绘画技术吸引了很多人的目光,AI 绘画今年取得如此广泛关注的原因,有很大的功劳得益于 Stable Diffusion 的开源。
Stable Diffusion 是一个基于 Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。
Stable Diffusion 在 LAION-5B 的数据库子集上训练了一个 Latent Diffusion Models,该模型专门用于文图生成。
Stable Diffusion 的原型就是 CVPR2022 的文章:High-Resolution Image Synthesis with Latent Diffusion Models
什么是潜在扩散模型:
现有的扩散模型(Diffusion Models,DM):
通过使用一系列的去噪自编码器,实现了很好的图像合成效果。
一般的扩散模型都需要直接在像素空间训练和运行,训练可能需要上百个 GPUs,在测试推理的时候也需要很多硬件支持。
如果我们希望生成一张分辨率很高的图片,这就意味着我们训练的空间是一个极其高维的空间,这会导致巨大的参数量和高昂的训练成本。
作者的改进点:
基于上述的扩散模型的计算量大的问题,本文作者就思考是否能够在有限的计算资源上训练 DM 模型,同时保持其效果。
比如 VAE 和 Diffusion 结合,可以先通过 VAE 将原来的高分辨率图转换到低维空间,然后在低维空间上训练扩散模型,之后通过 Decoder 将低维还原到高维空间。
VAE 可以看做 Encoder,这个过程是感知压缩,也就是忽略图像中的高频信息,保留低频信息,然后在低频图像上做扩散模型的训练,就可以加速很多。
本文提出来的叫做 “Latent”,即潜在空间,通过平衡【降低复杂度】和【保持图像细节】,能在保持保真度的同时实现模型的加速。
本文如何从像素空间转换为潜在空间:
使用潜在空间的优势:
图 2 展示了一个训练过的模型的 Rate-Distortion 的权衡效果:
所以,对潜在模型空间的要求:
由于扩散模型需要复杂昂贵的损失函数来在像素空间评估效果,所以仍然需要很大的计算时间和计算资源。
作者通过将压缩学习阶段和生成学习阶段分开来避免上面的问题:
给定一个 RGB 空间的图像 x ∈ R H × W × 3 x \in R^{H \times W \times 3} x∈RH×W×3:
为了避免任意的高方差的潜在空间,作者对比了两者不同的正则化方法:
Latent Diffusion Models,LDM
1、扩散模型
扩散模型是一个概率模型,通过逐步的对一个正态分布的变量去噪,来学习数据的分布 p ( x ) p(x) p(x)。
扩散模型的目标函数如下:
2、潜在表达的生成式建模
训练得到的感知压缩模型包括两部分:
训练之后可以得到一个低维的、高效的潜在空间,该潜在空间中不包括高频的细节信息。
这种低维的空间更适合于基于概率的生成模型,因为其有两个好处:
潜在扩散模型的损失如下:
扩散模型是能够建模成 p ( z ∣ y ) p(z|y) p(z∣y) 形式的条件分布
可以使用一个条件去噪自编码器 ϵ θ ( z t , t , y ) \epsilon_{\theta}(z_t,t,y) ϵθ(zt,t,y),并通过输入 y y y 来控制图像合成过程, y y y 可以是文本、语义特征图等
作者通过 cross-attention 机制增强了 UNet backbone,将 DM 转换成更灵活的图像生成器。能够适应于学习各种输入模式的 attention-based 模型。
作者为了能够预处理来自不同模式的输入 y y y,引入了一个 domain-specific encoder τ θ \tau_{\theta} τθ,可以将 y y y 投影到中间表示 τ θ ( y ) \tau_{\theta}(y) τθ(y),然后通过 cross-attention 将这些信息引入到 UNet 的中间层。
cross-attention 公式如下:
最终的损失函数:
1、关于感知压缩的权衡
通过分析对 encoder 使用不同的下采样比例 f ∈ { 1 , 2 , 4 , 8 , 16 , 32 } f \in \{1,2,4,8,16,32\} f∈{1,2,4,8,16,32} 对 LDM 造成的影响:
通过图 7 可以看出:
2、使用潜在扩散实现图像生成
在 25 6 2 256^2 2562 的 CelebA-HQ [39], FFHQ [41], LSUN-Churches and Bedrooms [102] 的数据集上验证了 FID 和 PR
CelebA-HQ 上达到了 SOTA FID 5.11
Text-to-Image 图像生成:
使用 layout 来指导图像生成:
使用语义像素图来生成更大分辨率的真实图像:
从 64x64 px 超分辨重建 256x256px 的图像:
移除目标的效果: