阅读论文笔记:High-Resolution Image Synthesis with Latent Diffusion Models

论文标题:High-Resolution Image Synthesis with Latent Diffusion Models
翻译:基于潜扩散模型的高分辨率图像合成

参考链接:https://zhuanlan.zhihu.com/p/582693939

前备知识:

首先需要学习扩散模型
了解上采样(放大图片)和下采样(缩小图片)
下采样目的:
	1. 使得图像符合显示区域的大小
	2. 生成对象图像的缩略图

摘要:

        模型通常直接在像素空间中操作,因此对强大的DM(扩散模型)的优化通常消耗数百天的GPU,
并且由于顺序评估,推断是昂贵的。为了在有限的计算资源上进行DM训练,同时保持其质量和灵活性,
我们将其应用于功能强大的预训练自动编码器的潜在空间中。

复杂场景的高分辨率合成(3种):

	1. 按比例放大基于似然性的模型         缺点:可能包含自回归(AR)变换器中的数十亿个参数。
	2. GANs        缺点:主要局限于可变性相对有限的数据
	3. 去噪自动编码器的层次结构构建的扩散模型

所做的贡献

	1.与纯粹的变换器的方法相比,我们的方法对高维数据的扩展更优雅,可以应用于百万像素图像的高分辨率合成。
	2. 我们在多个任务(无条件图像合成,修复,随机超分辨率)和数据集上实现了具有竞争力的性能,同时显着降低了计算成本。与基于像素的扩散方法相比,我们还显着降低了推理成本。
	3. 我们表明,与同时学习编码器/解码器架构和基于分数的先验的先前工作相比,我们的方法不需要对重建和生成能力进行精细的加权。这确保了非常忠实的重建,并且需要非常少的潜在空间的正则化。
	4. 我们发现,对于超分辨率、修复和语义合成等密集条件任务,我们的模型可以以卷积方式应用,并渲染10242 px的大型一致图像。
	5. 此外,我们设计了一个通用的条件反射机制的基础上交叉注意,使多模态的培训。我们使用它来训练类条件,文本到图像和布局到图像模型。
	6. 最后,我们在https上发布了预训练的潜在扩散和自动编码模型://github.com/CompVis/latent-diffusion,其可重复用于除了训练DM之外的各种任务。

方法(为了降低训练扩散模型对高分辨率图像合成的计算需求)

	引入压缩与生成学习阶段的显式分离来规避它
	利用一个自动编码模型,该模型学习的空间是感知上等效的图像空间,但提供了显着降低的计算复杂度。

该方法的优点

	1. 通过离开高维图像空间,我们获得了DM,因为采样是在低维空间上执行的,所以在计算上更有效。
	2. 我们利用了从其UNet架构继承的DM的归纳偏差,这使得它们对具有空间结构的数据特别有效,因此减轻了对先前方法所要求的积极的、降低质量的压缩水平的需求。
	3. 最后,我们获得了通用压缩模型,其潜在空间可用于训练多个生成模型,也可用于其他下游应用,如单图像CLIP引导合成。

Latent Diffusion Models整体框架如图

阅读论文笔记:High-Resolution Image Synthesis with Latent Diffusion Models_第1张图片
首先需要训练好一个自编码模型(AutoEncoder包括一个编码器和一个解码器),然后我们可以利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后再用解码器恢复到原像素空间即可。这个方法即是感知压缩。

下面对感知压缩、扩散模型、条件机制的具体细节进行展开。

1. 图片感知压缩

引入感知压缩就是说通过VAE这类自编码模型对原图片进行处理,忽略掉图片中的高频信息,
只保留重要、基础的一些特征。好处就是降低训练和采样阶段的计算复杂度,大大降低了落地门槛。
感知压缩主要利用一个预训练的自编码模型,该模型能够学习到一个在感知上等同于图像空间的潜在表示空间。这种方法的一个优势是只需要训练一个通用的自编码模型,就可以用于不同的扩散模型的训练,在不同的任务上使用。这样一来,感知压缩的方法除了应用在标准的无条件图片生成外,也可以十分方便的拓展到各种图像到图像(inpainting,super-resolution)和文本到图像(text-to-image)任务上。
感知压缩的扩散模型的训练本质上是一个两阶段训练的过程
	1. 训练一个自编码器
	2. 训练扩散模型本身
在第一阶段为避免潜在表示空间出现高度异化,作者使用了两种正则化方法,一种是KL-reg,另一种是VQ-reg

具体的有关知识如下:
感知压缩模型:由感知损失和基于补丁的对抗目标的组合训练的自动编码器组成。
	1. 输入图像和颜色空间:首先,考虑一个输入图像 x,它属于RGB颜色空间,表示为 x ∈ RH×W×3,
	其中 H 表示图像的高度,W 表示图像的宽度,3 表示图像具有三个颜色通道(红色、绿色、蓝色)。
	2. 编码器:编码器 E 的作用是将输入图像 x 编码成一个潜在表示 z,即 z = E(x)。这个潜在表示 z 的维度是 h×w×c
	其中 h 表示潜在表示的高度,w 表示潜在表示的宽度,c 表示潜在表示的通道数。
	3.  解码器:解码器 D 的任务是从潜在表示 z 重构图像,表示为 ˜x = D(z) = D(E(x))
	这里,˜x 是重构后的图像。
	4. 下采样因子:这个模型中的一个关键点是编码器在将图像编码为潜在表示时进行了下采样。下采样因子用 f 表示
	它等于输入图像的高度 H 和潜在表示的高度 h(或宽度 W 和 w)之间的比率,即 f = H/h = W/w
	作者还指出,他们研究了不同的下采样因子,其中 f = 2^m,其中 m 是自然数。

**实验中使用了两种不同正则化方法来控制模型中潜在空间的方差**

	1. KL-reg.,它对学习到的潜在空间施加了一个轻微的KL惩罚,使其接近标准正态分布,类似于VAE
	2. VQ-reg.,它在解码器中使用了一个向量量化层。该模型可以理解为VQGAN,但量化层已经融入解码器中		

潜在扩散模型

首先是普通的扩散模型(DM),扩散模型可以解释为一个时序去噪自编码器,其目的是根据输入xt去预测一个对应去噪后的变体,或者说预测噪音,其中xt是输入x的噪音版本,相应的目标函数可以写成如下形式:

阅读论文笔记:High-Resolution Image Synthesis with Latent Diffusion Models_第2张图片
而潜在扩散模型中,引入了训练的感知压缩模型,它包括一个编码器和一个解码器D。这样就可以利用在训练时就可以利用编码器得到zt,从而让模型在潜在表示空间中学习,相应的目标函数可以写成如下形式:在这里插入图片描述

条件机制

	我们也可以进行条件图片生成,这主要是通过扩展得到一个条件时序去噪自编码器来实现,这样一来我们可以通过y来控制图片合成的过程。
	具体来说,论文通过在Unet主干网络上增加cross-attention机制来实现去噪自编码器。
	为了能够从多个不同模态预处理y,论文引入了一个领域专用编码器,它用来将y映射为一个中间表示,这样我们就可以很方便的引入各种形态的条件。最终模型就可以通过一个cross-attention层映射将控制信息融入到UNet的中间层,cross-attention层的实现如下:

阅读论文笔记:High-Resolution Image Synthesis with Latent Diffusion Models_第3张图片

你可能感兴趣的:(论文阅读)