High-Resolution Image Synthesis with Latent Diffusion Models论文阅读+代码复现

摘要

       扩散模型在图像数据和其他数据上实现了最先进的合成结果,并且它的公式允许引导机制来控制图像生成的过程而无需重新训练。然而,这种模型直接在像素空间上操作,因此,功能强大的扩散模型通常需要花费大量的计算资源与推理时间。

       为了在有限的计算资源上进行扩散模型的训练,我们将扩散模型应用在强大的预训练自动编码器的潜在空间。与之前的工作相比,在这种表示上训练扩散模型首次能够在降低复杂度和保留细节之间达到接近最佳的点,极大地提高了视觉逼真度。

       并且通过在模型体系结构中引入交叉注意力层,扩散模型被转化为了灵活的生成器,用于文本或边界框等一般条件输入,并以卷积方式实现高分辨率合成。我们的潜在扩散模型在图像修复和类条件图像合成方面获得了最先进的分数,并在无条件图像生成、文本到图像合成、超分辨率上取得了具有高竞争力的性能。同时相比于基础的扩散模型显著降低了计算要求。

Introduction

       图像合成是今年发展最为壮观的计算机视觉领域,同时也是计算需求最大的领域。但是目前存在的方法存在一定的问题:

       1. 基于似然的模型,可能在自回归Transformer中包含十亿个参数。

       2. GAN可变性相对有限,因为对抗学习的过程不容易扩展到建模复杂的多模态分布。

       基于以上问题,扩散模型的优势是:

       1. 即使是无条件的Diffusion也可以很容易地应用于修复、着色和笔画合成等任务

       2. 作为基于似然地模型,Diffusion不像GANs一样容易出现模式崩溃和训练不稳定。

       3. 通过大量利用参数共享,可以对高度复杂地自然图像分布进行建模,而不需要像自回归模型那样设计数十亿个参数。

       即使如此,DM,这类基于可能性的模型类别,其模式覆盖行为,依旧使它倾向于花费过多的容量来建模数据中难以察觉的细节。因此造成了两个问题,无论是训练还是推理,都将耗费大量的计算资源。因此,在不损害DM生成性能的前提下减少计算要求提高其可访问性变成了DM性能提升的关键。

       在本文中,作者的目标是找到一个在感知上等效但是在计算上更合适的空间,在这个空间中将进一步训练用于高分辨率图像合成的扩散模型。

       训练分为两步:

       1. 训练一个自编码器,提供一个感知上等同于数据空间的低维表示空间。

       2. 一个显著的优点是,只需要训练通用自编码器一次,便可将其用于完全不同的任务。

       3. 对于IM-to-IM和TEXT-to-IM任务,作者设计了一种架构,将Transformer嵌入到DM的U-Net主干中,并启用任意类型的基于令牌的条件机制

Method

       我们建议引入压缩学习阶段和生成学习阶段的明确分离来规避计算量过大的问题。

Perceptual Image Compression

       感知压缩网络基于之前的工作,其包含一个AE网络,通过结合感知损失和基于Patch的对抗性目标训练。

       感知损失在GAN的训练中很常见,而基于块的对抗性目标训练,结合文章中的参考文献“Image-to-Image Translation with Conditional Adversarial Networks”,总结如下:该论文的生成器使用基于U-Net的网络架构,而鉴别器使用卷积的PatchGAN分类器,它只在图像patch的规模上惩罚结构。具体地,为了对高频结构建模,我们只关注局部图像斑块中的结构,即,只区分图像中每N*N的patch的真实性,最终平均所有的判决以提供D的最终输出。

       为了避免任意高方差的潜在空间,我们对两种不同类型的正则化进行了实验。第一个是KL-reg,对学习到的潜在表示施加朝向Standard Normal的KL惩罚。第二个是VQ-reg,在解码器中使用矢量量化层。因为随后的DM被设计为与学习的潜在向量空间z的二维结构一起工作,这与之前的工作形成了对比。之前的工作依赖于学习空间z的任意1D排序来自回归建模其分布,总而忽略了z的大部分固有结构,而本文提出的方法可以更好地保留输入图像x地细节。

Latent Diffusion Models

 

 High-Resolution Image Synthesis with Latent Diffusion Models论文阅读+代码复现_第1张图片

 Conditioning Mechanisms

将DM的生成能力与类别标签等条件结合。

并结合了交叉注意力模块,引入了an intermediate representation

 

 

 

 

 

       

你可能感兴趣的:(论文阅读,深度学习,人工智能)