论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)

本文鉴于作为参考感谢作者论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents详解_hierarchical text-conditional image generation wit_nocol.的博客-CSDN博客

摘要

像CLIP这样的对比模型已经被证明可以学习稳健的图像表征,这些特征可以捕捉到语义和风格。为了利用这些表征来生成图像,我们提出了一个两阶段的模型:一个给定文本标题生成CLIP图像embedding的先验器,以及一个以图像embedding为条件生成图像的解码器。我们表明,明确地生成图像表征提高了图像的多样性,在逼真度和标题的相似度方面损失最小。我们以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同时改变图像表征中不存在的非必要细节。此外,CLIP的联合嵌入空间使语言指导下的图像操作能够以zreo-shot的方式进行。我们对解码器使用扩散模型,并对先验的自回归和扩散模型进行实验,发现后者在计算上更有效率,并产生更高质量的样本。
 

总体思路

最近计算机视觉的进展是由从互联网上收集的带标题的图像的大型数据集上的扩展模型推动的,在这个框架内,CLIP已经成为一个成功的图像表示学习者。CLIP embeddings有一些理想的特性:它们对图像分布的偏移是稳健的,有令人印象深刻的zero-shot能力,并已被微调以在各种视觉和语言任务上取得最先进的结果。

同时,扩散模型作为一个有前途的生成性建模框架出现,推动了图像和视频生成任务的最先进水平。

为了达到最佳效果,扩散模型利用了一种指导技术,它以样本的多样性为代价提高了样本的保真度(对于图像来说,就是逼真度)。

在这项工作中,我们将这两种方法结合起来,用于文本条件下的图像生成问题。我们首先训练一个扩散解码器来反转CLIP图像编码器,我们的反转器是非决定性的,可以产生对应于给定图像embedding的多个图像。编码器和它的近似反向(解码器)的存在允许超越文本到图像的翻译能力。编码器和它的近似反向(解码器)的存在允许超越文本到图像的翻译能力。正如在GAN反转中,对输入图像进行编码和解码会产生语义上相似的输出图像(图3)。我们还可以通过对输入图像的图像embeddings进行反转插值来实现输入图像之间的插值(图4)。

然而,使用CLIP潜在空间的一个显著优势是能够通过在任何编码文本向量的方向移动来对图像进行语义修改(图5),而在GAN潜在空间中发现这些方向涉及到运气和勤奋的人工检查。此外,对图像进行编码和解码也为我们提供了一个观察图像的哪些特征被CLIP识别或忽略的工具。
 

unCLIP概述

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第1张图片

图2:unCLIP的概述。在虚线之上,我们描述了CLIP的训练过程,通过这个过程我们学习了文本和图像的联合表示空间。在虚线下面,我们描述了我们的文本到图像的生成过程:CLIP文本embedding首先被送入自回归或扩散prior,以产生一个图像embedding,然后这个embedding被用来调节扩散解码器,产生一个最终的图像。注意,在训练先验和解码器的过程中,CLIP模型被冻结。

对这张图的一点理解:

首先虚线上面是一个clip,这个clip是提前训练好的,在dalle2的训练期间不会再去训练clip,是个权重锁死的,在dalle2的训练时,输入也是一对数据,一个文本对及其对应的图像,首先输入一个文本,经过clip的文本编码模块(bert,clip对图像使用vit,对text使用bert进行编码,clip是基本的对比学习,两个模态的编码很重要,模态编码之后直接余弦求相似度了),

再输入一个图像,经过clip的图像编码模块,产生了图像的vector,这个图像vector其实是gt。产生的文本编码输入到第一个prior模型中,这是一个扩散模型,也可以用自回归的transformer,这个扩散模型输出一组图像vector,这时候通过经过clip产生的图像vector进行监督,此处其实是一个监督模型。

后面是一个decoder模块,在以往的dalle中,encoder和decoder是放在dvae中一起训练的,但是此处的deocder是单训的,也是一个扩散模型,其实虚线之下的生成模型,是将一个完整的生成步骤,变成了二阶段显式的图像生成,作者实验这种显式的生成效果更好。

这篇文章称自己为unclip,clip是将输入的文本和图像转成特征,而dalle2是将文本特征转成图像特征再转成图像的过程,其实图像特征到图像是通过一个扩散模型实现的。在deocder时既用了classifier-free guidence也用了clip的guidence,这个guidence指的是在decoder的过程中,输入是t时刻的一个带噪声的图像,最终输出是一个图像,这个带噪声的图像通过unet每一次得到的一个特征图可以用一个图像分类器去做判定,此处一般就用交叉熵函数做一个二分类,但是可以获取图像分类的梯度,利用这个梯度去引导扩散去更好的decoder。
 

为了获得一个完整的图像生成模型,我们将CLIP图像embeddings解码器与一个先验模型相结合,该模型从一个给定的文本标题中生成可能的CLIP图像embedding。我们将我们的文本到图像系统与其他系统如DALL-E和GLIDE进行比较,发现我们的样本在质量上与GLIDE相当,但在我们的生成中具有更大的多样性。我们还开发了在潜在空间中训练扩散先验的方法,并表明它们取得了与自回归先验相当的性能,同时计算效率更高。我们把我们的全文本条件的图像生成堆栈称为unCLIP,因为它通过倒置CLIP图像编码器来生成图像。
 

方法
 

知识积累

CLIP

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第2张图片

先验器

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第3张图片

先验器是一种用于优先处理某些任务或事件的设备或软件,它可以提高服务质量、效率和安全性。

图像embedding

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第4张图片

解码器

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第5张图片

图像表征

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第6张图片

联合嵌入空间

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第7张图片

zreo-shot

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第8张图片

扩散模型

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第9张图片

在解码器上使用扩散模型

 论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第10张图片

自回归

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第11张图片

多模态学习

 论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第12张图片

文本编码器TextEncoder

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第13张图片

图像编码器ImageEncoder

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第14张图片

 论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第15张图片

嵌入向量Embedding

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第16张图片

正样本 负样本

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第17张图片

多模态特征

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)_第18张图片

 输入图像之间的插值

CLIP潜在空间

GAN潜在空间

自回归

扩散prior

训练先验

生成堆栈

上下文标记

上采样

升采样和上采样

高斯模糊

BSR退化

空间卷积

目标分辨率

先验模型

自回归先验

扩散先验

主成分分析PCA

SAM训练CLIP

因果注意掩码的Transformer模型

掩码

Transformer模型

点积的作用

噪声

插值

双子潜像

潜态

DDIM反转

二方表示

归一化差异

球面插值

DDIM潜点

内插

spherical interpolation

slerp

DDIM噪声

对抗性图像

固定种子

 粗粒度

先验

无分类引导

GLIDE

扫频采样

逼真度

MS-COCO验证集

样本网格

CLIP线性探针

采样超参数

引导尺寸

扩散噪声种子

置信区间

GANS

自回归变换器

VQ-V方法

核密度估计法

你可能感兴趣的:(论文阅读,计算机视觉)