DALL-E-2:Hierarchical Text-Conditional Image Generation with CLIP Latents

OpenAI Text2Image based on CLIP and Diffusion Model

DALL-E-2网络模型

虚线以上部分表示CLIP的训练过程,预训练CLIP模型在生成图片的过程中是固定的

虚线以下部分表示利用CLIP的text encoder生成图片的过程,在获取输入文本描述的text embedding之后,将其输入一个prior(autoregressive or diffusion),来获取image embedding,然后将image embedding送入diffusion model(decoder,改进版GLIDE)来生成图像。

prior网络的训练过程,对一个图片文本对和已经训练好的CLIP模型(text encoder && image encoder),将文本描述输入text encoder,得到文本编码,将图片输入image encoder,得到图像编码,不妨设输入prior模型得到预测的图像编码,希望与越接近越好,以此来更新prior模块。最终训练好的prior,将与CLIP的text encoder串联起来,即可根据输入文本生成对应的图像编码特征。

在DALL-E 2 模型中,作者团队尝试了两种prior模型:自回归式Autoregressive (AR) prior 和扩散模型Diffusion prior。实验效果上发现两种模型的性能相似,而因为扩散模型效率较高,因此最终选择了扩散模型作为prior模块。


生成图像的理论公式

表示prior网络,输入文本描述,产生image embedding

表示decoder,输入image embedding,生成图片,同时生成过程条件于文本描述。

你可能感兴趣的:(DALL-E-2:Hierarchical Text-Conditional Image Generation with CLIP Latents)