DALL-E-2:Hierarchical Text-Conditional Image Generation with CLIP Latents
OpenAIText2ImagebasedonCLIPandDiffusionModelDALL-E-2网络模型虚线以上部分表示CLIP的训练过程,预训练CLIP模型在生成图片的过程中是固定的虚线以下部分表示利用CLIP的textencoder生成图片的过程,在获取输入文本描述的textembedding之后,将其输入一个prior(autoregressiveordiffusion),来获取im