文本生成图像|DALLE2论文记录

Hierarchical Text-Conditional Image Generation with CLIP Latents

Abstract

  • Clip模型:是Contrastive model的一种,可以很鲁棒地捕获语义和风格

  • 本文提出一个2-stage model:一个prior模型,给出文字,生成一个CLIP图像特征;一个decoder根据图像特征生成图像

Introduction

  • CLIP

  • diffusion

  • our work:首先训练了一个diffusion decoder来反转CLIP图像encoder,这个反转器是non-deterministic的,对于一个给定的图像特征可以生成多个图片

  • 相比起GAN,CLIP很大的一个优势是能够通过语音信息对图像进行修改

  • 整体示意图文本生成图像|DALLE2论文记录_第1张图片

    • 先用CLIP训练好文本和图像的联合表示空间,给定文本和文本的图像,出文本特征和图像特征,训练好之后它就frozen了不动了

    • 再用clip处理出来的text特征进入prior模型生成img特征,再用diffussion decoder得到最终的图像

你可能感兴趣的:(cv入门ing,计算机视觉)