CogView:通过Transformer掌握文本到图像的生成

Ding, Ming, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang and Jie Tang. “CogView: Mastering Text-to-Image Generation via Transformers.” ArXiv abs/2105.13290 (2021).

1 Abstract

通用领域的文本到图像的生成长期以来一直是一个悬而未决的问题,这需要一个强大的生成模型和跨模态的理解。为了解决这个问题,我们提出了CogView,一个带有VQ-VAE tokenizer的40亿参数的Transformer。我们还展示了各种下游任务的微调策略,例如风格学习、超分辨率、文本图像排名和时装设计,以及稳定预训练的方法,例如消除NaN损失。CogView在模糊MS COCO数据集上实现了SOTA FID,优于以前基于GAN的模型和最近类似的工作DALL-E。

2 Method, Experiment & Result

CogView:通过Transformer掌握文本到图像的生成_第1张图片

图1. CogView生成的示例。第一行的文本来自MS COCO数据集(在我们的训练集之外),或者来自我们演示网站上的用户查询。第二行的图像是针对不同风格或超分辨率进行微调的结果。我们实际输入的文本是中文,为了更好地理解,这里将其翻译成英文。

CogView:通过Transformer掌握文本到图像的生成_第2张图片

图2. 训练图像tokenizers过程中的L2损失曲线。所有上述方法最终都收敛到类似的损失水平。

CogView:通过Transformer掌握文本到图像的生成_第3张图片

图3. CogView的框架。[ROI1]、[BASE1]等是分隔符tokens。

CogView:通过Transformer掌握文本到图像的生成_第4张图片

图4. (a)Transformer中不同LayerNorm结构的示意图。Post-LN是原始结构;Pre-LN是目前最流行的结构;Sandwich-LN是我们为了稳定训练而提出的结构。(b)具有64层和高学习率的实验的数值尺度。不含Sandwich-LN的训练在主干上溢出;不含PB-relax的训练在注意力上溢出;只有同时包含Sandwich-LN和PB-relax的训练才能继续。

CogView:通过Transformer掌握文本到图像的生成_第5张图片

图5. (a)按数字顺序逐块生成一个64×64-token的图像。重叠的位置不会被覆盖。关键点是在关注整个区域时生成第2和第4区域的tokens(这里通常是面部区域或其他重要部分)。(b)经过微调的超分辨率模型不只是变换纹理,而且还能生成新的局部结构,例如示例中老虎的嘴巴或尾巴。

CogView:通过Transformer掌握文本到图像的生成_第6张图片

图6. CogView根据文本“一个穿着红色衬衫的男人正在玩电子游戏”生成的60个图像,按照CapLoss的顺序显示。这个文本是从COCO数据集中随机选择的。大多数不良案例排在最后。这种多样性还减轻了CogView可能在训练集中过度拟合类似图像的担忧。

CogView:通过Transformer掌握文本到图像的生成_第7张图片

图7. CogView生成的不同风格的上海地标“东方明珠”图像。

CogView:通过Transformer掌握文本到图像的生成_第8张图片

图8. CogView为时装设计生成的图像。

CogView:通过Transformer掌握文本到图像的生成_第9张图片

表1. 机器评估的指标。DALL-E和GANs的统计数据是从他们的图表中提取出来的。FID-k表示所有图像都被半径为k的高斯滤波器模糊化。

CogView:通过Transformer掌握文本到图像的生成_第10张图片

图9. CLIP和self-ranking的Inception Score和FID-0值。

CogView:通过Transformer掌握文本到图像的生成_第11张图片

图10. 人类评估的结果。首先对真实图像进行编码,然后对其进行解码,由此得到恢复的真实图像,这在理论上是CogView的上限。

3 Conclusion / Disccusion

局限性。CogView的一个缺点是生成速度慢,这在自回归模型中很常见,因为每个图像都是token-by-token生成的。VQVAE带来的模糊性也是一个重要的限制。这些问题将在今后的工作中得到解决。

道德问题。与Deepfake类似,CogView很容易被恶意使用,因为它具有可控且强大的图像生成能力。此外,关于人类的生成模型通常存在公平性的问题。

我们系统地研究了结合VQVAE和Transformers的文本到图像的生成框架。针对可扩展的跨模态生成式预训练,CogView展示了很有前途的结果,并且还揭示和解决了可能源于数据异构性的精度问题。我们还介绍了针对各种下游任务微调CogView的方法。我们希望CogView能够促进可控图像生成和跨模态知识理解的研究与应用,但要防止它被用于生成错误信息的图像。

关注“多模态人工智能”公众号,一起进步!

你可能感兴趣的:(人工智能,深度学习)