Muse: 使用掩码生成变换器的文本到图像生成

【量子阅读】

该标题简洁地概括了论文的核心内容,即Muse模型使用掩码生成变换器进行文本到图像的生成。它突出了模型的创新点,即使用掩码生成方法和变换器架构,强调了其在文本到图像生成中的应用。

【摘要】

摘要总结

本文介绍了Muse,一种基于掩码生成变换器的文本到图像生成模型,该模型在图像生成性能方面达到了最先进的水平,同时在效率方面显著优于扩散模型和自回归模型。Muse通过预训练大型语言模型(LLM)的掩码建模任务进行训练,该任务在离散标记空间中进行。与基于像素空间扩散模型(如Imagen和DALL-E 2)相比,Muse利用离散标记显著提高了效率;与基于自回归模型(如Parti)相比,Muse通过并行解码提高了效率。预训练的LLM使Muse能够细粒度地理解语言,从而生成高质量和多样化的图像,并理解视觉概念如物体、空间关系、姿态等。Muse在CC3M数据集上实现了6.06的SOTA FID分数,并在零样本COCO评估上实现了7.88的FID分数。Muse还为图像编辑提供了零样本能力,包括图像修复、扩展和无蒙版编辑。本文的主要贡献包括:

  1. 最先进的模型:Muse在生成质量和与文本提示的对齐方面取得了卓越的FID和CLIP分数。
  2. 显著的效率:Muse通过使用量化图像标记和并行解码显著提高了效率。
  3. 零样本编辑能力:Muse可以直接应用于图像编辑,无需微调或反转模型。

关键技术点

  • 掩码建模:Muse在预训练的大语言模型(LLM)上进行掩码建模,从而生成高质量的图像。
  • 并行解码:通过并行解码,Muse在推理时间上显著快于其他模型。
  • 多对象理解:Muse能够理解多对象的组成性和数量性,以及图像样式理解。
  • 生成与编辑:Muse不仅能够生成图像,还能进行零样本图像编辑,如图像修复、扩展和无蒙版编辑。

性能评估

Muse在多个基准测试上取得了优异的性能。与DALL-E2和Imagen相比,Muse在某些文本提示上生成了更好的图像。尽管在某些类型提示下存在一些限制,但Muse在大多数情况下能生成高质量的图像,并且在零样本编辑方面表现出色。

结论与影响

Muse模型证实了预训练的大型语言模型在文本到图像生成中的强大能力,并展示了非扩散、非自回归模型在生成效率方面的潜力。模型还展示了在图像编辑应用中的灵活性。然而,考虑到生成模型可能带来的潜在社会影响,研究团队决定不公开代码或公开演示。

相关工作

Muse模型建立在多种现有技术之上,包括图像到文本的对齐、扩散模型、图像标记化以及文本到图像生成。本文还讨论了图像生成模型在创意增强和潜在危害方面的影响。

【数据来源】

数据来源总结:

本文介绍了Muse模型,这是一种用于文本到图像生成的Transformer模型,能够实现最先进的图像生成性能,并且比扩散或自回归模型更为高效。Muse模型的数据来源主要包括以下几个方面:

  1. 文本嵌入数据:Muse模型利用预训练的大型语言模型(如T5-XXL)生成文本嵌入,这些嵌入用于指导图像生成。这些文本嵌入包含了丰富的语义信息,如物体(名词)、动作(动词)、视觉属性(形容词)、空间关系(介词)等。

  2. 图像数据:Muse模型使用VQGAN模型进行图像编码和解码,VQGAN模型将图像编码为一组离散的“词汇”或“token”,这些token在图像生成过程中扮演重要角色。VQGAN模型还用于生成较高分辨率的图像。

  3. 训练数据集

    • CC3M数据集:用于训练Muse模型的大型图像-文本配对数据集,用于评估生成图像的质量和多样性。
    • Imagen数据集:用于训练和评估Muse模型的另一种大规模图像-文本数据集。
    • COCO数据集:用于零样本评估,验证模型生成高质量图像的能力。
  4. 超参数和架构:训练Muse模型时使用的超参数和架构细节,包括Transformer模型的层数、隐藏维度、优化器等,这些细节在附录中提供。

  5. 评估指标:模型性能的评估指标,包括FID(Fréchet Inception Distance)和CLIP分数,这些指标用于量化生成图像的质量、多样性和与文本提示的对齐程度。

总结来说,Muse模型的数据来源主要依赖于预训练的语言模型生成的文本嵌入,以及大规模的图像-文本配对数据集,用于训练和评估模型的性能。这些数据和方法的综合使用,使得Muse模型能够在生成高质量、高精度图像的同时,保持较高的生成效率。

【模型架构】

Muse是一种基于掩码生成变压器的文本到图像生成模型,它在保持图像生成质量的同时,比扩散模型或自回归模型更为高效。Muse的主要架构如下:

1. 模型架构

1.1 预训练文本编码器
  • 文本编码器使用预训练的大型语言模型(如T5-XXL),从文本中提取的嵌入包含丰富的对象信息、动作信息、视觉属性、空间关系和其他属性(如数量和组成)。
  • 这些嵌入被用于跨注意力机制与图像标记互动。
1.2 语义标记化
  • 使用VQGAN模型进行语义标记化,生成图像的标记序列,这些标记在不同分辨率下进行编码和解码。
1.3 基础模型
  • 基础模型使用掩码变压器,输入包括预训练的文本嵌入和图像标记。
  • 使用交叉注意力机制和自注意力机制来提取特征。
  • 跨注意力机制用于预测掩码图像标记。
1.4 超分辨率模型
  • 超分辨率模型用于将低分辨率标记转换为高分辨率标记,同样使用交叉注意力机制和自注意力机制。
  • 通过两个阶段的推理来提高图像的质量。

2. 生成过程

2.1 掩码标记生成
  • 基础模型首先生成掩码标记,然后通过交叉熵损失学习预测这些标记。
  • 超分辨率模型进一步将低分辨率标记转换为高分辨率标记。
2.2 并行解码
  • 在推理阶段,使用并行解码来预测多个输出标记,显著提高了生成速度。

3. 优化与结果

3.1 定量评估
  • Muse在多个基准上表现出色,包括CC3M和MS-COCO数据集。
  • 对比于其他模型,Muse在生成质量和多样性上表现更好。
3.2 定性评估
  • Muse能够处理各种文本提示,生成高质量的图像。
  • 例如,对于多对象组合和数量理解等复杂场景,Muse也能很好地处理。
3.3 图像编辑功能
  • Muse支持多种图像编辑应用,如文本引导的修补和超分辨率修补,无需额外训练。

4. 相关工作

  • Muse结合了文本到文本任务的预训练模型,利用掩码标记化、超分辨率技术和并行解码等方法。
  • 与扩散模型和其他生成模型相比,

你可能感兴趣的:(计算机视觉,人工智能)