【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

  • 论文阅读笔记
    • 论文信息
    • 摘要
      • 背景
      • 方法
      • 结果
    • 关键发现
    • 作者动机
    • 相关工作
    • 方法/模型
      • LDM的架构
      • 预训练
      • 高质量数据对齐
        • Automatic Filtering
        • Human Filtering
      • 质量调整quality-tuning
    • 实验设计
    • 结果
    • 讨论
      • Limitation
    • 启发
    • 有趣的地方!
    • 总结

论文阅读笔记

Emu证明了质量调整的重要性,基于这篇文章的Emu edit 和 Emu video的笔记也会在近几天公布。

论文信息

  • 论文标题:Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
  • 作者:GenAI. Meta
  • 发表年份:2023
  • 期刊/会议:暂无
  • 链接:https://ai.meta.com/research/publications/emu-enhancing-image-generation-models-using-photogenic-needles-in-a-haystack/
  • code:未发布

【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第1张图片

摘要

背景

现有的Text2Image预训练模型在生成高度美学图像时面临挑战。

方法

提出质量调整来有效的引导预训练模型生成高度视觉吸引力的图像,即用少量的(2K)高质量(高度筛选后、人工介入的)的文本图像对微调预训练模型(1.1B)。

结果

与SD XLv1.0相比,Emu 在标准 PartiPrompts 和 Open User Input 基准上获得 68.4% 和 71.3% 的更喜欢。

关键发现

  1. 任何优先考虑数量而不是质量的尝试都可能导致生成图像质量的妥协。
  2. 质量调整(quality-tuning)在pixel diffusion and masked generative transformer models 上同样有效。

作者动机

借鉴在大语言模型Llama上指令调整的经验(LlamA已经在27K高质量提示上进行微调,与数十亿或数万亿的预训练tokens相比,数量是很少的),通过用几千个精心挑选的图像微调预训练模型(1.1B文本图像对),就可以实现强大的文本到图像性能,同时保持通用性。

相关工作

  • 文生图模型
  • 文生图模型的finetuning
  • 大语言模型的finetuning

方法/模型

  1. 在 1.1 亿个图像-文本对上预训练潜在扩散模型 (LDM),并在从大量图像中选择的几千张精心挑选的异常高质量图像上微调模型。
  2. 选择标准是主观的和文化相关的。我们遵循摄影中的一些常见原则,包括但不限于组合、照明、颜色、有效分辨率、焦点和讲故事来指导选择过程。
  3. 潜在扩散架构的一些优化

LDM的架构

  1. VAE的输入输出分辨率扩大到1024*1024,通道大小增加到 16 可以显着提高重建质量。
  2. 使用对抗性损失,并使用傅立叶特征变换将输入通道维度从 3 (RGB) 提升到更高的维度。
  3. 使用具有 2.8B 可训练参数的大型 U-Net。我们增加了每个阶段的通道大小和堆叠残差块的数量,以获得更大的模型容量。
  4. 通过CLIP ViT-L 和 T5-XXL 获取text embedding。
    【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第2张图片

预训练

  1. 1.1 亿张图像组成的大型内部预训练数据集,类似SDXL使用监禁式方法训练【后续补充】。
  2. 预训练的最后阶段使用 0.02 的噪声偏移,有助于生成图像的美学。

高质量数据对齐

Automatic Filtering

1.1B to 200K

  1. 标准过滤:offensive content removal, aesthetic score filter, optical character recognition (OCR) word count filter to eliminate images with too much overlaying text on them, and CLIP score filter
  2. 平衡领域和种类:我们利用视觉概念分类从特定领域(如肖像、食物、动物、景观、汽车等)源图像。
  3. 转有信号 点赞数?
    【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第3张图片
Human Filtering

200K to 20K to 2K

  1. 训练通才注释器提升召回率
  2. 美学专家提升精度(从多个属性,如构图、曝光、颜色对比度、主体和背景、额外的主观评)

质量调整quality-tuning

在这个阶段,我们使用 0.1 的噪声偏移。请注意,提前停止在这里很重要,因为对太长的小型数据集进行微调将导致视觉概念的通用性的显着过度拟合和退化。尽管损失仍然减少,但我们对不超过 15K 次迭代进行了微调。

实验设计

  1. Prompts:两个大型提示集上进行评估:1600个PartiPrompts,通常用于文本到图像生成基准测试,以及2100个开放用户输入(OUI)Prompts
  2. Metrics:视觉吸引力和文本忠实度,前者由五个注释者打分美学,后者注释者评判与caption的相似度。
  3. 不使用FID,认为和人类评价相关性不大(不敢写啊)

结果

  1. 质量调整和预训练模型【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第4张图片【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第5张图片

  2. 与SDXL的比较【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第6张图片

  3. 质量调整的通用性【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第7张图片

  4. 消融研究:质量调整的数量【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第8张图片

讨论

Limitation

  1. 关于人类评价可能过于主观
  2. 质量调整的规模与预训练规模之间的权衡和限制
  3. 有偏见的误导的输出

启发

  1. quality-tuning是可通用于其他任务的。
  2. 基本预训练模型越强,经过质量调整后生成的图像质量越高

有趣的地方!

  1. 不同通道大小的自动编码器重建图像的视觉质量,sd的文字编辑效果不行,可能也是由于这个原因。(正好和我在训练的任务不谋而合,准备尝试提升vae的潜空间通道数,后续会反馈结果)【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack_第9张图片

总结

总的来说,证明了高质量图像是提高文本到图像生成模型生成的美学程度的关键之一,只有几百到数千个微调图像的情况下,能够在不影响所描绘视觉概念的普遍性的情况下提高生成图像的视觉吸引力。

你可能感兴趣的:(论文阅读笔记,文生图,论文阅读,笔记,人工智能)