MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens
公众号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)
目录
0. 摘要
1. 简介
2. 相关工作
3. 方法
3.1 多模态输入阶段
3.2 多模态输出生成
3.3 训练策略
4. 实验
4.1 实验设置
4.2 实验结果
4.2.1 多模态学习阶段
4.2.2 单模态对齐阶段
5. 结论
S. 总结
S.1 主要贡献
S.2 架构和方法
大型语言模型(LLM)因其在自然语言处理方面的进步而受到广泛关注,在文本理解和生成方面展现出无与伦比的能力。 然而,同时带有连贯文本叙述的图像的生成仍然是一个不断发展的前沿领域。 为此,我们引入了一种创新的交错视觉和语言生成技术,该技术以 “生成式 Voken” 的概念为基础,充当协调图像文本输出的桥梁。 我们的方法的特点是独特的两阶段训练策略,专注于无描述的(description-free)多模态生成,其中训练不需要图像的全面描述。 为了增强模型完整性,引入了无分类器指导,从而增强了 vokens 在图像生成方面的有效性。 我们的模型 MiniGPT-5 比 MMDialog 数据集上的基线 Divter 模型有了显着改进,并在 VIST 数据集上的人类评估中始终提供卓越或可比的多模态输出,突出了其在不同基准上的有效性。
在最近大规模视觉和语言模型的发展中,多模态特征集成不仅是一种不断发展的趋势,而且是塑造从多模态对话代理到尖端内容创建工具等广泛应用的关键进步。
然而,这段旅程充满了多重挑战。
为了解决这些挑战,我们提出了 MiniGPT-5,
基于这些技术,我们的工作标志着一种变革性的方法。
总之,我们的贡献主要有三方面:
文本到图像生成。
多模态大型语言模型。
使用大型语言模型的多模态生成。
为了赋予大语言模型多模态生成能力,我们引入了一个集成了预训练的多模态大语言模型和文本到图像生成模型的结构化框架。 为了解决模型领域之间的差异,我们引入了特殊的视觉标记(称为“生成式 vokens”),它能够直接对原始图像进行训练。 此外,我们提出了两阶段训练方法,加上无分类器指导策略,以进一步提高生成质量。 后续部分将详细探讨这些元素。
多模态大语言模型(例如 MiniGPT-4)的最新进展主要集中在多模态理解上,从而能够将图像作为顺序输入进行处理。 为了将其能力扩展到多模式生成,我们引入了为输出视觉特征而设计的生成 voken。 此外,我们在大语言模型 (LLM) 框架内采用尖端、参数高效的微调技术来进行多模态输出学习。 以下段落将更详细地介绍这些发展。
多模态编码:每个文本标记都嵌入为向量 e_text ∈ R^d,而预训练的视觉编码器将每个输入图像转换为特征 e_img ∈ R^(32×d)。 这些嵌入被连接起来以创建输入提示功能。
在 LLM 中添加 Vokens:
参数高效微调(Parameter-Efficient Fine-Tuning,PEFT):
为了准确地将生成标记与生成模型对齐,我们制定了一个用于维度匹配的紧凑映射模块,并结合了多种监督损失,包括文本空间损失和潜在扩散模型损失。
文本空间生成:
我们首先按照因果语言建模在文本空间中联合生成文本和 voken。在训练过程中,我们将 voken 附加到地面真实图像的位置,并训练模型以预测文本生成中的 voken。 具体来说,生成的 token 表示为 T = {t_1, t_2, ..., t_m},其中 t_i ∈ V ∪ V_img,因果语言建模损失定义为:
映射用于图像生成的 Voken 特征:接下来,我们将输出隐藏状态 h_voken 与文本到图像生成模型的文本条件特征空间对齐。为了将 voken 特征 h_voken 映射到可行的图像生成条件特征 e_text-encoder ∈ R^(L׈d)(其中 L 是文本到图像生成文本编码器的最大输入长度,ˆd 是文本到图像生成模型中的编码器输出特征的维度),我们构建了一个特征映射器模块,包括一个两层 MLP 模型θ_MLP,一个四层编码器-解码器 transformer 模型 θ_enc-dec 和一个可学习的解码器特征序列 q。 映射特征 ˆh_voken 由下式给出:
使用潜在扩散模型(LDM)生成图像:为了生成适当的图像,映射特征 ˆh_voken 被用作去噪过程中的条件输入。 直观上,ˆh_voken 应该代表相应的文本特征,指导扩散模型生成地面实况图像。 我们使用潜在扩散模型(LDM)的损失作为指导。 在训练过程中,地面实况图像首先通过预训练的 VAE 转换为潜在特征 z_0。 然后,我们通过将噪声 ϵ 添加到 z_0 来获得噪声潜在特征 z_t。 使用预训练的 U-Net 模型 ϵ_θ 来计算条件 LDM 损失:
这种综合方法利用预训练模型、专门化的标记和创新训练地技术等功能,确保对文本和视觉元素的理解和生成一致。
鉴于文本和图像域之间不可忽略的域偏移,我们观察到对有限的交错文本和图像数据集进行直接训练可能会导致错位和图像质量下降。
无分类器指导(Classifier-free Guidance,CFG):
为了增强生成的文本和图像之间的连贯性,我们首先利用无分类器指导的思想进行多模态生成。
无分类器引导在文本到图像的扩散过程中引入。 该方法观察到,通过使用条件 dropout 对条件生成和无条件生成进行训练,生成模型 P_θ 可以实现改进的条件结果。
在我们的背景下,我们的目标是强调可训练条件 h_voken 并且生成模型是固定的。 在训练过程中,我们以 10% 的概率将 h_voken 替换为零特征 h_0 ∈ 0^(n×d),得到无条件特征
推理过程中,^h_0 作为负提示,精炼的去噪过程表示为:
两阶段训练策略:认识到纯文本生成和文本图像生成之间的重要领域转变,我们提出了两阶段训练策略:单模态对齐阶段(Unimodal Alignment Stage,UAS)和多模态学习阶段(Multimodal Learning Stage,MLS)。
最初,我们将 voken 特征与单个文本图像对数据集(例如 CC3M)中的图像生成特征对齐,数据集中每个数据样本仅包含一个文本和一张图像,并且文本通常是图像的标题。 在此阶段,我们利用标题作为 LLM 输入,使 LLM 能够生成 voken。 由于这些数据集包含图像描述信息,我们还引入了辅助损失来帮助 voken 对齐,从而最小化文本到图像生成模型中生成特征 ˆh_voken 和来自文本编码器 τ_θ 的标题特征之间的距离:
单峰对齐阶段损失表示为 LUAS = λ1 *L_text +λ2 *L_LDM +λ3 *L_CAP,选择值 λ1 = 0.01、λ2 = 1、λ3 = 0.1 将损失重新调整到类似的数值范围。
在单模态对齐阶段之后,
为了评估我们模型的有效性,我们对多个基准进行了一系列评估。 这些实验旨在解决几个关键问题:(1)我们的模型能否生成可信的图像和合理的文本? (2) 在单轮和多轮交错视觉和语言生成任务中,我们的模型的性能与其他最先进的模型相比如何? (3)各个模块的设计对整体性能有什么影响? 在接下来的小节中,我们将深入研究用于这些评估的数据集和实验设置,然后对我们的模型的性能进行全面分析。 我们使用三个数据集:CC3M (Sharma et al., 2018)、VIST (Huang et al., 2016) 和 MMDialog (Feng et al., 2022)。 有关数据集和数据格式的更多详细信息,请参阅附录 B。
为了全面评估我们在多模态生成方面的表现,我们与几个著名的基线模型进行了比较分析:精调的单模态生成模型、GILL 和 Divter。
精调的单模态生成模型:为了促进图像和文本生成的公平比较,我们利用 VIST 数据集微调了两个单独的模型:Stable Diffusion 2.1 和 MiniGPT-4。 在稳定扩散 2.1 模型中,U-Net 参数未冻结。 对于 MiniGPT-4 的 LLM 部分,LoRA 参数进行了微调。
GILL(Koh 等人,2023):GILL 是一项最新创新,允许 LLM 使用用于单图像生成的预训练文本到图像生成模型来生成的 voken。 与我们采用条件生成损失指导的方法不同,GILL 最大限度地减少了文本到图像文本编码特征和 voken 特征之间的均方误差 (MSE) 损失,类似于我们方法中的 LCAP。 由于他们的方法需要图像描述来进行训练,因此我们仅在单模态对齐阶段与它进行比较。 (为了确保公平比较,考虑到CC3M数据集中有效数据的变化以及GILL中最初使用的Stable Diffusion 1.5,我们进行了调整。具体来说,我们将他们的文本到图像生成模型切换为稳定扩散 2.1,并按照官方实现中的指南,在我们的特定 CC3M 数据上对其进行了重新训练。 (https://github.com/kohjingyu/gill))
Divter (Sun et al., 2021):Divter 是一款专为多模态对话环境开发的最先进的对话代理。 它引入了用于生成多模态响应的定制 transformer 结构。 Divter 的方法包括对大量纯文本对话和文本图像对进行预训练,然后对一组选定的多模态响应数据进行微调。 MMDialog 数据集以 Divter 的方法为基线。
指标。
在多模态方面,
认识到生成的多模态输出可能有意义但与真实情况不同,我们还结合人类评估来评估模型的性能。 我们从三个角度检查模型的有效性:
在本节中,我们将定量分析不同训练阶段的不同基准上的模型性能。 定性示例如图 4 所示。
在本小节中,我们展示了不同模型在 VIST(Huang 等人,2016)和 MMDialg(Feng 等人,2022)数据集上的性能。 我们的评估涵盖视觉(图像相关指标)和语言(文本指标)领域,以展示所提出模型的多功能性和鲁棒性。
VIST 最终步骤评估。我们的第一组实验涉及单步评估,其中根据最后一步的提示,模型旨在生成相应的图像。 表 1 总结了此设置的结果。 MiniGPT-5 在所有三种设置下的性能均优于微调后的 SD 2,显示了 MiniGPT-5 管道的优势。值得注意的是,MiniGPT-5 (LoRA) 模型在多种提示类型的 CLIP 分数方面始终优于其他变体,尤其是在组合图像和文本提示时。另一方面,FID 分数突出了 MiniGPT-5(Prefix)模型的竞争力,表明图像嵌入质量(由 CLIP 分数反映)与图像的多样性和真实性(由 FID 分数捕获)之间可能存在权衡。与在 VIST 上直接训练而未结合单模态对齐阶段的模型(MiniGPT-5 w/o UAS)相比,很明显,虽然该模型保留了生成有意义图像的能力,但图像质量和一致性显着下降。 这一观察结果强调了我们的两阶段训练策略的重要性。
VIST 多步骤评估。在详细而全面的评估中,我们系统地提供具有先前历史背景的模型,并随后评估每个后续步骤生成的图像和叙述。 表 2 和表 3 概述了这些实验的结果,分别封装了图像和语言指标的性能。 研究结果表明,MiniGPT-5 能够利用所有数据的长水平(long-horizontal)多模态输入提示生成连贯的高质量图像,而不会影响原始模型的多模态理解能力。 这强调了我们的模型在不同环境中的有效性。
VIST 人类评估。为了评估多模态生成的质量,我们在 VIST 验证集上测试了我们的模型和基线。 对于每个任务,给定前面的多模态序列,模型的任务是生成后续场景。 为了确保公平比较,我们采用了经过微调的 MiniGPT-4,它经过专门训练,可以在没有任何 voken 的情况下生成旁白。 随后,这些旁白通过文本到图像管道直接合并到 Stable Diffusion 2 中。 我们随机选择了 5,000 个序列样本,每个序列都需要两名工作人员进行评估。 这些评估人员的任务是根据三个标准(语言连续性、图像质量和多模态一致性)确定卓越的多模态输出。 使用 Amazon Mechanical Turk(Crowston,2012)促进了这一评估,附录中提供了一个代表性示例(图 5)。 如表 4 所示,我们的模型 MiniGPT-5 在 57.18% 的情况下生成更合适的文本叙述,在 52.06% 的情况下提供卓越的图像质量,并在 57.62% 的情况下产生更连贯的多模态输出。 与使用旁白进行文本到图像提示而不包含语音的两阶段基线相比,该数据清楚地展示了其增强的多模态生成能力。
MMDialog 多轮评估。我们在 MMDialog 数据集上对我们的方法进行了评估,以确定在多轮对话场景中生成精确且适当的多模态信息的有效性。 该模型需要根据此数据集中对话期间的先前回合生成单模态或多模态响应。 我们的结果如表 5 所示,表明 MiniGPT-5 在生成更准确的文本响应方面优于基线模型 Divter。 虽然生成的响应的图像质量相似,但与基线模型相比,MiniGPT-5 在 MM 相关性方面表现出色。 这表明我们的模型可以更好地学习如何适当定位图像生成并产生高度一致的多模态响应。
我们不是对具有多轮多模态数据的数据集进行评估,而是评估单图像数据集 CC3M(Sharma 等人,2018)中的模型,如表 6 所示。在此阶段,模型接受图像描述的输入并生成相应的图像,这是典型的文本到图像任务,但与生成式标记结合。 结果表明,虽然我们的模型在多回合场景下可以有更好的生成,但 Stable Diffusion 2 在单图像生成的所有指标上都取得了最佳结果。 由于我们的模型在此阶段尝试与 Stable Diffusion 2 的预训练文本编码器保持一致,因此由于数据量的限制,性能上存在轻微差距。 与 VIST 数据集上的观察结果相比,我们可以得出结论,MiniGPT-5 可以正确地从长水平多模态信息而不是单个文本输入中提取特征。 这表明了如何有效地将 LLM 与生成模型结合起来的未来方向。 另一方面,我们的模型在所有指标上都优于另一个最先进的多模态生成模型 GILL。 我们的模型生成更连贯和高质量的图像,与预训练的稳定扩散模型生成的图像非常相似。 为了进一步评估我们设计的有效性,我们进行了多项消融研究,更多关于 voken 数和 CFG 量表的消融研究可以在附录 C 中找到。
不同损失指导的评估:如第 3.3 节所述,我们引入了用于 CC3M 训练的辅助损失(表示为 L_CAP)。 为了评估这种损失的影响并确定单个标题损失是否可以生成像 GILL 这样的高质量图像,我们在没有标题损失 LCAP 的情况下训练了我们的模型(映射的生成式 voken 特征与来自稳定扩散文本编码器的标题特征之间的对齐)和条件潜在扩散损失 L_LDM(映射的生成式 voken 特征与地面实况图像潜在扩散过程的条件特征之间的对齐)。 结果如表 6 所示,表明标题损失显着有助于生成更好的图像,而条件潜在扩散损失进一步增强了相干性和图像质量方面的性能。
无分类器指导 (Classifier-Free Guidance,CFG) 的评估:为了评估 CFG 策略的有效性,我们在没有 CFG 下降的情况下训练了我们的模型。 在推理过程中,模型利用了原始的 CFG 去噪过程,即利用 Stable Diffusion 2 文本编码器中的空标题特征作为负提示特征。 表 6 中的结果表明,如果没有 CFG,所有指标都会变差,这表明 CFG 训练策略提高了图像生成质量。
使用人类偏好评分 (Human Preference Score,HPS) 进行评估:为了更好地评估我们模型的有效性及其各个组成部分,我们采用了人类偏好评分 v2 (HPSv2)(Wu 等人,2023b)。 图 3 显示了具有最高 HPS 的每个模型生成的图像数量。 值得注意的是,MiniGPT-5 始终优于其竞争对手,强调了损失的重要性以及我们的方法中实施的无分类器引导技术。
在本文中,我们介绍了 MiniGPT-5,旨在通过将 LLM 与预训练的文本到图像生成模型对齐来增强 LLM 的多模态生成功能。 正如综合实验所证明的那样,我们的方法展示了显着的改进。 通过这项工作,我们渴望在多模态生成模型中树立新的基准,为以前因现有图像和文本合成范式的脱节性质而被视为具有挑战性的应用程序打开大门。
本文提出 MiniGPT-5,将多模态编码器与稳定扩散结合以生成交错的视觉和语言输出。它以 “生成式 Voken” 的概念为基础,通过将 LLM 与预训练的文本到图像生成模型对齐,来生成带有连贯文本叙述的图像。
介绍了一种用于无描述多模态生成的两阶段训练策略。单模态对齐阶段从大型文本图像对中获取高质量的文本对齐视觉特征。多模态学习阶段保证视觉特征和文本提示能够很好地协调来生成。
在训练阶段加入了无分类器指导来增强生成的文本和图像之间的连贯性,从而增强了 vokens 在图像生成方面的有效性。
本文的架构如图 2 所示。
多模态输入阶段:除了使用相应的编码器将输入文本和图像编码外,还要在 LLM 的词汇表中引入一组特殊标记作为 voken(这些 voken 的 LLM 输出隐藏状态用于后续图像生成,并且这些 voken 的位置可以表示交错图像的插入位置),从而在 LLM 和生成模型之间构建一座桥梁。
多模态输出阶段:
训练阶段使用两阶段训练策略: 单模态对齐阶段和多模态学习阶段。