强大的视觉主干和大型语言模型 (LLM) 推理的结合使大型多模态模型 (LMM) 成为各种视觉和语言 (VL) 任务的当前标准。然而,最近的研究表明,即使是最先进的 LMM 仍然难以捕获组合视觉推理的各个方面,例如对象之间的属性和关系。一种解决方案是利用场景图(SG)——对象及其关系和属性的形式化,已被广泛用作视觉和文本领域之间的桥梁。然而,场景图数据需要场景图注释,收集这些注释的成本很高,因此不易扩展。此外,基于 SG 数据微调 LMM 可能会导致灾难性地忘记预训练目标。为了克服这个问题,受思想链方法的启发,我们提出了组合思想链(CCoT),这是一种新颖的零样本思想链提示方法,它利用 SG 表示来从 LMM 中提取组合知识。具体来说,我们首先使用 LMM 生成 SG,然后在提示中使用该 SG 来生成响应。通过大量的实验,我们发现所提出的 CCoT 方法不仅提高了在多个视觉和语言 VL 组合基准上的 LMM 性能,而且还提高了几个流行的 LMM 在通用多模态基准上的性能,而无需微调或注释的 ground-truth SG。
图 1: 我们的组合思想链 (CCoT) 方法的高级概述。我们的 CCoT 方法由两步提示过程组成:(1) 首先, LMM被提示生成与图像和任务提示相关的场景图,如图中的问题“这个人在做什么?”。 (2) 接下来,LMM 会收到生成的场景图、图像和任务提示的提示,作为对给定任务提示响应“扔飞盘”的上下文。
近年来,大型多模态模型 (LMM),例如 LLaVA [45] 和 InstructBLIP [16] 在视觉和语言 (VL) 领域,特别是在多模态推理和视觉问答 (VQA) 领域表现出了令人印象深刻的成果 [39,46,47,5,51]。然而,最近的实证研究 [50,28,18] 表明,性能最佳的 VL 模型倾向于将图像视为“对象包”。请考虑图 1中的以下示例。假设要求 VL 模型识别图像中人的动作状态。从物品袋的角度来看,焦点仅集中在人和飞盘上。很难知道该男子实际上是在“接飞盘”还是“扔飞盘”。理解人与飞盘之间“投掷”的关系,可以让模型更容易识别动作状态。
理解视觉场景的结构是机器感知的核心问题。视觉场景不仅由对象组成,还包括相关特征和关系,这对于更好地理解场景的组合性具有重要意义。在本文中,我们问如何最好地提高 LMM 的组合性?最近,场景图 (SG) 注释(视觉场景的结构化图表示)已作为强大的 VL 表示形式引入,并在之前的许多工作中进行了广泛的探索 [78,24,34,79]。然而,SG 数据比文本描述更难获得,因为获取 SG 成本高昂,因此不可扩展。1此外,对 SG 数据进行训练可能会导致遗忘预训练目标,如 [中所示28]。因此,在本文中,我们建议使用 LMM 的场景图表示不带注释的场景图数据和不进行微调< /span>.
最近,大型语言模型 (LLM) 通过整合思想链 (CoT) 提示方法,取得了可喜的成果 [75,36]。 CoT 方法使用 LLM 来执行具有深思熟虑的推理步骤的任务,要么是零样本(没有明确的示例),要么是少样本(有明确的示例)。受此启发,我们设计了一种零样本 CoT 方法,利用场景图表示来执行多模态和组合视觉推理任务。与没有提示的情况相比,我们的方法使我们能够从 LMM 中提取更多的组合知识。接下来,我们问自己应该如何设计一个利用场景图的 CoT 提示方法,而不依赖于真实的 SG 注释或模型微调。
我们提出的设计方法——组合思想链 (CCoT)——可以分为两个步骤。第一步是生成场景图,以便通过使用输入图像和任务提示(例如,视觉问题)来避免对地面实况 SG 数据的需求。第二步是用图像、任务提示和生成的场景图提示 LMM 产生响应。将场景图合并到提示中可以消除微调的需要并防止遗忘。请参阅图 1了解概述。我们方法的另一个好处是生成的 SG 可以描述任何视觉场景,因此使 CCoT 可推广到一组不同的 VL 任务。最后,场景图是图像的紧凑表示,这一事实使得 CCoT 成为一种有效的令牌提示方法。考虑到 LMM 由于部分上下文专门用于处理图像标记而经常面临文本上下文长度有限,这一点非常重要。
总而言之,我们的主要贡献如下: (i) 我们引入了 CCoT,这是一种零样本思想链方法,它利用场景图表示来从 LMM 中提取组合知识 ; (ii) 我们提出的 CCoT 方法的设计不需要特定于任务的微调或带注释的 SG 数据,并且适用于各种不同的 LMM 架构并易于使用; (iii) 我们的方法不仅在像 Winoground 和 WHOOPS 这样的 VL 成分基准上显示出在 LLaVA-1.5 和 Instruct-BLIP 上的性能改进!还进一步增强了 SEEDBench 和 MMBench 等通用多模式基准测试的性能,凸显了我们方法的有效性。
图 2:CCoT 的完整提示示例。提示方法的第一步是根据给定图像和。 作为上下文的文本任务。接下来,通过用图像、场景图、问题和答案提取提示提示 LMM 来提取答案。我们方法特有的提示部分采用粗体显示
大型多模式模型 (LMM)。 LMM 的发展很大程度上是 LLM 强大的推理能力相结合的结果 [59,15,66] 与现有 VL 模型。此类模型的一个很好的例子是对比视觉和语言模型 [58,40,20],这是连接视觉和语言表示方面向前迈出的重要一步。然而,这些方法在直接应用于下游任务方面受到限制,这些任务需要生成组件或更明确的推理两种模式,例如视觉问答[5,29,60,51,31,23]。解决方案的形式是将 LLM 的推理和生成能力应用于文本和视觉信息,从而开发了 LMM。
LMM 直接推理嵌入的视觉特征[45,44,1,41,16,91,82,83,7,21,19]。对于这些方法的成功尤为重要的是模型的视觉指令微调[45,88]。受到法学硕士纯文本指令调整的启发[74],通过将详细的文本描述和对象位置信息传递给顶级的 LLM(例如 GPT-4),视觉指令调整已被证明对复杂的视觉任务有效。 [54])。然而,这种方法需要高质量的训练数据,而这些数据并不总是可用或可扩展。在本文中,我们提出了一种无需训练数据的方法。
与 LMM 类似,另一类多模态方法使用代码生成作为视觉推理的代理(例如 ViperGPT [64],VisProg [22] 和 CodeVQA [63]),我们在本文中将其称为视觉编程模型 (VPM) [ 61,48,62,56,76]。受到神经模块化网络架构的启发 [4,3,33] VPM 充分利用和扩展了视觉推理的组合性质,它建立在最近出现的高性能开箱即用 LLM 的基础上,无需额外编程。值得注意的是,这些方法不会直接对视觉信息进行推理,并且受到通过其有限上下文提供访问的确切 API 或模型的限制。与这些方法不同,我们在这里探索了 LMM 的潜力,它利用场景图作为视觉域和语言域之间的桥梁,进行组合视觉推理。
多模式提示方法。考虑到 LLM 和 LMM 的日益普及,提示方法对于利用它们的力量至关重要,因为它们能够精确控制模型输出并提供可以使用模型的上下文。更重要的是,提示方法发生在推理时。它们包括零样本方法 [35,70,68],少量方法 [13,53,17 号,49],专家提示 [77] 和思想链 (CoT) [75,86],具有自洽性等扩展 [72],思想树 (ToT) [80] 和思维图 (GoT) [11,81,38] 用于更复杂的结构。
据我们所知,三种方法 - VidIL [73],DDCoT [90] 和 Multimodal-CoT 方法 [87,69]——代表多模式提示的当前最先进水平。 VidIL 是一种专门为视频设计的架构,它有一个语言模型,可以对视频帧的字幕进行推理。类似地,DDCoT 在图像标题上设计了自己的 CoT 提示方法,而不是显式的视觉特征。最后,虽然 Multimodal-CoT 利用 LMM 直接对视觉和文本输入特征进行推理,但其思想链提示方法需要对真实自然语言推理进行微调,这既是注释又是计算成本高昂。
CCoT 与这些方法之间的一个关键区别是,我们利用生成的 SG 而不是字幕(生成或收集的真实数据)作为 CoT 设计中的推理步骤。这提高了 LMM 的组合性,也显式地推理了视觉特征。此外,我们证明我们的方法还可以更广泛地增强多模态推理。最后,由于 CCoT 是一种在推理时使用的零样本方法,因此它广泛适用于各种基于 LMM 的架构。
组合性。组合性,或者将概念理解为由各自的子部分和关系组成,是通过对图像中的对象、关系和属性进行推理来理解视觉概念的有价值的范式。组合性已应用于多个领域,包括:视觉和语言[28,18,14,42,65,84,2],视觉问答[37,29,51],视频理解[25,8,27,71,6,52],关系推理 [9,10,30]和场景图[32,78,24,26,57]。最近的实证研究 [85,89,67,28] 已经表明,即使是最强大的 LMM 也难以执行组合视觉理解,包括识别对象属性和对象间关系。具体来说,事实证明,VL 模型 [50] 倾向于学习“对象袋”表示,导致它们的组合性较差。在这项工作中,我们表明,更加结构化的 CoT 方法可以改善 LMM 中的组合推理,这可以通过组合基准性能的提高来证明。
为了解决 LMM 将图像视为“对象袋”的挑战(如之前的作品所示),我们的方法引入了一种新颖的方法来增强组合视觉理解。我们首先描述标准 LMM 架构(第 3.1 节)。然后,我们介绍两步思想链方法:首先是场景图生成(第 3.2 节),第二是响应生成(第3.2节) a> 所示。2)。我们的方法如图 3.3
LMM 是多模态模型,可以直接对视觉和语言模态进行推理。他们通常会得到一张图像的输入我以及文本形式的关联任务提示磷在(例如,问题、标题生成等)。 然后将每种模态编码到语言模型的共享嵌入空间中��(⋅)(参数化为�)可以推理出来。更具体地说,使用可训练的视觉编码器对图像进行编码��(⋅)(参数化为�),而任务提示被标记化,然后使用固定语言嵌入进行编码我。给定输入图像我并输入任务提示磷在,语言模型(通常是 LLM)然后输出文本响应右。
右=��(��(我),我(磷在)) | (1) |
LLM的精确LMM子模块、视觉编码架构和参数预训练方法�,�模型之间存在差异,但上述总体方法保持不变。
我们提出了 CCoT,一种零样本思维链提示方法,利用场景图生成来提高 LMM 的组合视觉理解和多模态推理。值得注意的是,这种方法不需要任何微调,因为它纯粹基于提示。此外,由于该方法是零样本,因此不需要带注释的 SG。最终,我们的方法以场景图生成提示为中心�在可以集成到磷在这样LMM就可以输出场景图�G作为中间多模态推理步骤,以输出对任务提示的更好响应,例如问题、分类或标题生成。
我们的第一步是生成场景图�G,消除了对地面实况注释 SG 数据的需要。场景图生成提示�在 指示 LMM 系统地构建具有三个关键属性的场景图:对象、它们的 属性,以及它们之间的关系。为了解决“对象袋”问题,我们不仅希望对对象(视觉推理的主要单位)有一个全局视图,而且还希望对它们的属性以及它们如何相互交互有一个全局的了解。
在场景图生成提示中�在,我们进一步将其格式限制为 JSON。 JSON 格式的这种标准化旨在促进 LMM 更轻松地解释。通过在场景图中包含对象、关系和属性来系统地组织视觉信息,我们可以实现更加结构化和全面的推理。图 2 展示了展示这种结构化方法的完整提示。场景图生成方法代表了我们工作的核心新颖贡献,旨在克服现有多模态推理模型的局限性并增强对 LMM 的组合理解。
我们包括图像我以及任务提示磷在随着�在 使生成的场景图与给定的任务提示相关。因为 SG 本质上是非常长尾的,所以生成的场景图仅以图像为条件,可能会包含与给定任务提示无关的信息。例如,虽然“草上的树”确实是图 1所示的有效关系,但它与男人的行为无关。
LMM 的整个第一个提示,我们表示为磷在(1)通过组合输入图像来构造我,任务提示磷在,最值得注意的是场景图生成提示�在(在图 2中的场景图生成下以红色显示)。完整提示如下:
磷在(1)=“[我] [磷在] [�在]” | (2) |
在哪里[⋅]表示用于插入提示的各个元素的插槽。因此,LMM 生成如下 SG:
�G=�(��(我),我(磷在(1))) | (3) |
为了绕过微调的需要并从而消除遗忘,我们利用生成的场景图�G作为中间的思维链推理步骤。 因此,LMM 会收到原始任务提示、图像和相应生成的场景图的提示,以便这三者可以联合用作上下文来响应这个新的任务提示。因此,响应生成的总体输入提示如下:
磷在(2)=“[我] [�G] [�] [磷在] [乙]” | (4) |
除了输入图像之外我、原任务提示磷在,并生成场景图�G,我们插入一个上下文句子�和一个答案提取语句乙。�简要指示 LMM 使用提供的上下文。具体来说,这是由“使用图像和场景图作为上下文并回答以下问题:”给出的。最后,虽然 LLM 文本生成的灵活性是高级多模态推理的绝佳建模选择,但这种灵活性也使得特定格式的响应生成变得非常重要。例如,许多多模式基准采用多项选择格式。由于我们在这些类型的基准上评估我们的方法,因此会出现一个简短的附加子提示乙需要(通常是条件语句)才能以字母形式返回答案。例如,我们的答案提取子提示“直接使用给定选项中的选项字母回答”取自 LLaVA-1.5 [44],因为它已被证明在大型多项选择基准测试中是可靠的。但是,通过修改或完全删除 ,此方法可以轻松推广到其他答案格式,例如简短答案或详细描述乙。因此,LMM 生成最终响应右到原图,任务提示对(我,磷在)如下:
右=�(��(我),我(磷在(2))) | (5) |
图 3:示例输出。上面我们在 SEEDBench 和 Winoground 上展示了我们的方法的示例。左边展示了 CCoT 的成功案例,右边展示了失败案例。如需更多定性可视化,请参阅补充材料中的 C部分。
我们将 CCoT 方法应用于两种流行的 LMM:LLaVA-1.5 [44] 和 InstructBLIP [16] 我们还将我们的方法与其他几个基线进行了比较,并在多个基准上进行了评估,重点关注视觉推理和 VL 组合任务。其他结果和消融见补充部分 A。
我们使用 PyTorch 实现了 CCoT [55],代码将在接受后发布。为了获得我们评估我们的方法的预训练模型,我们使用了每个模型各自的官方实现。虽然模型之间的计算和内存要求有所不同,但我们的提示方法仅需要在这些模型上运行推理所需的基础设施。如需了解更多信息,请参阅 B部分的补充。
多式联运基准 | VL 成分基准 | |||||
---|---|---|---|---|---|---|
模型 |
种子-I | MMBench | Wino文本 |
Wino-图像 |
威诺集团 |
哎呀! VQA边界元法 |
夹子 |
- | - | 30.7 |
10.5 |
8.0 |
- |
BLIP |
- | - | 39.0 |
19.2 |
15.0 |
39.0 |
BLIP2 |
46.4 | - | 42.0 |
23.8 |
19.0 |
55.0 |
SGVL† |
- | - | 42.8† |
28.5† |
23.3† |
- |
mPlug-OWL2 |
57.8 | 64.5 | - |
- |
- |
- |
QwenVL-聊天 |
58.2 | 61.2 | - |
- |
- |
- |
指导BLIP |
48.2 | 36.0 | 7.0 |
11.5 |
3.3 |
48.7 |
指导BLIP-ZS-CoT |
37.6 | 25.3 | 9.3 |
16.3 |
4.0 |
30.8 |
指导BLIP-CCoT | 56.9 (+8.7) | 40.3 (+4.3) | 21.0 (+14.0) |
21.3 (+9.8) |
8.3 (+5.0) |
59.9 (+11.2) |
LLaVA-1.5 |
68.4 | 67.0 | 36.0 |
33.3 |
20.1 |
47.9 |
LLaVA-1.5-ZS-CoT |
66.7 | 66.0 | 28.0 |
22.5 |
12.3 |
46.0 |
LLaVA-1.5-CCoT | 69.9 (+1.5) | 70.7 (+3.7) | 42.0 (+6.0) |
35.5 (+2.2) |
22.3 (+2.2) |
48.9 (+1.0) |
表 1:SeedBench、MMBench、Winoground 和 WHOOPS! 上的主要结果表基准。 缩写:SEEDBench-Image [SEED-I]; Winoground 文本分数:Wino-Text,图像分数:Wino-Image,组分数:Wino-Group。与我们的零样本方法不同,带有 † 的模型是在带注释的场景图上进行监督和微调的。如需了解更多结果,请参阅补充材料中的 A.2部分。
我们工作的目标是证明我们的方法可以提高 LMM 的组合视觉理解,同时增强广泛的视觉和语言任务。因此,我们根据 VL 组合基准 和 多模态基准 评估我们的模型。接下来,我们将解释这些基准。
VL 组合基准。为了评估我们方法的组合视觉理解,我们考虑了 Winoground [67] 哎呀! [12] 基准测试:(1) Winoground 是一个手工策划的数据集,旨在测试 VL 模型' 构图视觉理解。每个样本包含两个图像和一对相应的图像标题。两个标题在语法上非常相似,但包含一个关键的区别,即对象、关系或两者的语义交换形式。在同一数据集上,Winoground 的性能根据三个指标进行评估:(i)文本得分,必须在给定一张图像的情况下识别出正确的标题; (ii) 图像得分,必须在给出一个标题的情况下识别出正确的图像; (iii) 小组得分,其中两对必须正确匹配。 (2) 哎哟! 类似地使用违反典型视觉常识的图像来测试组合性。任务种类繁多,特别是:(i) 解释生成、(ii) 图像说明、(iii) 跨模态匹配和 (iv) 组合 VQA。我们在数据集的组合 VQA 分割上评估我们的方法。
多模态推理基准。最近,引入了几个专门用于评估 LMM 多模态推理能力的新基准。在我们的工作中,我们专注于 SEEDBench[39] 和 MMBench[46]。这两个基准测试都包含不同的分割,用于测试一般视觉感知和视觉推理。例如,SEEDBench 包含评估 LMM 的实例识别和实例属性理解能力的感知任务,同时还包含更多高阶推理拆分,例如场景理解和实例交互。 MBench 也有类似的划分。我们在 SEEDBench 的图像分割和整个 MMBench 上评估我们的方法。
在我们的工作中,我们将 CCoT 方法应用于三个流行的 LMM。接下来,我们描述我们评估我们的方法的这些模型实现。
LLaVA-1.5。 LLaVA [45] 架构以其强大的最先进 (SOTA) LMM 方法而著称。 该架构具有简单的线性投影,可将输入图像的 CLIP 视觉特征映射到具有 LLM 语言标记的共享嵌入空间中。 LLaVA 指令根据图像数据集(LLaVA-Instruct-158k)进行调整,并与会话、详细描述和复杂推理响应类型配对,以实现比简单的图像-文本对更好的视觉对齐。 在我们的工作中,我们评估了 LLaVA-1.5 [44],LLaVA 的新版本,具有改进的基线。该模型通过用 MLP 替换线性投影并对更多样化的数据集进行预训练来进行更改。 LLaVA-1.5 目前在大多数基准测试中都保持着 SOTA。
指导BLIP。虽然 InstructBLIP 也使用冻结视觉编码器和 LLM,但它通过 Q-former 转换器计算视觉特征,如 BLIP-2 [41] 输出可学习视觉标记的模型。本例的不同之处在于,InstructBLIP 的 Q-former 还参与任务提示,使视觉功能具有指令感知能力指令感知。再加上包括 LLaVA-Instruct-158k 在内的更广泛的视觉指令调整方案,在 SEEDBench 等基准测试中提供了 SOTA 性能 [39]。
模型 |
我知道了 |
苏 |
IId |
IA |
伊尔 |
SR |
虚拟现实 |
TU |
因 |
---|---|---|---|---|---|---|---|---|---|
指导BLIP |
29.7 |
60.3 |
55.4 |
51.0 |
41.8 |
32.4 |
46.8 |
31.8 |
47.42 |
指导BLIP-CCoT | 34.2 |
68.7 |
57.9 |
63.7 |
47.9 |
42.8 |
67.1 |
40.0 |
66.0 |
LLaVA-1.5 |
61.3 |
74.9 |
71.3 |
68.9 |
63.5 |
51.5 |
73.2 |
77.04 |
60 |
LLaVA-1.5-CCoT | 59.3 |
76 |
74.4 |
71.8 |
64.3 |
54.5 |
79.2 |
58.8 |
74.2 |
表 2:详细结果表 SEEDBench。此表描述了我们的方法在 SEEDBench 的所有图像分割上的分割级别结果 [39]:实例计数 [IC]、场景理解 [SU]、实例标识 [IId]、实例属性 [IA]、实例位置 [IL]、空间关系 [SR] ]、视觉推理[VR]、文本理解[TU]、实例交互[IIn]]。
模型 |
LR |
增强现实 |
RR |
FP-S |
FP-C |
CP |
---|---|---|---|---|---|---|
指导BLIP |
11.5 |
43.6 |
35.5 |
36.6 |
22.3 |
51.7 |
指导BLIP-CCoT | 12.5 |
45.8 |
40.9 |
40.7 |
22.1 |
56.0 |
LLaVA-1.5 |
39.9 |
74.7 |
61.6 |
70.9 |
59.9 |
75.4 |
LLaVA-1.5-CCoT | 44.2 |
72.1 |
75.3 |
73.7 |
59.3 |
81.2 |
表 3:详细结果表 MMBench Reasoning。此表描述了我们的方法在按 MMBench 分类为 Reasoning 的分割上的分割级别结果 [46]:逻辑推理 [LR]、属性推理 [AR]、关系推理 [RR]、细粒度(单)[FG-S]、细粒度 (十字)[FG-C],粗略感知[CP]。
在我们的实验中,我们将 CCoT 提示方法与其他两种提示基准进行了比较。首先,为了评估我们的方法对预训练 LMM 的额外好处,我们的第一个基准是在没有任何即时工程的情况下对基准进行评估。其次,我们考虑语言零样本(ZS)CoT提示方法的基线[36] 确定 CCoT 与 SOTA CoT 提示方法相比的优势。该方法分两步进行。 (i) 给定输入问题和文本,推理触发“让我们一步一步思考”。附加到提示的末尾,紧随问题之后。这会生成问题答案的语言推理。 (ii) 由于答案隐含在输出推理中,因此第二步涉及传递图像、问题、步骤 1 中的输出推理以及答案提取短语,以以所需格式返回响应。
此外,我们还将我们的工作与最新最先进的 VL 模型 CLIP 进行比较 [58],BLIP [40]、BLIPv2 [41] 和 SGVL [28] VL 组合基准和最近的 SOTA LMM Qwen-VL-Chat [7] 和 mPlug-OWL2 [83] 多模式基准测试。
模型 |
苏 |
IId |
IA |
伊尔 |
SR |
虚拟现实 |
因 |
平均W. |
LLaVA-1.5-CCoT | 76.0 |
74.4 |
71.8 |
64.3 |
54.5 |
79.2 |
74.2 |
72.1 |
LLaVA-1.5 |
74.9 |
71.3 |
68.9 |
63.5 |
51.5 |
77.0 |
73.2 |
69.9 |
不含 Att。和相对。 |
75.8 |
73.3 |
69.4 |
62.4 |
52.2 |
79.2 |
74.2 |
70.5 |
不带 JSON 格式 |
74.8 |
73.1 |
70.7 |
63.0 |
52.0 |
78.6 |
73.2 |
68.1 |
LLaVA-1.5-标题-CoT |
75.7 |
73.1 |
69.1 |
63.1 |
55.3 |
78.6 |
73.7 |
70.7 |
128 令牌长度 |
76.2 |
73.4 |
71.4 |
63.7 |
55.4 |
80.1 |
75.3 |
71.9 |
第512章 令牌长度 |
75.5 |
73.6 |
71.6 |
63.2 |
54.8 |
79.15 |
74.2 |
71.6 |
1024 令牌长度 |
75.9 |
73.5 |
71.7 |
63.2 |
54.0 |
79.5 |
76.3 |
71.5 |
表 4:SEEDBench-Image 上的消融。此表描述了我们的方法在 SEEDBench 的所有图像分割上的关键分层消融结果 [39]:实例计数 [IC]、场景理解 [SU]、实例标识 [IIn]、实例属性 [IA]、实例位置 [IL]、空间关系 [SR] ]、视觉推理[VR]、文本理解[TU]、实例交互[IIn]]。平均W.表示加权平均值。
结果如表 1所示。我们的方法的一个优点是它可以应用于各种不同的预训练方法和视觉架构。我们证明 LLaVA-1.5 和 InstructBLIP-CCoT 在多个基准测试中均优于基本模型,凸显了我们方法的有效性。在图 3 中,我们展示了具体示例,其中我们的方法在基线上进行了改进,以及仍然失败的情况。如需了解更多结果,请参阅补充材料中的 A.2部分。
构图视觉理解。对于我们的顶级 LMM 模型 - LLaVA-1.5-CCoT - 我们发现所有 Winoground 和 WHOOPS!在 LLaVA-1.5 和 LLaVA-1.5-ZS-CoT 基线上进行划分。事实上,在没有任何指令调整的情况下,LLaVA-1.5-CCoT 表现出与 SOTA-SGVL 相当的性能,后者已根据地面真实 SG 注释进行了微调 [28]。有趣的是,LLaVA-1.5-ZS-CoT 方法实际上降低了所有组合基准的性能。这可能是由于提示中缺乏对视觉信息的考虑,因为它是为法学硕士设计的。
对于 Winoground 和 WHOOPS!,我们在使用 CCoT InstructBLIP 时看到了类似的准确性提高。因此,这些结果证明了 CCoT 在改进 LMM 的组合视觉推理方面的有效性,而无需微调或真实注释的 SG 数据。
多模式基准。 我们还看到,LLaVA-1.5-CCoT 在 SEEDBench 图像分割和 MMBench 上均优于 LLaVA-1.5 和 LLaVA-1.5-ZS-CoT 基线。值得注意的是,LLaVA-1.5-CCoT 在 SEEDBench 上的性能也是最先进的,平均图像得分提高了 1.5%。即使许多 LMM 具有各种不同的 LLM 主干和预训练方法,SEEDBench 上连续的最先进模型之间的差异通常为 1% 或更小。因此,这些结果强有力地表明,我们的方法不仅有利于提高 LMM 的组合视觉理解,而且还有利于提高其一般的多模态推理。再次强调,LLaVA-1.5-ZS-CoT 方法实际上对这些基准测试中的 LMM 是不利的。
表 2和表 中显示了 SEEDBench-Image 和 MMBench 的更详细的拆分结果3。我们看到 CCoT 也从 SEEDBench-Image 和 MMBench 的几乎所有不同分割中获益。这为以下观点提供了支持:场景图表示可以有效地得出有关任务的有价值的多模态信息。即使在像 OCR 这样的分割上,SG 表示可能不会立即有用,我们的方法在很大程度上保留了准确性,表明它通过不进行微调来减轻遗忘。
这也适用于 InstructBLIP,有力地说明了我们的方法对于一般多模态任务的价值,而不仅仅是以组合性为中心的任务。
我们使用 LLaVA-1.5-CCoT 模型在 SEEDBench 上执行全面的消融(参见表 4)。我们注意到,我们没有报告实例计数和文本理解(OCR)分割,因为它们不构成视觉推理。有关更多消融,请参阅补充材料中的 A.1部分。
替换 SG 对象列表。: 我们通过提示 LMM 生成对象、关系和属性的文本图来制定场景图表示。我们的结果表明,LMM 推理不仅针对对象,而且还针对关系和属性进行推理,对于克服“对象袋”观点很有价值。为了与图像的对象袋视图进行直接比较,我们消除了场景图的关系和属性,即“无Att”。和相对”。这是通过生成与任务提示相关的对象列表而不是 SG 来完成的。然后,LMM 以与 CCoT 中 SG 相同的方式使用该列表来响应任务。我们在表 4中显示了这种消融后的性能下降(与 CCoT 相比为-1.6%),这证明了考虑包的关系和属性的重要性给予多模态推理任务时的对象。
用字幕替换 SG。 SG 是视觉信息的高度结构化表示,将其与简单的图像自然语言描述区分开来。因此,我们通过生成字幕而不是 SG 来消除 SG 结构的重要性(参见 LLaVA-1.5-Caption-CoT)。我们在表 4中发现,使用与我们的 SG 方法相同的信息上下文生成字幕,但是,降低了性能(与我们相比-1.4%),这表明 SG 结构对多模式任务的重要性。
JSON 结构提高 SG 利用率。 虽然 SG 是结构化的视觉表示,但它们可能有许多不同的文本格式。因此,我们取消了 SG 生成提示的 JSON 格式要求(请参阅w/out JSON Format),以评估是否强制执行特定的 SG 格式影响 LMM 对内容的使用。我们的结果表明,强制实施像 JSON 这样的通用系统格式确实有利于 LMM 最有效地利用 SG 的能力(没有 JSON,则为-2.0%)。
评估 SG 尺寸的影响。 通过比较使用不同令牌长度的 SG 时的准确性,我们考虑 SG 的大小如何影响生成的响应。具体来说,我们在使用长度为 1024 (-.6%)、512 (-0.5%) 和 128 (-0.3%) 个令牌的 SG 时进行评估。结果表明,最佳 SG 大小是 256 个代币。这证明了文本 SG 在将有用信息封装在较小序列长度方面的有效性,同时也为正确回答问题所需的最少量信息提供了证据。
我们的研究证明了 CCoT 方法在从 LMM 中提取成分信息方面的巨大潜力。这种提取的知识可以增强下游 LMM 的组合视觉和多模态推理,而无需微调或依赖真实注释场景图 (SG) 数据。我们的方法以零样本方式生成 SG,有效解决带注释的 SG 可用性问题。在 CoT 推理提示中使用生成的 SG 还可以通过不进行微调来解决灾难性遗忘问题。在 Winoground 和 WHOOPS! 等组合视觉推理基准以及通用多模态基准 SEEDBench 和 MMBench 上观察到的实质性改进,强调了我们的方法在各种任务中的有效性。我们的消融进一步证实了这一点,它揭示了在字幕上使用结构化 SG、利用 JSON 格式以及利用最佳 SG 长度来增强 LMM 的视觉组合和多模态推理的重要性。这些结果共同凸显了我们的方法在扩大 LMM 能力方面的价值 在组合和多模态推理任务中。
在这项工作中,我们提出了一种 ZS CoT 提示方法,该方法利用 SG 表示进行多模态和组合视觉推理任务。我们在几种不同的模型和基准上展示了改进的性能。然而,我们的工作有一个主要局限性。虽然扩展上下文长度是一个活跃的研究领域,但我们的方法受到 LMM 所使用的 LLM 当前上下文长度的限制。此外,在执行强调语言而非视觉推理的多模态任务(例如文档理解)时,SG 并不是特别有用的表示。最后,我们预计这项工作不会产生负面影响,但与任何机器学习方法一样,我们建议谨慎行事。
补充材料
在这里,我们提供有关实验结果、定性示例、实施细节和数据集的更多信息。具体来说, A 部分提供了更多实验结果, B 部分提供了额外的实现详细信息, C 部分提供了定性可视化来说明我们的方法。
模型 |
苏 |
IId |
IA |
伊尔 |
SR |
虚拟现实 |
因 |
平均W. |
---|---|---|---|---|---|---|---|---|
LLaVA-1.5-CCoT | 76.0 |
74.4 |
71.8 |
64.3 |
54.5 |
79.2 |
74.2 |
72.1 |
无图像 |
49.2 |
46.6 |
47.1 |
43.2 |
38.5 |
54.7 |
50.5 |
46.0 |
带随机场景图 |
73.4 |
71.3 |
67.2 |
62.2 |
50.2 |
77.3 |
75.3 |
66.5 |
指导BLIP-CCoT | 68.7 |
57.9 |
63.7 |
47.9 |
42.8 |
67.1 |
66.0 |
60.1 |
带 LLaVA-1.5-CCoT SG |
50.6 |
42.2 |
43.0 |
38.1 |
33.8 |
58.0 |
50.5 |
44.8 |
表 5:SEEDBench-Image 上的消融。此表描述了我们的方法在 SEEDBench 的所有图像分割上的关键分层消融结果 [39]:实例计数 [IC]、场景理解 [SU]、实例标识 [IIn]、实例属性 [IA]、实例位置 [IL]、空间关系 [SR] ]、视觉推理[VR]、文本理解[TU]、实例交互[IIn]]。平均W.表示加权平均值。
粗略感知 | FGSI | FGCI | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
模型 |
它 |
智商 |
IE |
是 |
是 |
光学字符识别 | CR | OL | 辅助生殖系统 | 交流电 |
SR |
指导BLIP |
16.7 |
14.8 |
50.0 |
37.1 |
22.6 |
35.0 | 53.5 | 4.9 | 7.1 | 2.1 |
1.0 |
指导BLIP-ZS-CoT |
16.7 |
3.0 |
36.0 |
36.1 |
20.8 |
37.5 | 39.3 | 6.17 | 40.4 | 2.1 |
2.2 |
指导BLIP-CCoT | 61.1 |
9.3 |
54.0 |
82.9 |
49.1 |
45.0 | 60.0 | 8.64 | 45.8 | 11.4 |
4.4 |
LLaVA-1.5 |
83.3 |
50.0 |
86.0 |
95.2 |
73.6 |
57.5 | 81.8 | 45.7 | 87.0 | 61.4 |
93.0 |
LLaVA-1.5-ZS-CoT |
80.5 |
55.6 |
82.0 |
95.2 |
81.1 |
57.5 | 78.8 | 40.7 | 92.2 | 59.1 |
26.7 |
LLaVA-1.5-CCoT | 81.5 |
44.4 |
86.0 |
97.1 |
83.0 |
62.5 | 84.8 | 53.1 | 87.0 | 83.9 |
31.1 |
表 6:详细结果表 MMBench 感知。 此表描述了我们的方法在按 MMBench[] 分类为推理的分割上的分割级别结果。类别缩写:细粒度感知(单实例)[FGSI]、细粒度感知(跨实例)[FGCI];拆分缩写:图像主题 [IT]、图像质量 [IQ]、图像情感 [IE]、图像场景 [IS]、图像风格 [IS]、OCR [OCR]、名人识别 [CR]、对象定位 [OL]、属性识别(单实例)[ARS]、属性识别(跨实例)[ARC] 属性比较[AC]、空间关系[SR]。
我们首先介绍一些额外的消融(第 A.1 节),进一步展示我们的 CCoT 方法的优势。我们还提供了有关 MMBench 感知分裂的其他结果(第 A.2 部分)。
接下来,我们提供额外的消融,进一步说明 CCoT 的优势。对于所有消融,我们将消融实验与相应的最佳性能 CCoT 结果进行比较。
随机 SG 正则化。 为了评估是否只有 SG 的结构对推理有价值,我们消除了场景图的具体细节。具体来说,我们将一个与输入问题无关的随机 SG 传递给 LMM,并提示模型仅将其用作推理框架,本质上是通过随机 SG 来规范响应。我们发现 LLaVA-1.5-CCoT 的性能下降了 5.6%,如表 5所示.
SG 知识蒸馏。 在这里,我们询问在高质量场景图中提取的组成知识是否可以转移到其他模型。特别是,在 SEEDBench-Image 分割上提示 InstructBLIP 时,我们使用 LLaVA-1.5-CCoT 场景图。运行InstructBLIP-CCoT的整个过程保持不变,只是场景图被替换为生成的场景图LLaVA-1.5-CCoT。我们发现,这实际上导致InstructBLIP-CCoT性能略有下降,但仍然优于 InstructBLIP-ZS-CoT。
正在删除图像。 最后,我们消除了在第二个响应生成步骤中删除图像的影响。我们方法的第一步保持不变,使用图像和问题作为上下文来生成相关的场景图。然而,在第二步中,我们生成一个带有屏蔽图像标记的响应。该实验评估了 SG 与图像提供的视觉信息之间的差距。我们发现性能显着下降了 26.1%,这表明图像和场景图的组合为我们的方法提供了比基线更高的性能。
我们展示了我们的方法对 MMBench 感知分裂的影响,进一步证明了我们的 CCoT 方法的优势。
MMBench 感知分裂。在本文的主要部分,我们展示了我们的方法在 MMBench Reasoning split 上的优势的详细结果。然而,从表 6中显示的 MMBench 感知分裂来看,我们还证明我们的方法有利于较低级别的感知理解,而不仅仅是复杂的推理。
LLaVA 基准结果。 LLaVA-Bench 是一个具有挑战性的手工设计数据集,涉及少量图像和问题,用于评估 LMM 作为多模式聊天机器人的有效性。这些问题以更加开放式的对话方式设计,与主论文中提出的其他基准有很大不同。该基准测试不是评估对问题的简单回答,而是测试整个长格式文本转换,这意味着考虑语言响应的负担更大。 LLaVA-Bench 的示例如图 3 所示。即便如此,当 ZS-CoT 显示出显着退化(大约下降 10%)时,我们还是比基线略有改善——InstructBLIP +0.4%,LLaVA-1.5 +0.3%。这表明我们的方法也可能有益于更多开放式视觉聊天应用程序,这与多模态推理和 VL 组合基准不同。
为了在更大的基准上运行我们的模型,我们使用 8 个 NVIDIA RTX 6000 GPU 将数据集拆分到多个 GPU 上。 Winoground 和 MM-Vet 等较小的数据集能够在单个 GPU 上运行单独的实验。除了输出标记生成长度之外,我们还为每个模型使用默认生成参数(例如波束搜索中的温度和波束数量)。
数据集。 SEED 工作台 [39]是一个大型基准测试,旨在对 LMM 进行全面、客观的评估,特别关注生成理解。该基准测试包含 19k 个多项选择题,所有这些问题都经过人工注释。这些问题涵盖 12 个评估维度,满足空间和时间理解。
SEED-Bench 的开发涉及设计专门用于创建多项选择题的高级管道。该管道是针对特定评估维度量身定制的,从而实现了评估数据在各个领域的可扩展性。此外,该基准测试结合了自动过滤和手动验证流程,以提高生成的问题和答案的质量。
对于所讨论的具体研究论文,仅利用 SEED-Bench 的图像分割进行评估。
推理详细信息。我们使用作者发布的官方数据和代码,可在 GitHub - AILab-CVC/SEED-Bench: A benchmark for evaluating Multimodal LLMs using multiple-choice questions. 获取。在 SEEDBench 上评估的所有模型均使用主论文第 3 节中描述的确切方法。
数据集。 MMBench [46] 是一种新颖的多模式基准测试,旨在解决 VQAv2 等现有基准测试的局限性[5] 或 COCO 字幕[43],提供定量的绩效衡量,但缺乏细粒度的能力评估和稳健的评估指标。与 OwlEval 等主观基准不同[82],它通过人工对模型的能力进行全面评估,但存在可扩展性问题和偏差,MMBench 提供了更系统和客观的方法。
MMBench 由两个主要组件组成:(i) 策划数据集。 MMBench 的数据集在评估问题和能力的数量和种类方面从现有基准中脱颖而出(例如,评估图像情感或名人识别的分割,以测试 LMM 的外部知识)。 (ii) 与 ChatGPT 集成的 CircularEval 策略。 MMBench 的第二个关键组件是 CircularEval 策略,它通过 ChatGPT 的集成得到补充。这种方法旨在将自由形式的预测转换为预定义的选择,从而对 LMM 的预测进行更稳健和可靠的评估。
因此,MMBench 是一个综合评估流程,在评估规模和深度上都改进了现有基准。
推理详细信息。我们使用作者发布的官方数据和代码,可在 GitHub - open-compass/MMBench: Official Repo of "MMBench: Is Your Multi-modal Model an All-around Player?" 获取。在 MMBench 上评估的所有模型均使用主论文第 3 节中描述的确切方法。最终结果通过将输出预测提交给官方 MMBench 评分系统来获得:MMBench
数据集。 Winoground[67] 旨在评估视觉和语言 (VL) 模型的组合理解。它挑战这些模型正确配对共享相同底层组成结构但所涉及对象不同的文本和图像。 Winoground 提供了一种方法来评估模型是否真正理解场景和描述的组成,或者它们是否只是利用训练数据中的表面相关性。
Winoground 基准测试由 400 组图像和标题组成。每组包括两个图像和两个标题,其中每个图像对应于其中一个标题。图像和标题经过精心设计,构图相似,但涉及不同的对象。例如,一个集合可能包括一张猫追狗的图像以及相应的标题,以及另一张狗追猫的图像及其标题。
该基准测试根据三个分数评估 VL 模型:(1) 文本分数。该分数评估模型将文本标题与正确图像匹配的能力。高文本分数表明该模型有效地理解和应用语言中的组成结构。 (2)图像得分。该分数评估模型将图像与相应文本标题匹配的程度。高图像分数表明对视觉数据中的组成结构有深入的理解。 (3) 团体成绩。该分数是文本和图像分数的平均值。它提供了模型在理解和应用视觉和文本数据的组合结构方面的整体性能的整体衡量。
Winoground 基准测试非常重要,因为它超越了传统基准测试,传统基准测试通常允许模型通过利用简单的启发式方法或数据偏差来取得成功。相反,Winoground 要求模型能够真正理解图像中的对象及其描述之间的组合关系,从而证明我们的模型在增强 LMM 中的组合视觉推理方面的价值。
推理详细信息。我们使用作者发布的官方数据,可在 https://huggingface.co/datasets/facebook/winoground 获取。由于我们评估的是专为单图像推理而设计的 LMM 方法,因此我们对图像和组任务(有两个图像)执行两步答案提取过程。 (1) 首先,我们要求 LMM 为每个图像标题对生成推理,而不是像多项选择格式的问题那样要求答案选择。 (2) 其次,两个文本推理响应都被提示给 GPT-4,以产生 LMM 的预期答案。
数据集。哎哟![12] 数据集是一个独特的基准,旨在评估 AI 模型的视觉常识推理,特别强调组合理解。它由 500 张合成图像组成,每张图像都经过独特设计,违背常识规范,并附有 10874 个注释。这些图像是使用 Midjourney、DALL-E 和 Stable-Diffusion 等先进的文本到图像模型制作的,呈现出逻辑或物理上难以置信的场景,从而挑战 AI 模型超越简单的对象识别并深入研究更深入的解释推理.
该数据集以其多样化的“怪异”类别而闻名,包括时间差异、生物规则、文化知识等等。每张图片都在哎呀!邀请人工智能模型进行复杂的多步骤推理,将视觉线索与有关世界的知识联系起来,这需要对日常经验、身体和社会知识以及文化规范有细致入微的理解。
哎呀!为模型评估提供了四个不同的任务:(i)解释生成。模型必须阐明图像不寻常性质背后的详细原因。 图像标题:涉及图像内容的摘要。 跨模式匹配:要求模型区分详细的标题和未指定的标题。 (ii) 视觉问答(VQA)。该任务专门评估模型理解和解释图像中的组成元素的能力。 在该研究论文的背景下,WHOOPS! 的视觉问答 (VQA) 任务选择数据集进行评估。该任务旨在测试模型的组合理解和推理能力。它要求模型回答一些问题,探究他们对图像中不寻常或“奇怪”元素的理解,重点关注他们将视觉信息与常识知识相结合的能力。这项任务对于评估人工智能模型对描述对象的难以置信或非常规上下文的掌握程度特别相关,需要高级的组合推理水平。通过从 WHOOPS! 中选择 VQA 任务!数据集,我们的工作旨在批判性地评估和提高 LMM 模型在组合视觉理解方面的能力。
推理详细信息。我们使用作者发布的官方数据,可在 WHOOPS! Benchmark 获取。对于我们对 VQA 分割的评估,我们使用与论文相同的答案提取和评估流程[12]。
数据集。 LLaVA-Bench(野外)[44] 是一个新开发的基准,用于评估 LMM 针对各种图像的多模态问题提供详细而通用的聊天响应的能力。给定图像,LMM 会被提示执行多模式任务。将 LMM 的响应与 GPT-4 生成的响应进行比较,以评估响应的质量。虽然仍在开发中,但这个小型的、手工设计的基准测试展示了我们的方法在多模式聊天场景上的有效性。
推理详细信息。我们使用作者发布的官方数据,可在 https://github.com/haotian-liu/LLaVA/blob/main/docs/LLaVA_Bench.md< a i=3>.我们的评估遵循论文中描述的几乎相同的过程,唯一的区别是删除最后一个答案提取句子乙因为问题是开放式的。
我们在图 4< 中展示了 LLaVA-1.5-CCoT 的进一步定性成功和失败案例< /span> .
每个数据集的许可证、PII 和同意详细信息均位于各自的论文中。此外,我们希望强调,我们使用的数据集不包含任何有害或令人反感的内容,因为该领域的许多其他论文也使用它们。因此,我们预计不会产生特定的负面影响,但与任何机器学习方法一样,我们建议谨慎行事。
图 4:其他示例输出。上面我们展示了我们的方法在 MMBench、WHOOPS! 和 LLaVA-Bench 上的一些其他示例。