Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉

Abstract

受大语言模型(LLM)卓越语言能力的启发,最近提出了大视觉语言模型(LVLM),通过集成强大的LLM来提高复杂多模态任务的性能。尽管 LVLM 取得了有希望的进展,但我们发现它们存在物体幻觉,即它们倾向于生成与描述中的目标图像不一致的物体。为了对此进行研究,这项工作首次对 LVLM 的物体幻觉进行了系统研究。我们对几个具有代表性的 LVLM 进行了评估实验,结果表明它们大多存在严重的物体幻觉问题。我们进一步讨论了视觉指令可能影响幻觉,并发现:频繁出现在视觉指令中或与图像对象同时出现的物体显然容易被LVLM产生幻觉。此外,我们还进一步设计了一种基于轮询的查询方法POPE,以更好地评估物体幻觉。实验结果表明,我们的POPE可以以更稳定、更灵活的方式评估物体幻觉。

1 Introduction

大型语言模型(LLM)(Zhao et al., 2023)已经显示出通过以零样本方式遵循人类指令来解决各种复杂任务的卓越能力。LLM的成功促使研究人员基于LLM的卓越能力设计出更强大的多模态模型,以增强对视觉语义的理解(Alayrac et al., 2022; Li et al., 2023b)。作为一个例证,GPT-4(OpenAI,2023)展示了LLM在多模式任务和场景上令人兴奋的表现。

沿着这条研究路线,人们提出了大量的研究(Zhu et al., 2023;Gao et al., 2023;Li et al., 2023a)来增强视觉语言预训练模型(VLPM)(Gan et al., 2023a)。 ., 2022)通过合并强大的 LLM(Touvron 等人,2023;Chiang 等人,2023),这被称为大型视觉语言模型(LVLM)。通常,现有工作重用 VLPM 中的视觉编码器来处理图像数据,同时用 LLM 替换原始语言编码器。经过视觉语言预训练(Alayrac et al., 2022; Li et al., 2022b)和视觉指令调整(Liu et al., 2023),LVLM可以根据人类指令完成复杂的任务,表现出强大的解决问题的能力各种视觉语言任务,例如图像字幕(Ordonez 等人,2011;Hodosh 等人,2015;Sharma 等人,2018;Agrawal 等人,2019)和视觉问答(Antol 等人,2015a) ;Zhang 等人,2016;Goyal 等人,2017)。

尽管 LVLM 取得了成功,但之前的研究表明,它们的主要组成部分,即 LLM 和 VLPM 都患有幻觉。特别是,LLM 倾向于产生非预期文本的幻觉 (Huang et al., 2021; Bang et al., 2023),而 VLPM 可能会生成图像中不存在的物体 (Biten et al., 2022)(称为物体幻觉)。人们普遍认为,幻觉会降低模型性能,并极大地损害现实应用中的用户体验(MacLeod et al., 2017;Ji et al., 2022)。因此,很自然地会问:LVLM中是否还存在幻觉?在本文中,我们系统地评估了现有 LVLM 中的物体幻觉问题,这是指在给定图像中生成与真实物体不一致的内容。

为了进行我们的研究,我们首先使用 CHAIR(具有图像相关性的字幕幻觉评估)指标(Rohrbach et al., 2018),并检查 MSCOCO 数据集上几个代表性 LVLM 的幻觉程度。我们的初步实验(表 1)表明,大多数 LVLM 都严重遭受物体幻觉的困扰,甚至比小型视觉语言模型更容易产生幻觉。此外,我们发现现有的物体幻觉评估方法可能并不最适合 LVLM,并进一步提出了一种基于轮询的物体探测评估(POPE)方法。基本思想是通过向 LVLM 提示有关探测对象的简单的是或否的简短问题(例如,图像中是否有汽车?),将幻觉评估转换为二元分类任务。我们证明这种方法更加稳定和灵活。此外,通过使用不同的对象采样策略,我们验证了现有的 LVLM 容易产生在视觉指令数据集中频繁出现或同时出现的对象的幻觉。

我们的主要贡献如下:(1)我们对几个有代表性的LVLM进行了物体幻觉的实证研究,发现它们受物体幻觉的影响很大。 (2) 我们讨论了这个问题背后的潜在原因,例如,LVLM 倾向于在指令语料库中生成频繁出现或同时出现的对象。 (3)我们提出了一种称为 POPE 的物体幻觉评估方法,该方法更稳定,并且可以轻松扩展到未注释的数据集。

2 Background
----
2 背景

2.1 Large Vision-Language Model
----
2.1 大视觉语言模型

由于 LLM 已被证明是零样本/少样本方式的通用任务求解器,因此许多研究致力于通过集成强大的 LLM 来改进 VLPM,以实现更准确的语言理解和生成(Zhu et al., 2023;Liu等人,2023;戴等人,2023a)。在本文中,我们将集成 LLM 的增强型 VLPM 称为大视觉语言模型(LVLM)。

一般来说,LVLM 由视觉编码器、语言编码器(即 LLM)和跨模态对齐网络组成。 LVLM 的训练通常由三个主要步骤组成。首先,视觉编码器和语言编码器在大规模单峰数据(即分别是图像和文本数据)上进行预训练。其次,这两个编码器通过图像文本对齐预训练进行对齐,这使得LLM能够为给定图像生成有意义的标题。第三,对齐的模型在图像文本指令上进一步微调,以便它可以生成令人满意的答案。关于特定图像的自然语言问题。请注意,在第二步和第三步中,我们可以选择微调不同的组件,而不是执行全参数微调。

一旦视觉编码器和LLM很好地对齐,衍生的LVLM就可以表现出卓越的视觉理解能力。它不仅可以掌握图像中物体的视觉语义,还可以利用LLM中的参数化知识深入理解这些物体的语言语义。此外,LVLM 可以对这些对象的相关概念进行复杂的推理,从而提高各种多模态任务的性能,例如视觉问答(VQA)。

2.2 物体幻觉

尽管 LVLM 在解决视觉语言任务方面功能强大,但它们也像 VLPM 一样存在物体幻觉的问题。在计算机视觉领域的文献中(Rohrbach et al., 2018; Biten et al., 2022),物体幻觉是指模型生成的描述或标题包含与目标图像不一致甚至不存在的物体。一般来说,物体幻觉可以在不同的语义层面上定义。最直接的方法是在对象级别上定义它,而更细粒度的定义可能涉及对象的属性或特征。在这项工作中,我们专注于模型生成的标题中的粗粒度对象幻觉,并将细粒度对象幻觉(例如对象的数量、属性和位置)留给未来的工作。我们在图 1 中展示了一个物体幻觉的例子,其中幻觉物体“肉碗”、“瓶子”、“饮料”、“调味品”是由底层 LVLM 生成的。

幻觉现象阻碍了 LVLM 在现实世界部署中的安全使用,因为它可能会导致由这些幻觉物体引起的意外后果(MacLeod et al., 2017)。例如,由于对外部环境的错误理解,自动驾驶系统在遇到突发事件时会做出错误的决策,从而可能导致严重的安全问题。为了缓解这些问题,本工作旨在从评估的角度研究 LVLM 中物体幻觉是如何存在的。

3 Object Hallucination in LVLMs
----
3 LVLM 中的物体幻觉

在本节中,我们使用现有方法评估流行 LVLM 中的物体幻觉问题。我们首先介绍评估设置,然后分析实验结果。

3.1 评估设置

具有图像相关性的字幕幻觉评估 (CHAIR)(Rohrbach 等人,2018)是评估图像字幕任务中对象幻觉的流行指标。给定图像中的真实对象,CHAIR 计算出现在标题中而不是图像中的对象的比例。现有工作普遍采用其两种变体,即CHAIRI和CHAIRS,分别在对象实例级别和句子级别评估幻觉程度。它们可以表述为:

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第1张图片

我们选择了五个最近发布的 LVLM,即 mPLUG-Owl (Ye et al., 2023)、LLaVA (Liu et al., 2023)、Multimodal-GPT (Gong et al., 2023)、MiniGPT-4 (Zhu et al., 2023)、MiniGPT-4 (Zhu et al., 2023) ., 2023) 和 InstructBLIP (Dai et al., 2023a) 并按照以下说明提示他们在 MSCOCO 中生成有关图像的说明文字 (Lin et al., 2014):

1:生成图像的简短说明文字。

2:提供给定图像的简短描述。

3.2 评价结果

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第2张图片

表 1:CHAIR 对 VLPM 和 LVLM 的结果。 I1 表示“生成图像的简短标题”,I2 表示“提供给定图像的简短描述”。 Len 是指生成的字幕的平均长度。 VLPM(OSCAR、VinVL、BLIP 和 OFA)的结果收集自 Dai 等人。 (2023b)。每个块中的最佳结果以粗体表示。

幻觉的严重程度。如表 1 所示的评估结果,大多数指令调整的 LVLM 都存在物体幻觉问题,甚至比小型模型更严重,例如 LLaVA (32.7) vs. OSCARbase (13.0) 在 CHAIRS 上使用指令 1。这表明物体幻觉是 LVLM 的一个重要问题,值得关注。相比之下,InstructBLIP 产生的幻觉比其他 LVLM 少。一个可能的原因是它的视觉指令是从各种公开可用的数据集中收集的,这些数据集相对较短。相比之下,其他 LVLM 主要采用单峰 LLM 生成的视觉指令(Liu 等人,2023)。这种合成视觉指令通常更长、信息更丰富,但可能涉及与图像不一致的意外描述信息(LLM 固有的幻觉),这可能会误导 LVLM。

CHAIR的缺点。如表1所示,评估结果可能会受到其他因素的影响,例如教学设计和字幕长度。具体来说,虽然采用的两条指令具有相似的语义,但指令 2 提示的 LVLM 甚至会导致 CHAIR 指标的值比指令 1 提示的值翻倍,并且某些 LVLM 的性能顺序也发生了变化(例如 LLaVA 的 CHAIRI 值)。和多模式-GPT)。它表明使用不同指令时 CHAIR 度量的不稳定性。此外,由于CHAIR需要检查生成的标题中提到的对象是否是幻觉,因此需要复杂的人为解析规则来执行精确匹配,这没有适应LVLM的特殊生成风格,可能会导致错误分类错误。

因此,有必要考虑一种更合适的方法来稳定、方便地评估 LVLM 中的物体幻觉问题。

4 Influence of Instruction Data on Object Hallucination
----
4 指令数据对物体幻觉的影响

考虑到它们在复杂视觉语言任务上令人印象深刻的表现(Chen et al., 2023; Bai et al., 2023; Li et al., 2023a),LVLM 的幻觉问题如此严重是违反直觉的。由于较小的 VLPM 受物体幻觉的影响较小,因此 LVLM 的视觉指令调整过程可能会加剧物体幻觉。在本节中,我们研究视觉指令数据的影响。我们首先在4.

1节中提出两个基本假设,然后在4.2节和4.3节中进行定性和定量分析来验证它们。

4.1 假设

由于这些 LVLM 的视觉指令数据集大多是基于 MSCOCO (Lin et al., 2014) 构建的,因此它们通常具有类似的不平衡对象分布,其中最常见的对象占据了数据集的主要部分。经过微调后,LVLM 也可能容易生成(或幻觉)MSCOCO 中频繁出现的对象。此外,频繁同时出现的物体组(例如笔记本电脑、鼠标和键盘)的存在也可能导致物体幻觉。 LVLM 可以由图像中现有的物体引发,从而产生经常与它们同时出现的其他物体的幻觉。因此,我们假设

(1)LVLM 容易产生视觉指令数据集中频繁出现的物体的幻觉;

(2) LVLM 容易产生幻觉,这些物体经常与图像中的真实物体同时出现。我们分以下几个部分进行定性和定量分析来验证。

4.2 定性分析

我们首先定性分析出现频率与幻觉之间的相关性。对于第一个假设,我们绘制了 MSCOCO 中最常出现的前 10 个物体与其在 MSCOCO 验证集中的幻觉时间之间的条形图;对于第二个假设,我们选择与“餐桌”同时出现的前十个物体,并绘制条形图来显示他们在真正包含“餐桌”的图像中的幻觉时间。我们在图2中展示了MiniGPT-4、LLaVA、MultiModal-GPT和mPLUG-Owl的结果。显然,随着物体出现频率的减少(从右到左),幻觉次数显着减少。所有四个 LVLM。它揭示了视觉指令数据集中频繁出现和同时​​出现的物体确实更有可能被 LVLM 产生幻觉。为了更好地支持我们的结果,我们还在附录 B 中列出了所有 80 个 COCO 对象的完整统计数据。

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第3张图片

(a) 前十个最常出现物体的幻觉次数,其频率从右到左递减。

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第4张图片

(b) 与“餐桌”同时出现的前十位物体的幻觉次数,其频率从右向左递减。

4.3 定量分析

为了进一步巩固上述发现,我们采用top-k命中率(HR@k)来衡量物体的出现频率和幻觉次数之间的一致性,定义为:Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第5张图片

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第6张图片

其中 HRA 和 HRC 分别量化幻觉次数与出现和共现频率之间的相关性。 n是图像总数,Halluculated(i)表示第i个示例中幻觉物体的数量,Hit@k(i)表示Halluculated(i)中top-k频繁出现的MSCOCO物体的数量,Hit @k(i, o) 表示与 Halluculated(i) 中的探测对象 o 频繁共现的前 k 个对象的数量。因此,HR@k可以反映top-k频繁出现或同时出现的物体在所有幻觉物体中的比例。

我们在表 2 中列出了前 30 个对象的 HRA 和 HRC(餐桌),并将 HRC@(椅子)和 HRC@(汽车)保留在附录 C 中。所有 LVLM 的 HRA@10 和 HRC@10(餐桌)为分别接近 0.5 和 0.6。它表明,平均而言,每幅图像中大约一半的幻觉对象属于前 10 个频繁出现的 COCO 对象,而超过一半属于与图像中已存在对象的前 10 个频繁共现对象。当我们将观察范围扩大到前 30 个物体时,这个比例继续增加。这些发现进一步证实 LVLM 主要会产生视觉指令数据中常见物体的幻觉,并启发我们在评估流程中设计三种采样策略。

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第7张图片

表 2:MSCOCO 的结果,量化了物体出现/同时出现的频率与 LVLM 幻觉次数之间的相关性。

5 POPE

在本节中,我们设计了基于轮询的对象探测评估(POPE),这是一种简单而有效的评估 LVLM 中幻觉的方法。我们首先概述 POPE,然后用 POPE 评估代表性的 LVLM。最后,我们讨论了我们方法的稳定性和可扩展性,并分析了幻觉对 VQA 任务的影响。

5.1 POPE概述

在第 3 节的实证结果中,我们揭示了 LVLM 中物体幻觉问题的严重性,并强调了现有评估方法的局限性,例如对指令敏感和偏向短字幕。此外,现有的方法大多依赖于解析生成的标题来提取预测的对象,这通常需要人为设计的复杂规则,并且仍然不可避免地遗漏或错误分类对象。

因此,我们考虑设计一种更适合LVLM稳定、公平和灵活的物体幻觉评估的方法,即基于轮询的物体探测评估(POPE)。具体来说,POPE 将对象幻觉的评估制定为二元分类任务,提示 LVLM 输出“是”或“否”,例如“图像中有一把椅子吗?”。这样,通过对 LVLM 容易产生幻觉的对象进行采样,我们可以构造一组难题来轮询 LVLM。由于这些问题的标准答案只是“是”或“否”,因此我们无需复杂的解析规则就可以轻松识别它们,并且避免了指令设计和字幕长度的影响,从而保证了稳定性、公平性和灵活性。

定义。给定图像标题数据集,POPE 专注于构建一组三元组,每个三元组由一张图像、多个问题及其答案(“是”或“否”)组成。三元组的公式化定义可以描述为:

其中x表示图像,q(oi)是基于模板“图像中是否有<对象>”探测oi的问题,oi是要探测的第i个对象,ai是答案问题(“是”或“否”),l 表示每个图像的投票问题数。 oi 可以从注释中获得,也可以从 SEEM 等自动分割工具的结果中获得(Zou et al., 2023)。为了标签平衡,我们将真实对象和不存在对象之间的比例设置为 1:1。构建评估三元组后,我们可以直接用它们轮询 LVLM 并收集预测答案。

管道。整个 POPE 流程如图 3 所示。获取图像中的对象后,我们可以开始构建投票问题。答案为“是”的问题可以直接使用真实对象构建,而答案为“否”的问题可以通过从否定对象中采样来构建。因此,通过设计不同的采样策略,我们可以验证 LVLM 是否容易产生幻觉特定对象,例如第 4 节中讨论的频繁出现或同时出现的对象。因此,我们设计了以下三种采样策略:

• 随机采样:我们随机采样图像中不存在的对象。

• 流行采样:我们选择当前图像中不存在的整个图像数据集中最常见的前 k 个对象,其中 k = l /2。 • 对抗采样:我们首先根据所有对象的共现频率对所有对象进行排名真实对象,然后选择图像中不存在的前k个频繁对象。

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第8张图片

图 3:POPE 管道概述。给定输入图像,POPE 首先从人类注释中或借助 SEEM 等自动分割工具提取图像中的真实对象。然后,POPE在随机/流行/对抗设置下对图像中不存在的对象进行负采样。最后,真实对象和不存在的对象被制定成问题模板来轮询 LVLM。

在以上三种设置下,我们可以构建不同难度级别的评价题。我们使用以下指标评估前面提到的 LVLM。

指标。我们采用 Accuracy、Precision、Recall 和 F1 分数作为评价指标。准确率反映了正确回答问题的比例。精确率和召回率分别反映正确回答“是”或“否”问题的比率。 F1分数结合了Precision和Recall的结果,我们选择它作为评估的主要指标。此外,我们还报告了 LVLM 回答“是”的比率,作为分析模型行为的参考。

5.2 MSCOCO评价

我们使用建立在 MSCOCO 验证集上的 POPE 评估所有 LVLM(Lin 等人,2014)。我们随机选择 500 张注释中具有超过 3 个真实对象的图像,并为每张图像构建 6 个问题(即 l = 6)。

结果如表3所示,我们可以得到与表1类似的结论,InstructBLIP表现最好,而LLaVA、MultiModal-GPT和mPLUG-Owl的幻觉问题更严重,其F1分数都在70以下。 POPE可以很好地估计LVLM中幻觉问题的程度。此外,我们发现 LLaVA、MultiModal-GPT 和 mPLUG-Owl 极有可能回答“是”(接近 99%)。它表明这三个 LVLM 过于自信,导致回答“否”的问题的准确性较低。此外,LVLM 的性能持续下降,从随机设置到流行和对抗性。这与我们在第 4 节中的发现是一致的,因为 LVLM 很容易对频繁出现和同时​​出现的物体产生幻觉。

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第9张图片

表 3:MSCOCO 验证集上 POPE 三种评估设置下的 LVLM 结果。是表示对给定问题回答“是”的比例。每个块中的最佳结果以粗体表示。

5.3 POPE的优点

如前所述,目前在 LVLM(如 CHAIR)中评估物体幻觉的方法是基于指令的,这受到 LVLM 对提示的敏感性的阻碍,并且需要物体注释和手动设计的评估规则。相比之下,POPE 对于提示形式更加稳定,并且可以轻松扩展到未注释的数据集。其探测结果也与模型的描述高度一致。

稳定。无论提示模板有何变化,POPE 都要求 LVLM 回答简单的封闭式问题,与基于指令的方法相比,这不太可能引入歧义。这种特性有助于其稳定性。为了验证它,我们使用 POPE 和 CHAIRI 评估 LLaVA,每种都有四个不同的提示。评估结果如表4所示。可以看出,F1分数的标准差明显低于CHAIRI,这证实了POPE在面对不同提示时表现出更高的稳定性。

Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉_第10张图片

可扩展性。如前所述,在自动分割工具的帮助下,POPE可以轻松扩展到无需注释的数据集。为了验证它,我们采用 SEEM (Zou et al., 2023) 注释来自三个数据集的图像(即 MSCOCO、A-OKVQA (Schwenk et al., 2022) 和 GQA (Hudson and Manning, 2019))并构建 POPE基于分割结果。我们评估了 InstructBLIP、MiniGPT-4 和 LLaVA,并将结果报告在表 5 和表 11 中(附录 D 中提供)。在表 5 中,所有 LVLM 的性能大多遵循与表 3 中基于注释的 POPE 相同的趋势,即随机 > 流行 > 对抗性,以及 InstructBLIP > MiniGPT-4 > LLaVA。这种一致性表明基于 SEEM 的 POPE 的可靠性。然而,我们还注意到两种设置之间的性能差距,例如,F1 分数 71.37 与对抗性设置下 MiniGPT-4 为 62.70。这种现象可以归因于 SEEM 生成的分割结果的粒度更细,这使得 POPE 更具挑战性。综上所述,当与自动分割工具结合时,POPE可以轻松扩展到未注释的数据集,并对数据集进行有效的评估。

一致性。 POPE 的一个潜在担忧是 LVLM 的“是”/“否”回答是否真正反映了他们对物体的感知。为了验证这一点,我们测量了 POPE 响应和 LVLM 生成的标题之间的一致性。具体来说,我们检查收到“否”答案的对象是否很少出现在标题中,以及标题中经常提到的对象是否通常收到“是”答案。我们从 InstructBLIP 和 MiniGPT-4 收集数据,考虑到它们相对平衡的是/否分布。我们的研究结果表明,在 InstructBLIP 和 MiniGPT-4 给出“否”回答的 1303 和 1445 个对象中,只有 0 和 5 个对象在标题中被引用。此外,在这些模型的标题中提到的 664 个和 1034 个对象中,分别有 664 个和 961 个得到了“是”的判决。这些结果强调了标题中对象的存在与 POPE 问题中是/否回答之间的强大相关性,从而验证了 POPE 评估的可靠性。

5.4 幻觉对视觉任务的影响

尽管现有的 LVLM 确实存在严重的物体幻觉问题,但这些幻觉是否对其他视觉任务产生强烈影响仍然是一个悬而未决的问题。因此,我们将它们在 POPE 与 VQA 和图像字幕任务上的表现进行比较。对于 VQA 任务,我们在 A-OKVQA 和 GQA 数据集上评估 LVLM 的基于 SEEM 的 POPE 和 VQA 分数。由于 LVLM 易于以开放式方式生成答案,因此我们利用 ChatGPT 来帮助解析生成的结果,以更好地评估 VQA 性能。评估设置的详细信息在附录 E 中给出。对于图像字幕任务,我们使用传统指标评估 POPE 中 500 张图像的字幕。评估结果留于附录F。

评估结果如表6所示。InstructBLIP在所有设置下都表现最好,凸显了大型视觉指令语料库上指令调整的重要性。请注意,由于 InstructBLIP 已在 A-OKVQA 上进行了训练,因此应谨慎考虑结果。此外,尽管MiniGPT-4与LLaVA相比取得了更高的F1分数,但其在VQA任务上的表现相对较差。一个可能的原因是MiniGPT-4的指令数据集仅源自图像标题数据,而LLaVA使用涉及复杂视觉问题的158K视觉指令数据。结果表明,幻觉程度可能并不总是与 VQA 表现一致,这两个评估方面都很重要,应在实际应用中予以考虑。

6 Conclusion
----
六,结论

在这项工作中,我们对几个 LVLM 进行了评估实验,并检查了它们如何遭受物体幻觉问题。通过调查物体幻觉的原因,我们凭经验发现视觉指令的物体分布会影响 LVLM 的物体幻觉。此外,我们还发现现有的幻觉评估方法可能会受到输入指令和LVLM生成文本的影响,从而导致评估结果不太可靠。为了解决这个问题,我们提出了一种名为 POP E 的基于轮询的查询方法,为 LVLM 的物体幻觉提供改进的评估方法。实验结果表明,我们提出的 POPE 可以更好地评估 LVLM 的物体幻觉问题。

7 局限性

尽管我们做了广泛的探索,这项工作仍然存在一些局限性。首先,我们只关注LVLM中的物体幻觉问题,而没有考虑其他可以反映LVLM能力的方面。这意味着当前的评估任务无法衡量LVLM的整体性能。换句话说,如果某个模型在我们的评估设置中获得较高的分数,并不一定表明其整体能力比分数较低的模型更强。其次,由于计算资源的限制,我们必须在每个数据集的部分验证集上评估所有模型。尽管我们仔细设置了实验,但报告的结果可能会受到相应数据分布的影响。第三,我们提出的 POPE 采用基于匹配的方法来确定 LVLM 是否回答“是”或“否”,而根据经验,LVLM 偶尔可能无法提供明确包含这些单词的答案,这可能导致评估结果不准确。第四,与自动分割工具结合时,将根据工具设置的标签对对象进行注释,这可能与收集的人工注释不一致,导致评估结果出现分歧。最后,这项工作仅比较了少量的 LVLM,不包括一些最近发布的或闭源的 LVLM。我们将对更多 LVLM 进行评估作为我们未来的工作。尽管我们广泛讨论了 LVLM 的幻觉问题,但这并不表明我们对其进展持负面看法。相反,利用强大的LLM来开发LVLM将是一个非常有前途的方向。这项工作中评估的这些模型是这个方向的优秀演示。同时,我们确实希望我们的工作能够带来新的想法或见解,以开发更可靠、更人性化的 LVLM。

你可能感兴趣的:(大模型幻觉,语言模型,人工智能,计算机视觉,LVLM幻觉)