大视觉语言模型(LVLM)最近得到了蓬勃发展并日益受到关注。在本文中,我们提出了一种新颖的框架,即迷彩感知视觉语言框架(CPVLF),以探索 LVLM 是否可以以免训练的方式泛化到具有挑战性的伪装物体检测(COD)场景。在泛化过程中,我们发现由于LVLM内部的幻觉问题,它会错误地感知伪装场景中的物体,产生反事实的概念。此外,由于 LVLM 没有经过专门训练来精确定位伪装物体,因此它在准确定位这些物体时表现出一定程度的不确定性。因此,我们提出视觉感知链,从语言和视觉角度增强LVLM对伪装场景的感知,减少幻觉问题,提高其准确定位伪装物体的能力。我们在三个广泛使用的 COD 数据集上验证了 CPVLF 的有效性,实验显示了 LVLM 在 COD 任务中的潜力。
图1:查询GPT-4V生成的结果 [33]于货到付款。由于幻觉,GPT-4V会错误地回答问题或随机猜测一些错误的答案。红色掩模由 ground-truth 生成,绿色框由 GPT-4V 生成。
“没有人是有限的。”
——埃鲁德·基普乔格
近年来,大型语言模型(LLM)的出现使自然语言处理(NLP)发生了深刻的变化。这些基础模型表现出了卓越的迁移能力,超越了最初训练目标的范围。法学硕士与视觉系统的融合导致了大型视觉语言模型(LVLM)的出现 [14,49,24,5,46,47,4],例如 LLaVA [29]、GPT-4V [33]和 BLIP-2 [27]。这些模型能够根据用户指令全面理解图像内容,显示出人机协作的巨大潜力。
LVLM 的出现激发了研究人员深入研究它们与各种视觉任务的集成。例如,像 Kosmos-2 这样的方法 [36] , DetGPT [37]和丽莎 [22]利用重新训练或调整机制将 LVLM 转移到下游检测和分割任务。虽然这些发展凸显了 LVLM 在常见场景中的多功能性,特别是那些包含在 COCO [28],他们还对自己在更专业和更具挑战性的视觉任务中的适应性提出了疑问。
在本文中,基于 LVLM 在一般场景中的功能,我们受到启发,探索 LVLM 是否可以在更专业和更具挑战性的环境中保持其功效,例如伪装目标检测 (COD),而不依赖于重新训练或调整机制。必须强调的是,这项研究的主要目标不是将本质上通用的 LVLM 定制为仅限于伪装场景的利基基础模型,因为使用了再训练或调整机制(如方法) [37,22]。相反,我们的目标是通过免训练提示工程等机制,深入研究 LVLM 在感知伪装场景方面的内在潜力。通过这种方式,我们可以保留 LVLM 的普遍适用性,同时探索它们在专门环境中的能力。
初步地,为了评估 LVLM 在专门且具有挑战性的 COD 场景中的泛化能力,我们尝试询问 GPT-4V [33]关于伪装场景图像中伪装物体的存在。如图1所示,我们遗憾地发现LVLM输出的内容与事实无关,这个问题通常被定义为LVLM中的幻觉问题。因此,有人提出一个问题:即使是像GPT-4V这样强大的模型也不能有效地处理视觉挑战的伪装场景吗?
识别出上述问题后,我们开始考虑如何增强LVLM在伪装场景中的感知能力,从而减少幻觉现象的发生。在法学硕士中,思想链(CoT) [40,11】可以有效帮助LLM在免训练的情况下解决一些复杂的下游推理任务。受 CoT 的启发,我们还尝试设计一些推理机制来刺激 LVLM 在伪装场景中的视觉感知能力。然而,如何为 LVLM 有效地设计这些推理机制仍然是一个有待探索的领域。工作 [3]尝试通过在文本提示中人为地提供有关给定图像的语义信息来促进 LVLM 中的视觉推理。但在COD任务中,伪装物体的语义和位置信息需要模型本身感知和发现,而不是人为提供。也就是说,[中提出的方法3]并不直接适用于本文。
另一个需要考虑的方面是,与只需要理解文本信息的 LLM 不同,额外的视觉信息对 LVLM 的推理能力提出了新的挑战,特别是在视觉上具有挑战性的伪装场景中。尽管我们在文本输入处设计了推理机制来帮助 LVLM 感知伪装物体,但我们仍然不能完全保证 LVLM 视觉定位能力的准确性。因此,本文需要解决的另一个关键问题是如何根据 LVLM 的不确定输出完成特定的下游任务。这涉及制定策略来有效补偿 LVLM 视觉感知输出中固有的不确定性。
图2:我们提出的 CPVLF 和其他 COD10K 中的性能(加权 F 测量)比较 [10]。零样本方法是 ZSCOD [25]。弱监督方法是 WSCOD [12]。完全监督的方法是 NCHIT [43]。比较锚点是 WSCOD。CPVLF 可以完全优于零样本/弱监督方法,甚至与全监督方法相比达到有竞争力的性能。
为了成功地将 LVLM 推广到 COD,我们引入了迷彩感知视觉语言框架 (CPVLF)。我们的 CPVLF 由两个基础模型组成:一个是 LVLM,负责定位和输出伪装物体的坐标。另一种是提示性大视觉模型(LVM),例如SAM [19],它采用 LVLM 输出的坐标来生成二进制掩码。在 CPVLF 中,LVLM 的主要作用是感知伪装的物体。为了解决前面提到的问题,我们在CPVLF中设计了视觉感知链(CoVP),增强了LVLM对伪装场景的感知,并从语言和视觉角度最大限度地减少了幻觉现象。从语言学的角度来看,我们提出如何促使LVLM感知伪装物体与其周围环境的关系,从而提高LVLM定位伪装物体的准确性。对于视觉透视,我们设计了一种称为视觉补全的机制。这种机制背后的基本原理是基于我们如何进一步刺激 LVLM 的性能,因为它们的输出是不确定的。如图2所示,我们的 CPVLF 在零样本和弱监督设置中均优于 2023 年发布的 CPVLF,展示了免训练框架的巨大潜力。值得注意的是,我们的方法还超越了 2022 年发布的完全监督方法。总而言之,主要贡献是:
我们提出 CPVLF 来探索 LVLM 在免训练机制中对伪装场景的性能上限。CPVLF不仅可以潜在地启发研究人员从全新的角度解决COD任务,还可以启发研究人员如何增强视觉感知能力并最大限度地减少LVLM的幻觉。
在CPVLF中,我们引入了一个称为CoVP的概念,它从语言和视觉角度增强了LVLM对伪装场景的感知。
我们在三个广泛使用的 COD 数据集上验证了所提出的 CPVLF,其有效性能很可能呼应了我们最初的断言:LVLM 的性能上限和泛化性应该相当大。
图3:我们提出的迷彩感知视觉语言框架(CPVLF)。CPVLF主要包含视觉感知链(CoVP),从语言方面和视觉方面增强LVLM在伪装场景中的感知能力。
受到法学硕士强大的泛化能力的推动[6,30,2,45]在 NLP、LVM 中[34,20,38,26]已经出现。LLM和LVM的融合促进了LVLM的进步 [14,49,24,5,46,47,4,29,33,27]。LVLM 通过端到端训练技术展示了令人印象深刻的视觉理解,这些技术以统一的方式直接解码视觉和文本标记。这些基础模型,如 GPT、SAM 和 LLaVA,展示了这些大规模、多功能模型的巨大潜力,在广泛的数据集上进行训练,以在广泛的任务中实现无与伦比的适应性。这种范式转变的特点是表征学习的重大进步,刺激了对任务不可知模型的探索,推动了对其适应方法及其复杂性的内部机制的研究。
在NLP领域,为了在不影响LLM固有性能的情况下将LLM迁移到下游任务,上下文学习 [7]是一种广泛使用的技术。情境学习中一个特别有影响力的方法是 CoT [40,21,11]。CoT通过设计一系列推理步骤,引导LLM在每一步专注于具体内容,从而进一步激发模型先天的逻辑推理能力。具体来说,这些工作发现,通过设计指令来提示法学硕士,例如“让我们一步一步思考”,可以进一步增强法学硕士的推理能力。
作为比LVLM更加成熟的领域,LLM已经证明,只要有正确的提示机制,模型可以通过免训练的方式有效迁移到各种下游任务。因此,为了进一步推进 LVLM 的发展,我们的论文探讨了 LVLM 在视觉挑战性任务(特别是 COD)中的性能上限。与常见场景中使用重新训练或调优将 LVLM 迁移到下游任务的现有方法不同 [36,37,22],我们的论文旨在探索如何促使 LVLM 激发其固有的感知能力,并最大限度地减少伪装场景的幻觉现象。为此,我们提出CoVP,它首先识别输入语言文本提示时需要考虑的关键方面,以增强LVLM对伪装场景的理解。此外,我们重点介绍如何利用 LVLM 的不确定视觉输出,并从视觉完成的角度来看,增强 LVLM 捕捉伪装物体的能力。
在过去的几年里,COD 任务做出了巨大的努力 [9,32,42,31,41,10,48,35,1,44,13,17 号,50]。这些 COD 方法的技术框架可以分为两类:基于 CNN 的方法和基于 Transformer 的方法。尽管这些方法的结构可能有所不同,但其核心在于设计能够探索判别性特征的高级网络模块或架构。虽然这些方法取得了令人印象深刻的性能,但网络缺乏通用性并且是特定于任务的,这限制了它们的通用性。这意味着,虽然它们对于特定任务非常有效,但它们对各种不同任务的适应性受到限制。
近年来一系列基础模型的出现向计算机视觉研究人员发出信号,即使用单个大型模型解决各种下游视觉任务是可能的。这一趋势凸显了利用经过广泛数据集训练的强大、多功能模型的潜力,使它们能够处理多样化和复杂的视觉挑战。
顺应技术进步的趋势,本文探讨了视觉基础模型的泛化能力。我们设计了 CPVLF 框架,以免训练的方式将基础模型推广到 COD 任务。需要强调的是,本文没有采用重新训练、适配器或调整等方法来更新视觉基础模型的参数以适应 COD 任务。相反,我们探索如何通过即时工程增强伪装场景中视觉基础模型的感知能力,而不改变其固有能力。
在图3中,我们提出的CPVLF是一个可提示的框架,它是第一个成功地将LVLM推广到伪装场景的框架。给定一张图像ℐ包含伪装场景,用文本提示 CPVLF,例如“请在这张图像中找到一个伪装物体,并向我提供它的确切位置坐标”,CPVLF会将伪装物体定位在位置我并生成对应的maskℳ。
图4:在第二列中,我们可视化 LVLM 生成的坐标,该坐标有些不确定,无法完全定位伪装对象。在第三列中,我们显示由我们提出的视觉完成机制生成的坐标。我和�分别是初始点和完成点。
为了实现上述目的,我们指出 CPVLF 需要两个基础模型。第一个是LVLM,它可以接受用户指令并输出相应的结果,例如目标物体的坐标信息。为了进一步定量评估 LVLM 的性能,第二个基础模型是 Promptable LVM,它可以接受 LVLM 的输出作为提示,并生成最终的 maskℳ。请注意,在 CPVLF 中,LVLM 和 LVM 都被冻结。
在 CPVLF 中,仅具有 LVLM 和 LVM 模型,尽管功能强大,但仍不足以有效处理 COD 任务。具体来说,如图3所示,仅使用普通文本提示来查询 LVLM 可能会产生毫无意义的结果,对伪装物体的准确定位没有任何帮助。另外,如图4所示,LVLM输出的位置坐标可能带有一定程度的不确定性,仅包含伪装物体的一部分。具体来说,对于伪装对象的定位,LVLM 通常输出左上角和右下角的坐标。我们观察到这些坐标并不总是落在伪装物体的内部,它们的中心点有时只落在伪装物体的边缘。因此,如果这些坐标直接用作 LVM 的点提示,则生成的掩码可能不完整或支离破碎。因此,为了解决上述问题,我们提出了CoVP,从语言和视觉角度增强LVLM对伪装场景的感知。
伪装场景中的图像显然会带来视觉挑战,使得 LVLM 很难检测到伪装物体。挑战主要包括两个方面。首先,对于 LVLM,我们通过语言激发其对图像中视觉内容的理解。然而,设计适合伪装场景的语言提示仍然是一个有待探索的领域。现有工作 [3]试图通过文本提供图像的语义信息来增强LVLM的视觉感知能力,这与COD任务的定义相矛盾,因此无法直接应用。因此,我们的首要任务是设计如何利用语言来增强LVLM的视觉感知能力。
其次,促使 LVLM 通过语言在视觉上感知图像是一项具有挑战性的跨模式任务,特别是当我们尝试将 LVLM 推广到视觉上具有挑战性的 COD 场景时。如图4所示,很难完全保证LVLM输出的准确性。因此,我们设计了一个视觉补全来进一步增强 LVLM 的本地化能力。与CoT仅在LLM的文本输入处设计机制以增强其语言推理能力不同,CoVP试图从输入和输出、语言和视觉两个角度更全面地提高LVLM对伪装场景的感知。
图5:提示属性、一词多义和多样性。
我们尝试从三个角度设计有效的文本提示机制,以进一步增强LVLM感知伪装物体的能力。这主要包括以下几个方面:对目标伪装物体属性的描述、一词多义的角度、多样性的角度。
属性的描述。当提示LVLM发现特定的伪装对象时,我们应该鼓励LVLM关注该对象的潜在属性。这包括两个角度:内部属性和外部交互。
对于伪装物体的内部属性,我们的目标是将 LVLM 重点关注其物理和动态特征。物理属性可能包括伪装对象的颜色、形状和纹理信息,这些都是静态属性。例如,如图5和图6所示,当我们尝试包含这些方面的描述时,我们发现LVLM感知伪装物体的能力显着增强。
动态特征包括伪装物体的图案和运动信息,这也可能导致其与周围环境融合。如图6所示,当我们尝试将LVLM的注意力引导到这些动态方面的描述时,其感知伪装物体的能力进一步增强。
值得注意的是,我们的文本提示不会明确泄露有关伪装对象的信息。例如,我们不使用“图像中的伪装对象是橙色狐狸”之类的提示。相反,我们的提示旨在巧妙地引导 LVLM 识别和理解伪装对象的特征,而不直接暴露它。
图6:与 1. 基线相比,添加 2. 物理属性描述、3. 动态属性描述、4. 多义描述、5. 多样化描述和 6. 视觉完成时,COD10K 的性能(加权 F 测量)得到改善。
描述的多义性。设计提示时考虑一词多义很重要。例如,“迷彩”一词有时可以有不同的解释,它也可以指穿着迷彩服的士兵。因此,我们还会设计诸如“该图像可能包含隐藏物体……”之类的文字提示。从图6中可以明显看出,当我们设计考虑多义词的文本提示时,感知伪装对象的能力得到了提高。这一观察结果强调了制作解释不同含义和解释的提示的重要性,从而使 LVLM 能够更有效地处理和理解伪装场景固有的复杂性。
描述的多样性。关注提示的多样性至关重要。鉴于哪种类型的提示最适合 LVLM 的不确定性,提示应尽可能多样化。此外,在保持多样性方面,我们建议利用法学硕士本身来生成具有相似含义的提示。这种方法确保提示文本尽可能接近 LVLM 可以有效处理的数据分布。从图6可以看出,当我们考虑到文本提示的多样性时,感知伪装物体的能力进一步增强。这一改进表明,结合涵盖不同方面和视角的各种提示可以显着帮助 LVLM 更有效地检测伪装对象。
通过我们设计的文字提示,显着增强了LVLM在挑战性伪装场景中的视觉感知能力,使我们能够初步识别伪装物体的位置。然而,值得注意的是,LVLM 最初是为了理解图像内容而设计的,而不是为了高精度的对象定位。因此,LVLM 对伪装物体的定位通常是近似的并且充满不确定性。这在图4中很明显,其中 LVLM 定位结果的可视化显示了其在准确定位整个伪装物体方面的局限性。使用LVLM的输出坐标作为分割中LVM模型的直接点提示往往会导致结果不完整。为了应对这一挑战,我们探索了一种解决方案:增强 LVLM 提供的初始不确定坐标,以提高其定位精度。
在图4中,我们的目标是生成与初始中心点坐标类似的附加点我就语义而言。先前的研究 [39,34]已经表明,自监督视觉变换器特征(例如来自 DINOv2 的特征)持有有利于语义分割的显式信息,并且作为 KNN 分类器是有效的。DINOv2 尤其擅长从每个图像中准确提取语义内容。因此,我们利用基础模型 DINOv2 提取的特征来表示每幅图像的语义信息,表示为ℱ。这种方法使我们能够利用 DINOv2 特征提取功能的语义丰富性,更精确地扩展初始点坐标。
生成特征表示后ℱ输入图像的ℐ,我们得到特征向量ℱ我对应点我。然后我们促进特征向量之间的交互ℱ我以及其他点特征ℱ计算它们的相关矩阵。具体来说,在图像特征中ℱ, 其中包含氮像素,每个像素的特征表示为ℱ�我, 在哪里我ε[1,氮]。之间的相关性得分ℱ我和ℱ�我使用余弦相似度来确定。随后,我们采用 Top-k 算法来识别语义上最相似的点ℱ我。这些点位于位置磷:
�我米=ℱ�×ℱ我,磷=前k(�我米)εℝ�, | (1) |
在哪里×表示矩阵乘法。最后,我们进一步细化磷进入�聚类中心作为正点提示�对于LVM。点提示�和图像ℐ发送到LVM来预测分割结果ℳ。
我们使用三个公共基准数据集来评估 CPVLF 在伪装场景中的感知能力。这些数据集包括 CAMO [23] , COD10K [9]和 NC4K [31]。CAMO是CAMO-COCO的子集,专门为伪装对象分割而设计。它包含 250 张用于测试的图像。该数据集由八个不同的类别组成,每个类别都具有各种具有挑战性的场景。COD10K 包含 2,026 张用于测试的图像。这些图像是从各个摄影网站收集的,分为5个超类和69个小类。NC4K 包含 4,121 个用于测试的图像。该数据集具有更复杂的场景和更广泛的伪装对象。我们采用三个广泛使用的指标来评估我们的方法:结构测量(��) ( [8] ), 加权 F 测量 (���) 和平均绝对误差 (MAE)。
表格1:CPVLF与其他方法的比较。“F”是完全监督的方法。“ZS”是零样本方法。“WS”是弱监督方法。“U”是无监督方法。红色和蓝色字体分别代表弱监督和零样本设置下的前两个性能。绿色字体表示 CPVLF 优于完全监督方法的指标。
迷彩(250 张图片) | COD10K(2026 张图片) | NC4K(4121 张图片) | ||||||||
方法 | 环境 | ��� | �� | MAE | ��� | �� | MAE | ��� | �� | MAE |
FSPNet(CVPR2023) | F | 0.799 | 0.856 | 0.050 | 0.735 | 0.851 | 0.026 | 0.816 | 0.879 | 0.035 |
HitNet(AAAI2023) | F | 0.809 | 0.849 | 0.055 | 0.806 | 0.871 | 0.023 | 0.834 | 0.875 | 0.037 |
NCHIT(CVIU2022) | F | 0.652 | 0.784 | 0.088 | 0.591 | 0.792 | 0.049 | 0.710 | 0.830 | 0.058 |
ERRNet(PR2022) | F | 0.679 | 0.779 | 0.085 | 0.630 | 0.786 | 0.043 | 0.737 | 0.827 | 0.054 |
ZSCOD(TIP2023) | ZS | * | * | * | 0.144 | 0.450 | 0.191 | * | * | * |
WSCOD(AAAI2023) | WS | 0.641 | 0.735 | 0.092 | 0.576 | 0.732 | 0.049 | 0.676 | 0.766 | 0.063 |
我们的 | U/ZS | 0.680 | 0.749 | 0.100 | 0.592 | 0.733 | 0.065 | 0.681 | 0.768 | 0.082 |
图7:拟议的 CPVLF 框架的定性结果。
为了确保 CPVLF 的可重复性,从而对社区产生积极影响,我们为 LVLM 和 LVM 选择开源模型。对于 LVLM,我们选择了 Shikra [4]。我们不选择可能更强大的 GPT-4V [33]因为它不是开源的,因此,它的使用不能保证我们框架的可重复性。对于 LVM 模型,我们选择 SAM-HQ [18]。我们在单个 RTX3090 上完成了实验。这证明了我们的框架在广泛可访问的硬件上的可行性,但也强调了我们对促进社区内可复制和可访问的研究的承诺。
选择适当的比较方法对于证明我们提出的 CPVLF 对社区的贡献至关重要。我们 CPVLF 的核心是以免训练的方式将 LVLM 和 LVM 推广到伪装场景。由于我们选择的LVLM和LVM并不是专门为伪装场景设计的,因此我们首先将我们的方法与零样本COD方法ZSCOD进行比较 [25]。
其次,由于在将 LVLM 和 LVM 推广到伪装场景时,我们没有在伪装数据集上重新训练 LVLM 和 LVM,因此将我们的方法与无监督 COD 方法进行比较是合适的。不幸的是,我们找不到专门为 COD 任务设计的无监督方法,因此我们选择与弱监督方法 WSCOD 进行比较 [12]。
最后,我们还将我们的方法与四种完全监督的方法进行了比较,包括 NCHIT [43] , ERRNet [16] , FSPNet [15]和 HitNet [13]。这种比较不仅有助于研究人员了解我们论文的表现水平,还进一步明确了我们对该领域的贡献。通过将我们的工作置于各种监管方法的背景下,我们可以全面了解 CPVLF 在当前 COD 方法论中的立场,并强调其潜在优势。
从表。 如图 1 所示,很明显我们的 CPVLF 的性能显着超过了零样本方法 ZSCOD [25]。这一观察结果初步反映了LVLM在伪装场景中的泛化能力。此外,我们的 CPVLF 框架优于弱监督方法 WSCOD [12]按照���和��,无疑是一个令人兴奋的性能指标。这表明,通过设计适当的增强机制,LVLM模型可以有效地感知伪装物体。此外,在 CAMO 和 COD10K 数据集上,���指标甚至超越了一些完全监督的方法。这证明了我们的 CPVLF 在伪装物体定位能力方面的优越性。然而,与当前最先进的全监督方法 HitNet 和 FSPNet 相比,仍然存在明显的性能差距。此外,MAE 指标的缺点表明 LVLM 的像素级预测的绝对精度还有改进的空间,这可能是由于这些模型中缺乏针对下游分割任务的具体优化。图7中的视觉结果也表明CPVLF可以有效感知伪装物体。上述结果表明 CPVLF 为社区提供了新颖的见解。
表2:我们提出的 CPVLF 消融研究。PA表示物理属性。DA 表示动态属性。VC的意思是视觉完成。
迷彩(250 张图片) | COD10K(2026 张图片) | NC4K(4121 张图片) | |||||||
---|---|---|---|---|---|---|---|---|---|
方法 | ���↑ | ��↑ | MAE↓ | ���↑ | ��↑ | MAE↓ | ���↑ | ��↑ | MAE↓ |
1. 基线 | 0.410 | 0.519 | 0.199 | 0.366 | 0.507 | 0.188 | 0.402 | 0.520 | 0.185 |
2. 基线+PA | 0.554 | 0.629 | 0.157 | 0.482 | 0.615 | 0.127 | 0.565 | 0.651 | 0.143 |
3. 基线+PA+DA | 0.573 | 0.649 | 0.149 | 0.501 | 0.640 | 0.120 | 0.580 | 0.681 | 0.126 |
4. 基线+PA+DA+一词多义 | 0.603 | 0.671 | 0.134 | 0.521 | 0.663 | 0.107 | 0.605 | 0.701 | 0.121 |
5. 基线+PA+DA+一词多义+多样化 | 0.635 | 0.707 | 0.118 | 0.558 | 0.701 | 0.081 | 0.639 | 0.737 | 0.105 |
6. 基线+PA+DA+一词多义+多样性+VC | 0.680 | 0.749 | 0.100 | 0.592 | 0.733 | 0.065 | 0.681 | 0.768 | 0.082 |
图8:使用时生成的mask对比我和�作为提示点。
在表中。2、Baseline 代表我们使用普通的文本提示“请在该图像中找到一个伪装的对象并向我提供其确切的位置坐标”来查询 LVLM,而不包含视觉补全。第一行的结果表明,仅使用普通文本提示不足以使 LVLM 有效感知伪装场景。随后,我们通过包含伪装物体的属性来增强文本描述,文本提示为“该图像可能包含一个伪装物体,其形状、颜色、纹理、图案和运动与其周围环境非常相似,使其能够融入其中。”你识别它并提供它的精确位置坐标?” 。第二行和第三行的结果显示出进一步的改进。之后,考虑到描述中的一词多义问题,我们将文字提示修改为“该图像可能包含一个隐藏物体,其形状、颜色、纹理、图案和动作与其周围环境非常相似,使其融入其中。你能识别它吗?”并提供其精确的位置坐标?” 。同时使用这两种类型的提示来提示 LVLM,我们观察到性能的额外增强。最后,我们根据前两种文本类型生成同义提示,以进一步提示 LVLM,从而提高性能。多样化的文字提示可能是“该图像可能包含一个伪装物体,其形状、颜色、图案、运动和纹理与周围环境相比差异不大,使其能够融入其中。请提供其精确的位置坐标。” 。
在 CPVLF 中,我们还实现了视觉补全,以进一步增强 LVLM 感知伪装物体的能力。第六行的结果表明,结合视觉补全可以进一步提高性能。图8直观地说明了视觉补全的有效性,展示了我们方法的这一组成部分如何显着帮助准确检测和描绘伪装对象。
这项研究成功地证明了 LVLM 可以通过我们新颖的 CPVLF 有效适应 COD 的挑战性领域。尽管在处理伪装场景时存在与 LVLM 相关的固有幻觉问题和本地化不确定性,但我们提出的 CoVP 显着缓解了这些挑战。通过从语言和视觉角度增强 LVLM 的感知,CoVP 不仅减少了幻觉,还提高了定位伪装物体的精度。CPVLF 在三个主要 COD 数据集上的验证证实了其有效性,表明 LVLM 的普适性扩展到复杂且视觉要求较高的场景。这项研究不仅标志着 LVLM 应用的开创性一步,而且为未来旨在增强 LVLM 在专门任务中的感知能力的努力提供了宝贵的蓝图,为视觉语言处理中更广泛、更有效的应用铺平了道路。