Mars_prime

Woodpecker: Hallucination Correction for Multimodal Large Language Models----啄木鸟：多模态大语言模型的幻觉校正

Abstract

幻觉是笼罩在快速发展的多模态大语言模型（MLLM）上的一个大阴影，指的是生成的文本与图像内容不一致的现象。为了减轻幻觉，现有的研究主要采用指令调整的方式，需要用特定的数据重新训练模型。在本文中，我们开辟了一条不同的道路，引入了一种名为 Woodpecker 的免训练方法。就像啄木鸟治愈树木一样，它从生成的文本中挑选并纠正幻觉。具体来说，啄木鸟由五个阶段组成：关键概念提取、问题制定、视觉知识验证、视觉主张生成和幻觉纠正。以后补救方式实施，Woodpecker 可以轻松地为不同的 MLLM 提供服务，同时可以通过访问五个阶段的中间输出进行解释。我们对Woodpecker进行了定量和定性评估，并展示了这种新范式的巨大潜力。在 POPE 基准上，我们的方法比基线 MiniGPT-4/mPLUG-Owl 的准确度提高了 30.66%/24.33%。源代码发布于 https://github.com/BradyFU/Woodpecker。

一、简介

多模态大型语言模型（MLLM）[41]现在在研究界蓬勃发展，致力于通用人工智能（AGI）。通过利用强大的大型语言模型 (LLM)，研究人员将视觉等外来模态与语言结合起来，并开发具有各种令人兴奋的功能的 MLLM [1,21,40,44,47]，例如完整描述给定图像的内容。

然而，尽管这些 MLLM 很强大，但它们有时会输出与输入图像不一致的描述。它被称为幻觉，并且已被发现在 MLLM 中普遍存在[20]。如图1所示，MLLM声称物体不存在，并且无法准确描述图像中物体的属性，我们将其分别归类为物体级幻觉和属性级幻觉。显然，这些幻觉是 MLLM 实际应用的巨大障碍。

为了减轻幻觉，现有的工作通常探索指令调整的方式。一个常见的关键观察结果是，MLLM 在生成较长文本时往往会产生幻觉，这会导致不同的问题解决策略。例如，LRV-Instruction 通过限制指令数据的文本长度来采用直观的方法。因此，调整后的模型通常会产生较少的幻觉，但也不太详细的描述。 VIGC采用多步生成方案，并根据文本上下文迭代更新视觉特征，通过牺牲生成效率来缓解幻觉。此外，这两种方法都是基于指令调整的，因此都是数据和计算密集型的。

为了打破限制，我们采取了不同的策略，可以直接纠正幻觉而无需重新训练。如图 2 所示，给定 MLLM 生成的文本以及输入图像，我们的免训练框架 Woodpecker 精心校正文本，同时提供相应的证据，即边界框。它增加了黑盒 MLLM 之外的可解释性和可靠性，提供方便的视觉事实检查。具体来说，我们的框架在彻底诊断后进行校正，总共包含五个阶段：

关键概念提取识别生成的句子中提到的主要对象；
问题表述围绕提取的对象提出问题，例如它们的数量和属性；
视觉知识验证通过专家模型回答所提出的问题。例如，可以利用视觉感知模型来确定物体数量；
视觉声明生成将上述问答（QA）对转换为视觉知识库，该知识库由关于输入图像的对象级和属性级声明组成；
幻觉矫正在视觉知识库的指导下修正幻觉并添加相应的证据。值得注意的是，管道中的每个步骤都清晰透明，具有良好的可解释性。

图 2.我们的幻觉矫正框架示例。给定 MLLM 的响应，啄木鸟会纠正幻觉部分并合并接地信息以便于验证。

这提供了良好的可解释性。我们通过对 POPE [18]、MME [6] 和 LLaVA-QA90 [21] 数据集进行全面的定量和定性实验来评估我们方法的有效性。结果和相关分析表明了这种新范式的优越性。例如，在 POPE 基准上，我们的方法很大程度上将基线 MiniGPT-4 [47]/mPLUG-Owl [40] 的准确性从 54.67%/62% 提高到 85.33%/86.33%。

概括起来，主要贡献如下：

我们提出了一个名为 Woodpecker 的免训练框架来纠正 MLLM 的幻觉。据我们所知，我们是第一个采用矫正方式来解决视幻觉问题的人。
我们的框架的设计方式是每个步骤都清晰透明，从而提供良好的可解释性。
我们全面评估了我们方法的有效性，巨大的改进表明了其在幻觉矫正方面的巨大潜力。

2.相关工作

2.1. MLLM 中的幻觉

近年来，MLLM的幻觉现象越来越受到人们的关注。这主要是因为该问题直接影响MLLM的可靠性。目前对MLLM幻觉的研究主要集中在评估/检测[8,18,34]和缓解[20,23,33]两个方面。前面的工作通常要么训练分类模型来区分幻觉 [8]，要么根据真实答案检查输出文本以确定幻觉是否发生 [18, 34]。

对于缓解幻觉，之前的工作重点是优化数据收集过程和训练方案。 LRV-Instruction [20] 构成负面实例以避免过度自信。此外，GroundTruth 答案的文本长度受到严格控制，因为观察到较短的答案不太可能产生幻觉。类似地，VIGC [33] 采用迭代过程，每次都会生成并连接简短的答案。通过这种方式，它试图在不影响细节的情况下确保准确性。虽然之前的工作试图开发幻觉较少的 MLLM，但我们的主要目标是通过修改幻觉部分来改进 MLLM 的响应。具体来说，我们设计了一个包含现成模型的免培训框架。这免除了收集教学数据和资源密集型培训的复杂性。因此，我们的框架可以轻松地与各种 MLLM 集成，作为通用的即插即用模块。

2.2.知识增强LLM

由于LLMs仅限于从预训练中获得的固有知识，因此各种工作致力于利用来自预定义知识库 [3,5,14,28] 或互联网 [29, 31] 的外部知识来增强LLMs。作为这一想法的自然延伸，最近，研究人员探索使用知识作为证据来减轻LLMs的事实幻觉 [10, 27]。具体来说，这些作品使用相关知识作为背景信息来完善可能错误的输入声明，从而提高响应的真实性。我们的方法与我们使用与给定图像相关的信息来纠正可能错误的主张的想法有共同之处。然而，将这个想法转移到视觉语言领域并非易事。这是因为纯语言对应通常只处理文本并通过检索来获取相关知识，而对于图像文本对来说这样做是不合适的。此外，知识增强型LLMs更注重减少事实谬误，而我们更注重减少幻视。与关键差异相对应，在这项工作中，我们设计了一种策略来构建以图像和查询为条件的结构化视觉知识库。我们还探索如何以有组织的方式解决对象级别和属性级别的幻觉，正如我们稍后将说明的那样。

2.3. LLM-aided Visual Reasoning
----
2.3.LLM辅助视觉推理

根据调查中的分类法[41]，我们提出的框架与LLMs辅助视觉推理模型[2,7,13]密切相关。主要思想是，我们可以利用LLMs强大的推理和指令跟踪能力来帮助实现愿景或多模态任务。LLM扮演的典型角色包括任务调度者[9,24,30,38]，推理者[37,39,42,46]，或语言精炼者[35,43,45,48]。在这项工作中，我们利用LLM强大的推理和语言能力来帮助关键概念提取、问题提出和幻觉纠正的过程。

3. 方法

我们的目标是诊断并纠正 MLLM 产生的反应中的幻觉。关键的挑战在于定位幻觉并确定事实，并以结构化的方式组织起来进行最终纠正。为此，我们将整个过程分解为五个子任务：关键概念提取（第 3.1 节）、问题表述（第 3.2 节）、视觉知识验证（第 3.3 节）、视觉声明生成（第 3.4 节）和幻觉矫正（第 3.5 节）。稍后我们将按顺序说明每个步骤。我们的框架概述如图 3 所示。

图 3.啄木鸟的框架。给定图像和查询，MLLM 输出相应的响应。通过关键概念提取、问题表述、视觉知识验证和视觉声明生成这四个步骤，我们得到了特定于图像和原始响应的视觉知识库。在最后一步中，以边界框作为证据来纠正响应中的幻觉。

3.1.关键概念提取

由于描述通常围绕关键概念，因此第一步是从生成的句子中提取它们。为此，我们确定了句子中提到的主要对象，这些对象是最有可能出现幻视的对象。例如，给定一个句子“The man is wearing a black hat”，对象“man”和“hat”被提取出来，并将作为后续步骤中诊断的中心。鉴于LLM具有较强的泛化能力和丰富的世界知识，我们推荐LLM来完成这项任务。

关键概念提取模板如附录A.1所示，包括系统消息和格式化提示。前者为LLM建立了基本背景，而后者则从任务的一些详细描述和一些要求开始，然后是一些上下文示例和输入。提供上下文示例，以便LLM可以更好地理解任务的要求。

A.1.关键概念提取

系统消息您是一名语言助手，帮助从给定的句子中提取信息。

提示

给定一个句子，帮我提取句子中存在的实体。提取共同的对象并将其归纳为不重复的大类，合并本质上相似的对象。

避免提取抽象或非特定实体。只提取属于一般类别并在句子中以某种语气描述的具体的、肯定存在的对象。以单数形式提取实体。将所有提取的项目类型输出在一行中，并用句点分隔每个对象类型。如果没有任何内容可输出，则输出一个“None”。

示例：{上下文示例}

句子：{输入句子}

输出：

表 4. 提示 LLM 执行关键概念提取的模板。 {上下文示例}是用于更好地指导LLM完成任务的上下文示例，{输入句子}是从中提取关键概念的输入。

3.2.问题表述

在掌握了关键概念后，我们围绕这些概念提出一系列问题来做出幻觉诊断。我们的问题针对对象层面和属性层面的幻觉。对于前者，我们问：“图像中是否有{object}？有多少个？”，其中“{object}”是前面提取的关键概念。对于后者，可以表述涉及对象属性的各种问题，例如“{object} 在做什么？”、“{object1 在 {object2} 的右侧吗？”以及“{object} 是什么颜色？” }?”，其中“{object1}”和“{object2}”是不同的关键概念。

事实上，对象级问题可以通过感知图像直接验证，而属性级问题则更加多样化并且依赖于上下文。为了促进这种自由形式的问题表述，我们向LLM提供了一些上下文示例，以便提出有意义的问题。提示信息列于附录A.2。

A2。问题表述

系统消息您是一名语言助理，可以帮助提出有关句子的问题。

提示

给定一个句子，帮我提取句子中存在的实体。给定一个句子和一些由句点连接的实体，要求您针对句子中涉及的指定实体提出一些相关问题，以便这些问题有助于验证句子的真实性。问题可能涉及基本属性，例如句子中提到的颜色和动作。不要询问涉及物体计数或物体是否存在的问题。

当询问有关属性的问题时，请尝试询问仅涉及一个实体的简单问题。

提出可以通过视觉轻松决定的问题。不要问需要复杂推理的问题。

不要问语义相似的问题。不要仅询问有关场景或地点的问题。

使用where类型问题查询涉及实体的位置信息。

不要问关于句子中不确定或推测部分的问题，例如用“也许”或“可能”等描述的部分。

无需涵盖所有指定实体。如果没有问题要问，只需输出“None”。

提出问题时，请勿预先假设描述中的断言是真实的。只提出与句子中的信息相关的问题。

只询问有关常见、特定和具体实体的问题。问题涉及的实体仅限于给定实体范围内。

每行只输出一个问题。对于每一行，首先输出问题，然后输出单个“&”，最后输出问题涉及的实体，如果涉及多个实体，仍然用句点连接。

示例：

{上下文示例}

句子：

{输入句子}

实体：

{输入实体}

问题：

表 5. 问题表述的提示模板。 {上下文示例}是上下文示例。 {输入句子}和{输入实体}是输入，其中后者来自关键概念提取步骤。

3.3.视觉知识验证

这一步负责解决上面两类问题。对于对象级问题，关键在于确定某个对象的存在性和数量。鉴于视觉基础模型强大的感知能力[12,17,25,32,36]，我们采用开放集目标检测器作为求解器[22]。对于属性级问题，我们应用预先训练的 VQA 模型 [16] 来回答以图像为条件的问题。与主流 MLLM 相比，VQA 模型往往会生成更短的答案，但幻觉也更少，因此可能是一个合理的选择。

3.4.视觉声明生成

提出并回答问题后，我们将 QA 对组合成视觉声明，并将其组织成视觉知识库，以供下一步参考。视觉知识库的结构如下：

物体级主张：这部分信息主要起到减轻物体级幻觉的作用。我们包含从句子中提取的关键概念的对象计数信息（第 3.1 节）。对于现有对象，我们添加一个声明“There are {counts} {name}.”，其中“{counts}”和“{name}”是某种对象的计数和名称。对于不存在的对象，我们使用类似的模板“There is no {name}”。计数信息来自上一步的开集目标检测。
属性级声明：我们包含特定于每个对象的属性信息，以减轻属性级幻觉。典型的属性包括位置、颜色、动作等。对于这一部分，我们采用 QA-toClaim 模型 [10] 将问题和答案合并到声明中。为了应对涉及多个对象或前景对象与背景之间的关系的情况，需要更多的全局信息。因此，我们还包括涉及不同对象之间或对象与背景之间的交互的声明，例如“猫躺在狗旁边”。

3.5.幻觉矫正

在视觉声明的指导下，LLM可以充当校正器并修改生成的响应中的幻觉。具体来说，在将视觉知识库与原始回答结合成提示后，我们指示LLM纠正回答并输出精炼后的回答。为了更好的可解释性，我们明确指示 LLM 在引用对象时在表达式后面附加边界框。这种设计促进了响应中提到的实体与图像中的对象实例之间的对应关系，这为检查输出的可靠性提供了方便的访问。更正提示模板见附录A.3

A.3.幻觉矫正

系统消息您是一名语言助理，可以根据指示帮助完善段落。

提示

给定一段文章和一些补充信息，要求您以流畅自然的方式纠正并输出精炼的文章，遵循以下规则：

1、补充信息可能包括以下部分内容：

“计数”信息，指定存在某种实体的实例数量及其关联的边界框；

“特定”信息，描述每个实体实例特有的属性信息，包括边界框、颜色等。该信息以该实体的“实体1：[bbox]”信息的形式排列。注意，“Specific”信息中的实体与“Count”信息中的实体相对应。

“整体”信息可能涉及多个实体对象的信息。

2. 尽量保留原句，尽量少做改动。

3. 实体实例的数量应与“Count”信息中的数量匹配。如果原句中的数字与计数信息不符，还要更正计数。

4. 如果原句已经正确，则保留它。如果需要重写原句，重写时，尽量在原句的基础上尽量少修改原句，并以补充信息为指导，纠正或丰富原句。

5. 在精炼的段落中，在描述“特定”补充信息中提到的实体时，在其后面的括号中添加其关联的边界框，形式为“entity([bbox])”。如果提及多个同类实体，则用“;”分隔框，形式为“entity([bbox1];[bbox2])”

示例：

{上下文示例} ——————

补充信息：

{输入信息}

段落：

{输入段落}

精炼段落：

表 6. 幻觉纠正提示模板。 {上下文示例}是上下文示例。 {输入信息}是格式化的知识库，{输入段落}是待修正的原始响应。

4. 实验

4.1.实验设置

数据集。 POPE [18] 致力于评估 MLLM 的幻觉。它包含随机、主流和对抗性采样的设置，主要区别在于负样本的构建方式。对于随机设置，对图像中未出现的对象进行随机采样，而对于主流设置，从频率最高的对象池中对不存在的对象进行采样。对于对抗性设置，对最常同时出现但不存在于图像中的对象进行采样。

在采样设置方面，我们采样了 50 个图像，并为每个图像构建 6 个问题。正负样本比例均衡，即50% vs 50%。该设置将对象注释转换为一系列“是或否”问题，并侧重于评估对象级别的幻觉，更具体地说，是存在方面。

因此，MLLM 会被提示回答图像中是否存在对象。因此，评估指标包括准确度、精确度、召回率和 f1 分数。

MME [6]是一个综合基准测试，旨在评估MLLM在各个方面的性能。它分别包含十个感知能力子任务和四个认知能力子任务。在本文中，我们重新利用数据集并选择存在和计数子集来测量对象级幻觉。位置和颜色子集用于测量属性级幻觉。与 POPE 的设置类似，每个子集都由“是或否”问题组成。我们按照官方实施[6]报告分数，即准确度和准确度+的总和，其中分数越高表明表现越好，幻觉越少。

LLaVA-QA90 [21] 也用于评估 MLLM。具体来说，我们采样了 10 个描述类型查询，这些查询以各种形式进行解释，以指示 MLLM 描述图像，例如“描述以下图像”。和“这张照片是关于什么的？”。 LLaVA-QA90 使用来自 COCO [19] 的图像，并采用纯文本 GPT-4 [26] 来组成查询和参考答案。我们丢弃参考答案，直接将图像提供给 GPT-4V [26]，并提示它对我们设计的二维（即准确性和细节性）的响应进行评分。提示模板可在附录 A.4 中找到。

A4

提示

您需要对两个人工智能助手描述给定图像的表现进行评分。

需要特别注意的是幻觉，它是指与图像内容不符的描述部分，例如声称存在图像中不存在的东西，或者对图像中不存在的东西的数量、位置或颜色进行错误的描述。

图像中的物体。请注意，描述可能会附带边界框，指示图像中对象的位置，表示为 [x1, y1, x2, y2]，浮点数范围从 0 到 1。这些值对应于左上角的 x1 、左上 y1、右下 x2 和右下 y2。请根据以下标准，以 1 至 10 分的标准对助手的回答进行评分，分数越高表示表现越好：

1：准确性：对于图像内容的回答是否准确。幻觉较少的反应应给予较高的分数。

2：详细性：回复是否包含丰富的必要细节。请注意，幻觉描述不应被视为必要的细节。请为每个标准输出一行，仅包含两个值，分别表示助理 1 和 2 的分数。两个分数之间用空格分隔。根据分数，请解释您的评估，避免任何潜在的偏见，并确保回答的顺序不会影响您的判断。

[助理 1]

{回答 1}

[助理 1 结束]

[助理 2]

{回答 2}

[助理 2 结束]

输出格式：

准确度：

两个答案的分数：

原因：

详细度：

两个答案的分数：

原因:

基线。我们选择主流的 MLLM 作为基线模型，包括 mPLUG-Owl [40]、LLaVA [21]、MiniGPT-4 [47] 和 Otter [15]。这四个 MLLM 遵循“视觉编码器界面语言模型”架构 [41]，并接受图像文本对的训练。具体来说，LLaVA 和 MiniGPT-4 采用简单的投影层来对齐多模态嵌入。 mPLUG-Owl 使用 Q-Former [16] 将视觉特征压缩为固定数量的标记，这些标记可以与语言嵌入连接起来。 Otter 采用类似的 Perceiver [11] 重采样器来获得令牌压缩。

实施细节。我们的流程无需训练，除了需要校正的 MLLM 之外，还包含三个预训练模型。我们选择LLM，GPT-3.5-turbo [4]，来完成关键概念提取、问题表述和幻觉纠正的子任务。对于开放集对象检测，我们使用 Grounding DINO [22] 来提取具有默认检测阈值的对象计数信息。此外，我们利用 BLIP-2-FlanT5XXL [16] 作为 VQA 模型来回答以输入图像为条件的属性相关问题。

对于“是或否”问题，我们发现一些 MLLM 的指令跟踪能力有些弱，经常输出不相关的文本，例如纯表情符号或 URL。这是我们纠正过程中的一个障碍。此外，一些MLLM仅输出单个“是”或“否”，这也对校正提出了挑战。为了解决这些问题，我们设计了两个简单的措施：（1）首先从回答中提取关键词，即“是”和“否”作为答案，然后将问题与答案结合成更具体的主张。例如，给出一个问题：“图像中有一只狗吗？”和一个模型答案“是”，我们编写一个更具体的答案“是的，图像中有一只狗。”；（2）我们在批改过程中额外将问题反馈给LLM，以便LLM更好地掌握上下文和任务要求。

大语言模型LLM原理篇
大模型席卷全球，彷佛得模型者得天下。对于IT行业来说，以后可能没有各种软件了，只有各种各样的智体（Agent）调用各种各样的API。在这种大势下，笔者也阅读了很多大模型相关的资料，和很多新手一样，开始脑子里都是一团乱麻，随着相关文章越读越多，再进行内容梳理，终于理清了一条清晰的脉络。笔者写原理篇时心情是有些惴惴不安的，因为毕竟对大模型的研究有限，缺乏深度。但是，还是觉得有必要记录一下学习理解心得，
新手向:代码编写工具推荐 nightunderblackcat 基础环境配置 notepad++pycharm python intellij-idea java c++c#
开发者兵器谱：我的高效编码六大神器深度解析在软件开发的世界里，得心应手的工具如同侠客手中的利剑。经过多年的项目锤炼，我精心打磨了一套开发工具链，它们各有所长，助我在不同战场上游刃有余。下面就来深度剖析这六位“数字战友”：一、轻骑兵：Notepad++——闪电编辑与文本处理的王者核心定位：超轻量级文本/代码编辑器，启动如闪电，资源占用极低。看家本领：列编辑模式：Alt+鼠标拖拽或Alt+Shift+
大语言模型（LLM）笔记笑衬人心。大模型学习语言模型笔记人工智能
一、什么是大语言模型（LLM）？LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。其本质任务是**预测下一个token（词/字/符号）**的概率分布，但通过大规模参数和数据的支持，表现出类人智能的行为。二、核心架构：Transformer由Google在2017年提出，是目前LLM的主流架构。
高效实现滚动地图：瓦片渲染技术郑丢丢瓦片渲染游戏开发内存优化滚动地图渲染技术
高效实现滚动地图：瓦片渲染技术背景简介在游戏开发中，创建大型、动态的地图是一大挑战，尤其是对于内存的优化要求极高。传统的背景图方式不仅占内存，而且在处理大型地图时效率低下。本文介绍了一种被称为瓦片渲染的技术，它通过将大地图分解为小的图像块（瓦片），有效减少了内存的使用，同时还能实现流畅的滚动效果。瓦片渲染的原理瓦片渲染是一种处理大型游戏地图的方法，它不依赖于一个大型的位图，而是通过数组和小图像块（
Milvus向量数据库入门指南 longfei.li milvus 数据库人工智能
一、Milvus简介Milvus是一个开源的向量数据库，专为AI应用和向量相似度搜索而设计，以加速非结构化数据的检索。自2019年创建以来，Milvus专注于存储、索引和管理由深度神经网络和其他机器学习模型生成的海量嵌入向量。其能够处理万亿级别的向量索引任务。Milvus的核心优势在于其高效的索引机制，它支持多种索引类型，包括FLAT、IVF_FLAT、IVF_SQ8、IVF_PQ和HNSW等。这
Spring框架-IOC 五月茶 spring java 后端
1.Spring框架的介绍Spring框架是一个开源的JavaEE应用程序主要核心是IOC和AOP两大技术IOC：InversionofControl,控制反转。它是通过将控制权从应用程序中移出，使得对象的创建和管理由框架来完成，从而降低系统间的耦合度。DI：DependencyInjection,依赖注入。它是一种设计模式，属于控制反转的一部分。其基本思想是将对象的依赖（即它所需要的其他对象）通
kotlin协程的使用详解
一、协程是什么协程基于线程，它是轻量级线程。Kotlin协程是一种基于挂起函数（suspendfunctions）和结构化并发（structuredconcurrency）的轻量级并发编程模型，允许开发者以接近同步代码的简洁方式编写异步、非阻塞的逻辑。其核心是通过协作式任务调度（而非抢占式线程切换），在单线程或多线程环境中高效管理并发任务，避免传统线程的资源消耗和复杂性，同时提供直观的错误处理和生
JVM——垃圾回收五月茶 JVM jvm
在Java开发中，JVM不仅负责运行Java字节码，还通过自动内存管理机制帮助开发者避免手动内存管理的复杂性。1.JVM内存模型JVM的内存模型主要包括以下几个部分：方法区(JDK8之后叫元空间):存储类信息，常量池，静态变量堆：所有线程共享的一块内存区域，存放对象实例栈：线程私有程序计数器：线程私有，记录当前线程执行的字节码行号本地方法栈：为Native方法服务2.Java堆的划分年轻代Surv
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记迁移学习人工智能机器学习
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？文章目录【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？✅一、使用正则化进行模型压缩（ModelCompression）目标：方法：L1正则化促使权重稀疏化代码示例：后续压缩步骤
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
人类编程时代即将终结？OpenAI首席产品官预测AI将在今年底全面超越人类程序员前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读近日，OpenAI首席产品官KevinWeil在接受采访时表示，人工智能的发展速度远超预期，今年底就有可能在编程领域永久性地超越人类程序员。这一观点立即引发了行业热议，也让程序员们对未来产生了深刻的思考。人工智能的进展速度远超想象在与VarunMayya和TanmayBhat共同主持的YouTube节目《O
Python中Tesseract OCR的中文识别包实操指南
本文还有配套的精品资源，点击获取简介：TesseractOCR是一个开源的光学字符识别引擎，支持多语言包括中文识别。介绍如何在Python中使用pytesseract库进行图像文字识别，并详细说明安装TesseractOCR以及其中文语言包的步骤。提供了一个Python示例代码来展示图像识别的流程，并解释如何通过预处理提高识别准确率。此外，概述了TesseractOCR的高级功能和训练自定义模型的
NEWNEWNEW 莱茵不哈哈数据结构
1.如何在map中编译删除指定的元素方法1：通过key方法2：通过迭代器2.基类的析构函数为什么建议是虚函数？如果基类的析构函数不是虚函数会导致派生类的析构函数不会被调用，派生类中分配的资源都不会得到释放，会造成资源泄露的问题3.基于内存对齐规则，如何设计一个类？类里面的成员变量我会按照从大到小的原则排列，比如有doublie，char，int类型的成员classGoodDesign{double
一封邮件读懂准确率、精准率、召回率、F1 Score fairymt 产品经理的AI秘籍 AIGC 人工智能 AI作画 chatgpt ai
文章目录场景设定核心目标定义样本类别模拟评估结果四大核心指标详解①准确率（Accuracy）②精准率（Precision）③召回率（Recall）④F1Score如何选对指标？总结场景设定场景：公司开发了一个AI邮箱垃圾邮件（Spam）过滤器。我要评估这款AI垃圾邮件过滤器，判断它是否“合格”。核心目标核心目标：我们希望它能尽可能识别出所有垃圾邮件（别放过坏人）；尽量不误伤正常邮件（不冤枉好人）。
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
智能之火，重塑创造：大模型如何点燃新一代开发引擎？黑巧克力可减脂 AIGC 人工智能 AIGC
导言：普罗米修斯之火再现在科技演进的长河中，每一次生产力的跃迁都伴随着工具的质变。从蒸汽机轰鸣到电力普及，再到信息高速公路的铺就，人类驾驭能量的能力不断突破。今天，我们站在一个崭新的临界点上：大语言模型（LLM）正将人工智能的“普罗米修斯之火”引入软件开发的核心腹地。这不再仅仅是效率的优化，更是对开发者角色、开发流程乃至软件本质的深度重塑。GitHubCEOThomasDohmke曾断言：“Cop
电商搜索新纪元：大模型引领购物体验革新大模型教程职场和发展大模型 AI大模型算法人工智能
随着电商行业的蓬勃发展，搜索技术作为连接用户与商品的桥梁，其重要性日益凸显。在技术不断革新的今天，电商搜索技术经历了哪些阶段？面对大模型的飞速发展，企业又将如何把握趋势，应对挑战？为了深入探讨这些问题，京东技术总监翟周伟与InfoQ栏目探讨了电商搜索技术的发展历程、当前的应用状况以及面临的挑战和未来的发展方向。以下是采访的详细内容。InfoQ：在您看来电商搜索经历了哪些阶段？翟周伟：我从技术发展的
LoRA 实战指南：NLP 与 CV 场景的高效微调方法全解析 fairymt 产品经理的AI秘籍自然语言处理人工智能机器学习
大模型已成AI应用的“标配”，但高昂的训练和部署成本让很多企业望而却步。LoRA（Low-RankAdaptation）作为一种轻量级微调方案，正成为NLP与CV场景中低成本定制的利器。本文详细通过详细介绍LoRA的核心原理、在文本与图像任务中的应用场景、主流工具框架与实践方式，帮助你快速掌握这项高性价比技术。国产生态实战：基于LLaMA-Factory+DeepSeek+LoRA+FastAPI
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
智能新纪元：大语言模型如何重塑电商“人货场”经典范式黑巧克力可减脂 AIGC 语言模型人工智能自然语言处理
开篇引言“善战者，求之于势，不责于人。”——《孙子兵法·兵势篇》当全球电商交易额突破6.3万亿美元（Statista2024），增长引擎却显露疲态。流量红利消退、同质化竞争加剧、消费者需求碎片化——传统“人货场”理论正遭遇前所未有的挑战。而大语言模型（LLM）的出现，恰似一柄重铸商业逻辑的“科技之锤”，正在为电商领域开启一场静水深流的革命性变革。基石重塑：当“人货场”遇见大模型智能经典理论再审视：
AI:微调框架 LLaMA-Factory（Large Language Model Factory） xyzroundo AI 人工智能 llama 语言模型 sft llama-factory AI
LLaMA-Factory（LargeLanguageModelFactory）是由北航团队开源的高效大语言模型（LLM）微调框架，旨在简化大型语言模型的定制化训练流程，支持超过100种主流模型和多种先进微调技术。以下从核心功能、安装部署、微调流程和应用场景四个方面详细介绍：一、核心功能与特点广泛的模型支持支持LLaMA3、Mistral、Qwen、ChatGLM、Gemma、Phi、Yi、Bai
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！ Echo_Wish Python 进阶人工智能学习
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！朋友们，今天咱不聊ChatGPT，不聊大模型黑魔法，也不玩Prompt咒语。我想聊一个比“怎么训模型”更底层、更值得思考的问题：如果我们能让模型自己学会怎么更快、更聪明地学习，是不是就能少走很多弯路？这，就是元学习（MetaLearning）要解决的事儿。说白了，元学习是AI给AI上培训课的过程。咱们天天琢磨怎么喂模型数据、调超参、搞迁移
大模型WebUI：Gradio全解系列10——Additional Features：补充特性（上）龙焰智能 Gradio全解教程 gradio queue streaming 提示进度条 alert progress
大模型WebUI：Gradio全解系列10——AdditionalFeatures：补充特性（上）前言本篇摘要10.AdditionalFeatures：补充特性10.1队列10.1.1使用方法10.1.2配置队列演示10.2输入输出流10.2.1输出流1.生成器yield2.流媒体10.2.2输入流1.流事件2.图像滤镜10.2.3统一的输入输出流10.2.4跟踪过去的输入或输出10.3提示及进
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
FastGPT与MCP：解锁AI新时代的技术密码挑战者666888 AI模型应用实战迁移学习集成学习文心一言
一、AI浪潮中的新星：FastGPT与MCP登场在当今科技飞速发展的时代，人工智能（AI）已成为推动各行业变革的核心力量。从智能语音助手到复杂的图像识别系统，AI的应用无处不在，而其中的关键技术——语言模型和集成平台，更是备受关注。FastGPT和MCP（Multi-ComponentPlatform）作为这一领域的新兴代表，正逐渐崭露头角，为AI的发展注入新的活力。FastGPT，以其高效的推理
突发！微信链接被拦截？微信内打不开，已停止访问该怎么办？提示复制去浏览器打开？小北网络知识分享链接问题微信计算机网络开发语言网络安全
精心制作的营销链接刚分享到微信群，瞬间弹出「已停止访问该网页」的提示？数据显示，2025年上半年微信拦截违规链接超2亿条，其中60%的运营者因不了解规则导致解封失败。别慌！本文结合最新政策与实战案例，手把手教你快速定位问题、72小时高效解封，并建立长效防封机制。一、拦截真相：微信系统紧盯的5大「高危行为」微信的智能拦截系统基于内容安全、技术合规、用户反馈三大维度，以下行为极易触发「红色警报」：1.
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

Woodpecker: Hallucination Correction for Multimodal Large Language Models----啄木鸟：多模态大语言模型的幻觉校正

Abstract

一、简介

2.相关工作

2.1. MLLM 中的幻觉

2.2.知识增强LLM

2.3. LLM-aided Visual Reasoning ---- 2.3.LLM辅助视觉推理

3. 方法

3.1.关键概念提取

A.1.关键概念提取

3.2.问题表述

A2。问题表述

3.3.视觉知识验证

3.4.视觉声明生成

3.5.幻觉矫正

A.3.幻觉矫正

4. 实验

4.1.实验设置

A4

你可能感兴趣的:(大模型幻觉,语言模型,人工智能,自然语言处理,LVLM幻觉)

2.3. LLM-aided Visual Reasoning
----
2.3.LLM辅助视觉推理