论文地址:https://arxiv.org/pdf/2401.01313.pdf
随着大型语言模型 (LLM) 继续提高它们编写类人文本的能力,关键挑战仍然围绕着它们“幻觉”的倾向——生成看起来事实但不真实的内容。这种幻觉问题可以说是将这些强大的llm安全地部署到影响人们生活的真实世界生产系统中的最大障碍(Jain, 2023)。在实际环境中广泛采用llm的旅程在很大程度上依赖于解决和减轻幻觉。与传统的专注于有限任务的人工智能系统不同,LLM 在训练期间已经接触到大量在线文本数据。虽然这允许它们表现出令人印象深刻的语言流畅性,但它也意味着它们能够从训练数据中的偏差、误解模棱两可的提示或修改信息以表面上与输入对齐。当我们依赖语言生成能力进行敏感应用程序时,这变得非常令人担忧,例如总结医疗记录、客户支持对话、财务分析报告并提供错误的法律建议。尽管自学习的进步,但小错误可能会导致伤害,揭示 LLM 缺乏实际理解。本文介绍了对30多种技术的全面调查,这些技术旨在减轻llm中的幻觉。其中值得注意的是检索增强生成 (RAG) (Lewis et al., 2021)、知识检索 (Varshney et al., 2023)、CoNLI (Lei et al., 2023) 和 CoVe (Dhuliawala et al., 2023)。此外,我们引入了一个详细的分类法,根据数据集利用率、常见任务、反馈机制和检索器类型等各种参数对这些方法进行分类。这种分类有助于区分专门为解决llm中的幻觉问题而设计的各种方法。此外,我们分析了挑战和∗工作与亚马逊的位置无关。这些技术固有的局限性,为未来的研究提供了坚实的基础,以解决llm领域幻觉和相关现象。
大型语言模型 (LLM) 中的幻觉引起创建跨越大量主题的事实上的错误信息。鉴于 LLM 的广泛领域覆盖范围,他们的应用程序扩展到众多学术和专业领域。这些包括但不限于学术研究、编程、创造性写作、技术建议和技能习得促进。因此,llm已经成为我们日常生活中不可或缺的组成部分,在分配准确和可靠的信息方面起着至关重要的作用。然而,llm的一个基本问题是它们倾向于产生关于现实世界主题的错误或捏造的细节。这种提供错误数据的趋势,通常称为幻觉,对该领域的研究人员提出了重大挑战。它导致 GPT-4 等高级模型及其 ilk 的其他模型可能会产生不准确或完全没有混淆的参考的场景(Rawte 等人,2023)。这个问题是由于训练阶段的模式生成技术和没有实时互联网更新,导致信息输出的差异(Ray、2023)。
在当代计算语言学中,减轻幻觉是一个关键的焦点。研究人员提出了各种策略,包括语言模型生成中的反馈机制、外部信息检索和早期细化,以应对这一挑战。本文通过将这些不同的技术整合到一个全面的分类法中来呈现重要性。本质上,本文的贡献有三个方面:
考虑到生成llm在关键任务中的整体作用,幻觉的检测已经成为一个重要的问题。(Qiu et al., 2023b) 引入了 mFACT 作为识别摘要中幻觉的方法,将其适用性扩展到英语以外的其他语言。此外,(Zhang et al., 2023b) 提出了一种基于上下文信息的幻觉检测框架。(Mündler et al., 2023) 提出了理解幻觉因果关系的另一个观点,他们探索了自我矛盾作为贡献因素。
提示工程是试验各种指令以从 AI 文本生成模型中获得最佳输出的过程(White et al., 2023)。在幻觉缓解方面,这个过程可以提供特定的上下文和预期结果(Feldman et al., 2023)。提示工程缓解技术可以概述如下:
Retrieval-Augmented Generation (RAG) 生成检索增强通过挖掘外部权威知识库而不是依赖可能过时的训练数据或模型的内部知识来增强 LLM 的响应。这种方法解决了LLM输出中准确性和即时性的关键挑战(Kang et al., 2023)。RAG 通过生成不仅相关和当前而且可验证的响应来有效地缓解 LLM 中的幻觉问题,从而增强了用户的信心,并为开发人员提供了一种经济的方法来增强 LLM 在不同应用程序中的保真度和实用性。遵循该系统的缓解技术可以进一步分类为:
对于以下技术,信息检索发生在 AI 文本生成之前:
LLM-Augmenter:(Peng et al., 2023) 提出了一个系统,该系统使用一组即插即用 (PnP) (Li et al., 2023b) 模块来增强黑盒 LLM。该系统使 LLM 生成基于外部知识的真实响应。它还迭代地修改 LLM 提示以使用效用函数生成的反馈来改进模型响应。在本文中,作者提出了LLM-Augmenter,使用PnP模块改进具有外部知识和自动反馈的llm,该模块不需要任何训练,可以立即使用。给定一个用户查询,该框架首先从外部知识中检索证据并执行推理以形成证据链。然后LLM-Augmenter使用包含LLM合并证据的提示查询固定的LLM (GPT-3.5),以生成基于外部知识(证据)的候选响应。然后,LLMAugmenter 验证候选的响应,例如,通过检查它是否幻觉证据。如果是这样,LLM-Augmenter 会生成一个反馈消息。该消息用于再次修改提示以查询 GPT-3.5。该过程迭代,直到候选响应通过验证并发送给用户。
FreshenPrompt:(Vu et al., 2023)解决了大多数llm的静态性质,突出了它们无法适应不断变化的世界。作者介绍了 FreshenQA,这是一个动态 QA 基准,在需要当前世界知识和具有虚假前提的问题上评估 LLM。通过双模式评估,测量了正确性和幻觉,揭示了限制和改进的必要性,特别是在快速变化的知识场景中。为了应对这些挑战,作者提出了 FreshenPrompt,这是一种fewshot 提示方法,它利用搜索引擎将相关和最新的信息合并到提示中。FreshenPrompt 优于竞争方法和商业系统,进一步的分析强调了检索到的证据的数量和顺序对正确性的影响。这项工作对LLM能力在适应不断变化的知识、引入FreshenQA数据集和一种有效的提示方法FreshenPrompt来增强动态问题回答方面进行了详细的评估。
以下技术在句子级别展示了知识检索,其中模型在生成每个句子时通过信息检索。
知识检索:(Varshney et al., 2023) 提出了一种方法,该方法需要在出现时主动检测和减少幻觉。在继续创建句子之前,该方法首先使用来自模型的 logit 输出值来识别可能的幻觉,验证它们是准确的,然后减轻找到的任何幻觉。最重要的认识是,在生成过程中处理幻觉至关重要,因为当模型在其输出中之前经历过幻觉时,它会引发产生带有幻觉的句子的概率。本研究调查了在识别幻觉时,logit 输出值(由 GPT-3 等模型产生)的使用。然而,它承认仅通过 API 调用可用的一些模型可能不会给出 logit 输出值,并强调这些信息是补充来源,而不是幻觉检测方法的必要先决条件。该方法使用检索到的知识作为校正阶段的支持,通过消除或替换幻觉信息来减少创建句子中的幻觉来指导模型修复短语。
分解和查询框架 (D&Q):在他们的研究中,(Cao et al., 2023) 的作者解决了 LLM 在问答中遇到的挑战,重点关注多跳关系的幻觉和困难。他们提出了 D&Q 框架来指导模型在将推理限制在可靠信息的同时利用外部知识的模型,从而减轻幻觉的风险。实验结果表明 D&Q 的有效性,在 ChittChatQA 上展示了与 GPT-3.5 竞争的性能,并在 HotPotQA(仅限问题)上实现了值得注意的 59.6% F1 分数。该框架涉及没有工具调用的监督微调阶段,在预测阶段,模型使用外部工具查询可靠的问答基础,允许在需要时回溯和启动新的搜索。研究结果强调了 D&Q 在问答任务中提高 LLM 的鲁棒性和性能的潜力。
实时验证和纠正 (EVER):LLM 经常会遇到产生不准确或幻觉内容的挑战,尤其是在推理任务中。针对在非基于检索的和检索增强生成方法中普遍存在的这个问题,(Kang et al., 2023) 引入了 EVER 框架。与现有的事后纠正幻觉的方法不同,EVER在生成过程中采用了实时、逐步的策略来检测和纠正幻觉。三阶段过程包括生成、验证和校正,有效地识别和纠正内在和外在幻觉。EVER 优于基于检索的和非基于检索的基线,展示了在短格式 QA、传记生成和多跳推理等各种任务中生成可信和事实准确的文本的显着改进。该框架的有效性经过实证验证,证明了它能够缓解幻觉的“雪球”问题,使其成为提高llm准确性和可靠性的宝贵贡献。
以下技术在生成其的整个输出后使用信息检索系统:
使用研究和修订 (RARR) 改造归因: (Gao et al., 2023) 在 LLM 领域,在各种任务中取得了显着的进步;然而,问题仍然存在,例如在没有适当支持或准确性的情况下生成内容。由于缺乏归因性,在LLM输出中确定可信度的挑战促使引入RARR。介绍中提出的与模型无关的系统自动化任何文本生成模型的归因过程。受事实核查工作流程的启发,RARR 进行研究和后期编辑以将内容与检索到的证据对齐,同时保留原始质量,在 LLM 生成后无缝操作。引言中概述的贡献包括形式化 Attribution 任务的编辑、引入新的指标、对现有修订模型进行基准测试并提出研究和修订模型。结论强调了 RARR 在保留基本文本属性的同时增强归因的能力,为提高 LLM 输出的可靠性提供了一种实用的解决方案。
高熵词定位和替换:虽然检测高熵词的技术可行性可能很明显,但由于许多当代 LLM 的封闭源性质,出现了重大挑战,基于订阅的 API 限制了可访问性。(Rawte et al., 2023) 提出的解决方案涉及利用开源 LLM 来识别高熵词,然后使用较低幻觉漏洞索引的 LLM 替换它们。结果强调了 albert-large-v2 (Lan et al., 2020) 在检测 GPT-3 生成的内容中的高熵词方面的卓越性能。相反,distilroberta-base (Sanh et al., 2019) 在替换高熵词方面表现出卓越的性能,从而减少幻觉。这种方法的一个重要方面是将连续的高熵词视为一个统一的单元,这些词在替换之前被集体掩盖,在解决与生成的 Golem 或 Acronym 歧义相关的幻觉方面特别有效。
(Lewis et al., 2021) 论文中提出的 RAG 的端到端过程涉及将预训练的序列到序列 (seq2seq) 转换器与 Wikipedia 的密集向量索引相结合,通过密集通道检索器 (DPR) 访问。这种创新组合允许模型在 DPR 提供的输入查询和潜在文档上调整其输出生成。
在这个过程中,DPR 充当神经检索器,根据输入提供相关文档。然后 seq2seq 模型(特别是 BART)使用这些文档来生成最终输出。该模型采用 top-K 近似来边缘化这些潜在文档,这些文档可以根据每个输出基础(假设一个文档负责所有标记)或每个令牌基础(允许不同的文档影响输出的不同部分)。
至关重要的是,此 RAG 设置中的生成器和检索器都是端到端训练的,确保它们共同学习并提高彼此的性能。这种方法与以前的方法不同,以前的方法需要从头开始为特定任务构建具有非参数内存的架构。相反,RAG 使用预训练的组件,用广泛的知识预加载,允许模型访问和集成大量信息,而无需额外的训练。这种端到端方法提高了各种知识密集型任务的性能,证明了在生成模型中结合参数和非参数记忆的有效性。
在LLM为特定提示提供输出后,对输出进行适当的反馈可以使LLM在连续迭代中给出更好、更准确的输出(Madaan et al., 2023)。通过这种方法,以下是具体的幻觉缓解技术:
提示让GPT-3 可靠:根据 (Si et al., 2022) 的论文,LLM,尤其是 GPT3,表现出显着的少样本提示能力,增强了它们在现实世界语言任务中的应用。尽管如此,提高 GPT-3 可靠性的问题仍未得到充分探索。本研究将可靠性分解为四个关键方面——泛化性、社会偏见、校准和真实性——并引入简单有效的提示来增强每个方面。该研究在所有可靠性指标上都优于小规模监督模型,为提高 GPT-3 的性能提供了实用的策略。本文概述了以前关于LLM可靠性的工作,强调了本研究综合分析的新颖性,并专注于有效的提示策略。从 ML 安全调查中汲取灵感,可靠性框架与现有概念框架中已识别的风险保持一致。最后,总结了GPT-3可靠性的系统探索,介绍了实用的提示策略,并强调了该研究对GPT-3用户llm的见解和实际推荐的贡献。
ChatProtect:(Mündler et al., 2023) 专注于一种重要的幻觉类型,称为自矛盾,当 LLM 在给定相同上下文的情况下生成两个逻辑不一致的句子时,就会发生这种情况。他们提出了一个三步管道,用于推理自我矛盾。重要的是,该方法建立在提示策略的基础上,使其适用于黑盒llm,而不需要外部接地知识。他们进行了广泛的评估,针对开放域文本生成任务的四个现代指令调整 LM,展示了该方法的实质性好处:它有效地暴露了自矛盾,准确地检测到它们,并适当地减轻了它们的出现。
Self-Reflection 方法:论文 (Ji et al., 2023b) 利用广泛采用的 LLM 和数据集探索并解决医学生成 QA 系统中幻觉现象。重点是识别和理解有问题的答案,强调幻觉。为了应对这一挑战,本文引入了一种交互式自反射方法,该方法集成了知识获取和答案生成。通过这种迭代反馈过程,该方法系统地提高了生成答案的真实性、一致性和蕴涵。利用llm的交互性和多任务能力,该方法产生越来越精确和准确的答案。实验结果表明,与基线相比,自动和人工评估都突出了这种方法在减少幻觉方面的有效性。对生成任务(尤其是在医学领域)中的幻觉的调查对于 AI 的问责性和可信度至关重要。所提出的迭代自反射方法,在背景知识和答案上使用生成分数细化策略,经验证明在减轻幻觉方面是有效的、可推广的和可扩展的。
结构化比较 (SC) 推理:在文本偏好预测领域,LLM 经常处理推理不一致,(Yan et al., 2023) 引入了 SC 推理方法。SC 采用提示方法,通过生成结构化的中间比较来预测文本偏好。它首先提出比较方面,然后在每个方面生成文本比较。利用成对一致性比较器,SC 确保每个方面的比较明显区分文本,有效地减少幻觉和增强一致性。该方法在各种 NLP 任务中得到了展示,包括摘要、检索和自动评分,表明 SC 为 LLM 配备了文本偏好预测的最先进性能。SC的结构化推理方法及其一致性执行通过综合评估和消融研究得到验证,强调了它在提高不同任务的准确性和连贯性方面的有效性。人工评估进一步强调了 SC 的解释能力,帮助用户做出明智的决定。
Mind 的镜子:虽然思维链 (CoT) 蒸馏方法有望将 LLM 缩小到小型语言模型 (SLM),但存在携带有缺陷的推理和幻觉的风险。为了解决这个问题,(Liu et al., 2023) 提出了一种具有两个关键组件的方法:首先,一种新方法将 LLM 固有的自我评估能力提炼成 SLM,旨在减轻不利影响并减少幻觉。其次,综合蒸馏过程结合了多种不同的 CoT 和自我评估范式,用于整体知识转移到 SLM 中。
该方法训练 SLM 具有自我评估能力、识别和纠正幻觉和不可靠的推理,提高了各种 NLP 任务的预测准确性和可靠性。综合实验证明了该方法在推理任务中的优越性,为合理缩小llm尺寸提供了一种有效的方法。
DRESS:(Chen et al., 2023) 提出使用自然语言反馈 (NLF),特别是批评和细化 NLF,以提高与大型语言模型 (LVLM) 的人类偏好和交互能力的对齐。他们概括了条件强化学习,通过训练模型生成以 NLF 为条件的相应响应来有效地合并不可微的 NLF。实验表明,DRESS 在有用性、诚实和无害对齐指标方面相对于先前最先进的 LVLM 的相对改进。
MixAlign:尽管具有准确的参考点,但 LLM 可能会忽略它们并依赖不正确的引用或偏差。当用户提出不直接与检索到的引用对齐的问题时,就会出现这种产生幻觉的趋势,缺乏对存储信息的详细知识。(Zhang et al., 2023b) 专注于这个知识对齐问题并引入 MixAlign,这是一个与用户和知识库交互的框架,以阐明用户问题如何与存储的信息相关。MixAlign 使用语言模型来实现自动知识对齐,如果需要,通过用户澄清进一步增强了这种对齐。MixAlign专注于利用基础知识进行忠实的决策。在不确定性或不明确的证据的情况下,MixAlign 从用户生成寻求澄清的问题——这个过程称为人工辅助知识对齐。
验证链 (CoVe): (Dhuliawala et al., 2023) 开发了模型 1 的 CoVe 方法。 Drafts 是初始响应。2. 计划验证问题以事实核查其草稿。3. 独立回答这些问题,因此答案是无偏的。4. 生成最终验证的响应。实验表明,CoVe 会降低基于列表的 Wikidata 问题和长格式文本生成等任务的幻觉。给定一个用户查询,LLM 生成一个基线响应,可能包含事实幻觉等不准确。CoVe 首先生成要问的验证问题,然后回答它们以检查一致性。
自然语言推理链 (CoNLI):(Lei et al., 2023) 在提供背景上下文时解决了 LLM 生成的幻觉的挑战。尽管自然语言生成具有流畅性,但 LLM 通常会产生不受给定来源支持的无接地幻觉。
所提出的分层框架侧重于检测和减轻此类幻觉,而无需微调或特定领域的提示。该框架利用自然语言推理 (CoNLI) 链通过识别未接地的内容来进行最先进的幻觉检测。然后使用后期编辑来减少幻觉并提高文本质量,而无需模型调整。对文本到文本数据集的广泛实验证明了幻觉检测和减少的有效性。通过将检测制定为自然语言推理任务链,该框架将句子和实体级别的判断与可解释性相结合。
即插即用框架允许在具有竞争性幻觉检测和降低性能的上下文中无缝部署,同时保持文本质量。
提示调优是一种技术,包括在微调阶段调整提供给预先训练的LLM的指令,使模型在特定任务中更有效。LLM从“Soft Prompts”中学习,这些提示不是预先确定的,而是通过微调期间的反向传播来学习的(Lester等人,2021年)。对于幻觉缓解,现在已经提出了以下涉及提示调优的技术:
用于改进零样本评估的通用提示检索 (UPRISE): (Cheng et al., 2023) 提出了 UPRISE,它调整轻量级且通用的检索器,可以自动检索给定零样本任务输入的提示。具体来说,它们在跨任务和跨模型场景中证明了普遍性:检索器在一组不同的任务上进行了调整,但在看不见的类型任务上进行了测试。检索器经过训练以检索多个任务的提示,使其能够在推理过程中泛化到看不见的任务类型。
SynTra:大型语言模型 (LLM) 在抽象摘要任务中经常表现出幻觉,即使存在必要的信息。由于优化过程中幻觉的复杂评估,应对这一挑战很困难。(Jones et al., 2023) 引入了 SynTra,这是一种使用合成任务来有效地减少下游摘要任务的幻觉的方法。SynTra 通过对合成任务的前缀调整来优化 LLM 的系统消息,然后将这种能力转移到更具挑战性的、现实的摘要任务中。实验证明了两个 13B 参数 LLM 的幻觉减少,突出了合成数据减轻不良行为的有效性。
解码策略通常涉及设计专门针对模型生成阶段的技术。在幻觉方面,这些技术旨在通过引导生成阶段朝向真实或特定于上下文的生成来减少生成的输出中出现幻觉(Lango 和 Dusek、2023)。以下技术利用了解码策略:
上下文感知解码 (CAD): (Shi et al., 2023) 提出了 CAD,它遵循对比输出分布,该分布放大了模型在有和没有上下文的情况下使用时输出概率之间的差异。CAD在将模型的先验知识与所提供的上下文相矛盾时特别有效,导致解决知识冲突的任务的显着改进是很重要的。 CAD 可用于现成的预训练语言模型,无需任何额外的训练。更具体地说,CAD 特别有利于知识冲突的任务,其中上下文包含与模型先验知识相矛盾的信息。结果表明,CAD 在减轻文本生成幻觉和覆盖具有可靠和可信信息的先验知识方面的潜力。
通过对比层 (DoLa) 进行解码:(Chuang et al., 2023) 引入了 DoLa,这是一种简单的解码策略,旨在减轻预训练 LLM 中的幻觉,而无需外部知识调节或额外的微调。DoLa 通过对比投影到词汇空间的后期层和早期层之间的 logit 差异来实现下一个令牌分布。它利用了观察到的特定变压器层事实知识定位。因此,DoLa 增强了事实知识的识别并最小化了错误事实的生成。在各种任务中,包括像 TruthfulQA 这样的多项选择和开放式生成任务,DoLa 不断提高真实性,提高了 LLAMA 家族模型的性能。
推理时间干预 (ITI): (Li et al., 2023a) 引入了 ITI,这是一种旨在增强 LLM 的“真实性”的技术。ITI 在推理过程中通过移动模型激活来操作,遵循有限数量的注意力头的一组方向。这种干预显着提高了 LLAMA 模型在 TruthfulQA 基准上的性能。该技术首先识别一组稀疏的注意力头,具有高线性探测精度的真实性。然后,在推理过程中,它们沿着这些真值相关方向移动激活。它自回归重复相同的干预,直到生成整个答案。ITI 在 TruthfulQA 基准测试中显着提高了性能。
KG 是组织的数据集合,包括有关实体(即人、地点或对象)、它们的特征和它们之间的关系的详细信息(Sun et al., 2023a)。它安排数据,使机器能够理解材料的关系和语义含义。 KG 为复杂的推理、数据分析和信息检索提供了基础。因此,一些研究在幻觉缓解的背景下使用了 KG(Bayat et al., 2023)。它们是:
RHO:为了处理对话响应生成中的幻觉挑战,(Ji et al., 2023a) 提出了一个称为 RHO 的框架,该框架利用来自 KG 的链接实体和关系谓词的表示来生成更忠实的响应。为了提高忠实度,他们将局部和全局知识基础技术引入对话生成中,并进一步利用对话推理模型对生成的响应进行重新排序。这两个知识基础有助于模型以适当的注意力有效地编码和注入与上下文相关的子图中的知识信息。他们的工作通过各种知识基础和推理技术改进了外部知识和对话上下文之间的融合和交互,进一步减少了幻觉。
使用从外部知识 (FLEEK) 检索到的证据进行事实错误检测和校正:(Bayat et al., 2023) 引入了 FLEEK,这是一种智能且与模型无关的工具,旨在帮助最终用户,例如人类评分者,实际上是验证和更正。FLEEK 的特点是用户友好的界面,能够自主识别输入文本中潜在的可验证事实。它为每个事实制定问题,并查询策划的知识图和开放网络以收集证据。该工具随后使用获得的证据验证事实的正确性,并对原始文本提出修订。验证过程本质上是可解释的,提取的事实、生成的问题和检索到的证据直接反映了有助于验证过程的信息单元。例如,FLEEK 将直观地突出显示具有不同颜色的可验证事实,表明它们的事实性水平,允许用户与可点击的亮点进行交互,这些亮点揭示了支持或反驳每个主张的证据。未来的工作包括对 FLEEK 的全面评估,测试它与各种 LLM 的兼容性,并将其受制于全面的基准。
创建一个度量来衡量模型的输出与输入数据或基本事实的匹配程度是本节的任务。从这个意义上说,忠实度描述了模型在不添加错误、遗漏或失真的情况下忠实地反映输入的数据的能力(Chrysostomou 和 Aletras,2021)。以下方法描绘了技术的使用:
文本幻觉缓解 (THAM) 框架: (Yoon et al., 2022) 引入了 THAM 框架,用于基于视频的对话。TDAM 考虑了文本幻觉问题,它复制输入文本以生成答案,而无需理解问题。它通过引入信息论正则化来减轻特征级幻觉效应。TDAM 框架结合了源自响应语言模型和所提出的幻觉语言模型之间的互信息的文本幻觉正则化 (THR) 损失。最小化 THR 损失有助于减少任意的的文本复制并提高对话性能。TDAM 框架结合了源自所提出的信息论文本幻觉测量方法的文本幻觉正则化损失。
损失加权方法:(Qiu et al., 2023b)专注于低资源语言摘要,并开发了一个新的指标 mFACT 来评估非英语摘要的真实性,利用来自多个英语真实性指标的基于翻译的转移。它由四个英语忠实度指标开发。他们研究了跨语言迁移设置中的幻觉。他们应用 mFACT 来研究最近多语言 LLM 总结的真实性。该指标包括根据训练样本的真实性得分对训练样本的损失进行加权。实验结果表明,虽然常见的跨语言迁移方法有利于摘要性能,但与单语对应物相比,它们放大了幻觉。为了减少这些幻觉,他们将几种单语方法应用于跨语言迁移,并提出了一种基于根据每个训练示例的 mFACT 分数对损失进行加权的新方法。
SFT 用作使用标记数据为下游任务对齐 LLM 的重要阶段。它有助于模型遵循特定任务的人工命令(Wang et al., 2023; Chung et al., 2022; Iyer et al., 2023; Sun et al., 2023b),并最终增加模型输出的真实性。在SFT的背景下,数据的质量是最重要的关注点,因为它直接决定了微调模型的性能(Xu et al., 2023;Touvron et al., 2023)。在监督微调过程中,LLM的权重是根据任务特定损失函数的梯度来调整的,该函数测量LLM的预测和GT标签之间的差异。该技术已被证明在增强llm的适应性方面特别有效,使它们能够在以前看不见的任务中表现出色。
知识注入和师生方法:(Elaraby 等人,2023)专注于测量和减少弱开源大型语言模型(LLM)中的幻觉,如 BLOOM 7B(Workshop 等人,2022 年)。他们引入了HALOCHECK,这是一个轻量级的无知识框架来量化llm中的幻觉严重程度。作者探索了知识注入和师生方法等技术,以减轻低参数llm中的幻觉。该框架使用句子级限制来定量评估幻觉水平。
这项工作旨在通过使用领域知识进行微调来增强更小的 LLM 知识,而不依赖于来自更强模型的昂贵指令。他们研究利用更强大的LLM,如GPT-4,通过生成详细的问题回答来指导较弱的LLM。通过评估幻觉严重程度,他们优化教师LLM参与,以减少广泛依赖大型模型的计算成本。这减轻了对教师模型频繁查询的需求。
幻觉增强重引用 (HAR): (Köksal et al., 2023) 引入了 LLM 中归因的概念来控制信息源并提高真实性。虽然现有方法依靠开放式问答来改进归因,但当事实数据集奖励模型以回忆预训练数据而不是展示真实归因时,就会出现挑战。为了解决这个问题,作者提出了HAR,这是一种利用LLM幻觉创建反事实数据集和增强归因的新方法。通过对开放式书籍 QA(特别是 CF-TriviaQA)的案例研究,结果表明,使用这些反事实数据集进行微调的模型显着提高了文本接地,并且优于在事实数据集上训练的模型,即使训练数据集和模型大小更小。观察到的改进在各种开放式 QA 任务中是一致的,包括多跳、生物医学和对抗性问题。
真实性微调语言模型:(Tian et al., 2023)通过利用最近的 NLP 创新来解决幻觉,采用自动事实检查方法和基于偏好的学习通过直接偏好优化算法。研究人员在没有人工标记的情况下微调 Llama-2 模型的真实性,实现了显着的错误减少,尤其是在传记和医学问题中。他们的方法涉及基于参考和无参考的真实性评估,展示了一种在长文本生成中增强模型真实性的具有成本效益的方法。本研究提出了新的基准任务,讨论了未来的途径,并强调了事实强化学习在安全关键领域对更大模型的潜在可扩展性。
BEFO:为了缓解信息寻求对话系统的问题并增加真实性,(Razumovskaia et al., 2023) 引入了 BEFO,这是一种简单而有效的方法,应用行为调整来帮助信息寻求对话。在这项工作中,作者提出了 BEFO,这是一种简单而有效的方法,它应用“行为微调”来增加生成响应对信息寻求对话的真实性。该模型针对大量与真实知识源的对话进行了调整,这些对话扩展了来自大型知识库的随机采样事实。
参考感知指令调整 (R-Tuning):在他们最近的工作中,(Zhang et al., 2023a) 提出了一种新方法,称为 R-Tuning,用于在大型语言模型 (LLM) 中灌输拒绝技能。这种方法形式化了识别LLM的参数知识和用于训练它的教学调优数据之间的知识差距的想法。基于这些知识差距,R-Tuning 构建了拒绝感知的训练数据来教 LLM 在避免响应时,尤其是当问题超出其能力时。R-Tuning方法涉及两个关键步骤:
思考并有效表达知识(TWEAK):为了减少幻觉,(Qiu et al., 2023a)提出了一种新的解码方法TWEAK。该方法将每一步生成的序列及其未来序列视为假设。它使用假设验证模型 (HVM) 根据它们对应的假设支持输入事实的程度对每个生成候选进行排名。
作者只调整解码过程而不重新训练生成模型。这使得他们的方法很容易与任何知识到文本生成器集成。现有的解码方法,如仅基于预测似然对候选样本进行采样,而不考虑忠实度。作者提出了一种名为 FATE 的新数据集,它将输入事实与单词级别的原始和反事实描述对齐。
本文对llm幻觉的关键问题进行了深入的探讨,强调了llm在我们生活中各个领域的广泛影响。本文强调了llm生成错误信息带来的挑战,并将其确定为研究GPT-4等突出llm的研究人员的一个重要问题。本文探讨了幻觉检测的最新进展,包括mFACT、基于上下文的框架和自我矛盾作为贡献因素的研究。它强调了在llm中解决幻觉的重要性,因为它们在关键任务中发挥着不可或缺的作用。本文的核心贡献是提出了一种系统分类法,用于对llm中的幻觉缓解技术进行分类,将其覆盖范围扩展到VLM。通过综合表征这些技术的基本特征,本文为幻觉缓解领域更结构化的未来研究提供了基础。此外,本文考虑了与这些技术相关的固有限制和挑战,为该领域的未来研究提出了方向。
本质上,这篇调查论文不仅阐明了llm中幻觉的重要性,而且还巩固和组织了不同的缓解技术,有助于计算语言学领域知识的进步。它作为研究人员和实践者的宝贵资源,寻求全面理解llm中当前的幻觉景观和解决这一紧迫问题的策略。
LLM 中的幻觉缓解代表了一系列创新技术解决的多方面挑战。讨论的方法,从生成后细化到监督微调,强调了幻觉问题的重要性和对综合解决方案的迫切需求。
在生成后细化领域,RARR 脱颖而出,自动化归因过程并将内容与检索到的证据对齐。高熵词定位和替换解决了 LLM 生成内容中高熵词引起的幻觉,展示了上下文感知替换的重要性。
通过反馈和推理的自我细化带来了 ChatProtect 等有影响力的策略,专注于自我矛盾检测和自我反思方法,采用迭代反馈过程来减少医学生成 QA 系统中的幻觉。结构化比较推理引入了一种结构化的文本偏好预测方法,增强了连贯性和减少幻觉。
提示调优作为一种强大的技术出现,UPRISE等创新证明了基于提示的调整的通用性。SynTra 引入了合成任务来减轻抽象摘要中的幻觉,提供可扩展性,但提出了与人类反馈相比有效性的问题。
新模型的开发强调解码策略,例如 CAD 和 DoLa,两者都有助于通过指导生成阶段来减少幻觉。KG 利用率和基于真实性的损失函数也起着至关重要的作用,如 RHO 和 TDAM 框架等方法所示。
通过知识注入和师生方法等各种镜头探索了监督微调,这是一个关键阶段,其中特定领域的知识被注入到较弱的llm中,HAR等方法使用反事实数据集来提高事实性。
语言模型的幻觉缓解方法有望在各个领域的未来发展和改进。通过无缝集成众多缓解方法,创建混合模型,为幻觉提供彻底的防御是一个重要的方向。通过减少对标记数据的依赖,研究无监督或弱监督学习技术的可能性可能会提高可扩展性和灵活性。此外,有必要研究幻觉缓解策略的道德后果和社会影响,以保证负责任的实施并促进用户信心。LLM不断变化的领域进一步鼓励专门旨在减少幻觉的设计研究,这可能导致开发具有内置安全特征的新模型。研究人员、商业专业人员和伦理学家将持续工作以改进首先放置用户理解和真实性的方法、基准模型和设置标准将是至关重要的。构建产生连贯且上下文相关的信息的语言模型,同时表现出对幻觉输出的意识和缓解增强是该领域的集体目标,因为它指引了这些未来的可能性。
收集到的幻觉缓解工作揭示了一系列不同的策略,每一种策略都对解决llm幻觉的细微差别做出了独特的贡献。随着该领域的发展,这些方法的合成可以为更强大和普遍适用的解决方案铺平道路,促进语言生成系统中的信任和可靠性。
最后,调查的缓解技术的划分可以通过table 1(在原始论文的最后一页)轻松理解。