大语言模型的32种消除幻觉的技术,你都了解吗?

大模型幻觉问题是计算机语言学中一个重要的研究方向。为减轻幻觉,研究人员提出了多种策略,比如反馈机制、外部信息检索等,但一直缺少一篇详细综述将近期关于幻觉的研究工作串联起来。

今天介绍的这篇文章详细梳理了大语言模型幻觉消除技术,将其系统的分为提示工程和模型开发两大类。

提示工程涉及基于检索增强的方法、基于反馈的策略或提示微调;模型开发则可分为多种方法,包括新的解码策略、基于知识图谱的优化、新增的损失函数组成部分以及监督微调等。

本文将简单的概述这篇文章,罗列一些关键的技术点,详细内容还请参照原论文~

大语言模型的32种消除幻觉的技术,你都了解吗?_第1张图片

论文标题:
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

论文链接:
https://arxiv.org/pdf/2401.01313.pdf

提示工程

提示工程方法通过尝试各种指令获得文本生成模型的最佳输出,这个过程可以提供特定的上下文和预期结果,以缓解模型幻觉。

检索增强生成(Retrieval-Augmented Generation)

RAG通过利用外部权威知识库来增强LLMs的回应,而不是依赖于潜在过时的训练数据或模型内部的知识。RAG不仅可以生成相关和实时的回应,还可生成可验证的回应,有效地减轻LLMs中出现的幻觉问题。

作者按信息检索发生的时间,将该技术分为文本生成之前、过程中、生成之后、端到端四种。

1. 生成之前
  • LLM-Augmenter:当接收到用户查询,该框架首先从外部知识中检索证据并构建证据链。然后,使用整合证据的提示向GPT-3.5提问,生成基于外部知识的候选响应。LLM-Augmenter验证候选响应的真实性,若产生虚假证据,则生成反馈信息用于修订提示并重新提问。此过程持续迭代,直至候选响应通过验证并发送给用户。

  • FreshPrompt:该方法使用搜索引擎将相关的和最新信息整合到提示中,增强了动态问答,特别适合用在快速变化的知识场景中。

2. 生成过程中

模型在生成每个句子时进行信息检索。主要方法包括:

  • 知识检索:在生成句子前首先利用模型的logit输出值识别可能的幻觉,并验证其准确性,然后纠正已发现的幻觉。在生成过程中处理幻觉非常重要,当模型输出幻觉后,它会增加后续产生带有幻觉的句子的概率。

  • D&Q框架:该方法指导模型在利用外部知识的同时限制推理时使用的可靠信息,从而减少幻觉的风险。该框架包括一个无需工具调用的监督微调阶段,并在预测阶段让模型使用外部工具查询可靠的问答库,根据需要进行回溯和启动新的搜索。

  • EVER框架:与现有方法在事后纠正幻觉不同,EVER在生成过程中采用实时、逐步的策略来检测和纠正幻觉的发生。这个三阶段的过程涉及生成、验证和纠正,有效地识别和纠正内在和外在的幻觉。

3. 生成之后

以下方法为生成其全部输出后再使用信息检索系统:

  • RARR:该框架可为任何文本生成模型自动化归因过程,弥补生成内容缺乏适当的支持的缺陷。通过研究和后期编辑来使内容与检索到的证据保持一致,同时保留原始特性,在LLM生成之后无缝运作。

  • 高熵词汇的检测和替换:利用开源LLM来识别高熵词汇,然后使用基于较低妄想易受攻击指数的LLM来替换它们。将连续的高熵词汇作为一个统一的单元进行处理,在替换之前对这些词进行集体屏蔽,特别有效地解决了缩略语歧义相关的幻觉问题。

4. 端到端

将seq2seq transformer 与通过Dense Passage Retriever (DPR)访问的维基百科的密集向量索引集成起来,使得模型能够在生成过程中以输入查询和DPR提供的潜在文档为条件,以缓解幻觉。这种方式使用预训练的组件,并预加载了广泛的知识,使得模型能够访问和整合大量信息而无需额外的训练。

通过反馈自我完善

在LLM提供特定提示的输出后,给予恰当的反馈可以使LLM在其连续迭代中产生更好、更准确的输出。

  • 可靠性分解:本方法将可靠性分解为四个关键方面:普适性、社会偏见、校准和事实性,并引入简单而有效的提示增强每个方面,提供了改进GPT-3性能的实用策略。

  • ChatProtect:该方法主要关注LLM生成的自相矛盾幻觉,即在同一上下文中出现逻辑不一致的句子,并提出三步流程来推理自相矛盾,此方法基于提示策略,适用于黑盒LLM,无需外部知识。

  • 自我反思方法:本方法研究医学生成QA系统中的幻觉现象,提出一种交互式自我反思方法,整合知识获取与答案生成,通过迭代反馈过程改善答案的事实性、一致性和蕴含关系。

  • 结构化比较(SC)推理:本方法关注文本偏好预测领域,利用提示法通过生成结构化的中间比较来预测文本偏好。SC首先提出比较方面,然后生成文本比较。利用成对一致性比较器,SC确保每个方面比较有明显区别,有效降低幻觉现象,增强一致性。

  • Mind’s Mirror:为解决小型语言模型(SLM)中的幻觉,本方法将LLM自我评估能力融入到SLM中的精炼过程,将多个不同的CoT和自我评估范例结合在一起,进行全面知识转移到SLM中。

  • DRESS:为提高大型视觉语言模型与人类偏好和交互能力的对齐,该方法该方法将条件强化学习应用于训练模型,使其能够根据自然语言反馈生成相应的响应,从而高效地整合不可微分的反馈。

  • MixAlign:利用语言模型实现自动对齐,通过用户澄清增强对齐。专注于利用基本知识进行忠实决策。在不确定或证据不清时,MixAlign会生成问题,寻求用户澄清,即人为辅助知识对齐。

  • Chain-of-Verification(CoVe) :该方法通过验证链使模型能够对其输出结果进行可信验证。首先起草一个初始答复,然后验证问题以事实核对其初始答复,再独立回答这些问题以保持回答的客观性,最后生成最终已验证的响应。

  • 自然语言推理链 (CoNLI) :该利用自然语言推理链 (CoNLI) 进行幻觉检测,以识别未确证的内容。然后使用后期编辑来减少幻觉并提升文本质量,无需调整模型。通过将检测形式化为一系列自然语言推理任务,该框架融合了句子和实体级别的判断结果,具有可解释性。

提示微调

LLM通过在微调期间进行反向传播学习来自“软提示”中的知识,而这些知识不是预先确定的,而是由模型自己学习得来。提示微调在微调阶段调整LLM的指令,以使该模型在特定任务中更加有效。

  • UPRISE:用于自动为给定的零样本任务输入检索提示,经过训练,该检索器能检索多个任务的提示,使其在推理时能适应新任务。

  • SynTra:通过合成任务减少下游摘要任务的幻觉。SynTra通过在合成任务上对LLM进行微调,并将此能力转移到更具挑战性和实际的摘要任务中。

开发新模型

与微调模型不同,还有一类方法通过更新模型框架以减轻幻觉。

新的解码策略

  • 上下文感知解码(CAD):CAD遵循对比输出分布,当模型在有和没有上下文的情况下使用时增大输出概率的差异。当上下文与模型先验知识冲突时,CAD效果更佳,在解决知识冲突任务中实现显著改进。CAD可与预训练语言模型结合,无需额外训练。

  • 对比层解码(DoLa):通过对前后层投影到词汇空间中的logit差异进行对比,计算下一个token的分布。这利用了特定Transformer层中事实知识的局部化现象。因此,DoLa增强了对事实知识的识别,并减少了生成错误事实的发生。

  • 推理时介入(ITI):通过在推理过程中沿着有限的注意力头方向移动激活模型,改善模型性能。该技术首先识别出具有高线性探测准确性的稀疏注意力头集,确保真实性。然后在推理过程中,沿着与真实性相关的方向移动激活。它在生成整个答案之前以自回归方式重复相同的介入操作。ITI显著提高了LLaMA模型在TruthfulQA基准测试上的性能。

利用知识图谱

KG(知识图谱)是包含关于实体(即人、地点或物体)、它们的特征以及它们之间的连接的详细信息的有组织的数据集。为复杂推理、数 据分析和信息检索提供了基础,也常用于缓解幻觉。

  • RHO:为应对对话响应生成中的幻觉挑战,RHO框架利用KG中实体与关系谓词表示生成更忠实的响应。引入局部与全局知识基础技术,并结合对话推理模型对响应进行重排序,该工作改进了知识与对话上下文的融合与交互,进一步减少幻觉。

  • FLEEK:是一个智能型、无模型偏置的工具,旨在帮助终端用户(如人类评分员)进行事实核查与修正。它具有友好的界面,能自动识别输入文本中的可验证事实,并查询精选知识图谱和开放网络收集证据。FLEEK还提供修正意见,其验证过程具有可解释性。

引入基于忠诚度的损失函数

本节讨论了一些评价体系,以衡量模型输出与输入数据或基本事实之间的相似程度。忠实度描述了模型在不添加错误、省略或扭曲的情况下,忠实地、正确地反映输入数据的能力。

  • 文本幻觉缓解(THAM)框架:通过引入信息论正则化,减轻了特征级幻觉效应。该框架包括从响应语言模型与幻觉语言模型互信息推导出的文本幻觉正则化损失。最小化此损失有助于减少不加区分的文本复制,提升对话性能。

  • 损失加权方法mFACT:用于评估非英语摘要的忠实度的框架,研究跨语言迁移环境中的幻觉问题,将mFACT应用于多语言LLMs摘要的忠实度研究。提出度量标准,将训练样本的损失根据其忠实度分数进行加权处理。

有监督微调

有监督微调在使用有标签数据使LLMs与下游任务对齐的过程中起着重要作用。在监督微调过程中,根据一个任务特定的损失函数计算的梯度调整LLM的权重,该损失函数衡量LLM的预测和实际标签之间的差异。

  • 知识注入和师生模型:本方法利用GPT-4等更强大的LLM来引导较弱的LLMs,通过领域微调的方式为较小的LLM注入知识,而无需依赖较强模型的昂贵指令。

  • 幻觉增强复述:该方法引入了LLMs中的属性概念,以控制信息来源并增强事实性。利用LLM幻觉创造对照数据集微调模型以增强模型属性,即使是在训练数据集和模型尺寸较小的情况下,也能超越在事实数据集上训练的模型。

  • 事实性微调:该方法采用自动事实检查方法和基于偏好的学习方法,在不需要人工标记的情况下对Llama-2模型进行了事实性微调,显著降低错误。

  • BEINFO:通过行为微调增加信息,寻求对话中生成的回应的忠实度。模型在包含真实知识来源的大量对话及从大型知识库中随机采样的事实的扩展上进行微调。

  • 拒绝意识指导调节(R-Tuning):该方法构建拒绝的训练数据,教会LLM在遇到超出其能力的问题时保持沉默。

  • 深思并有效表达知识 (TWEAK):该方法将每个步骤生成的序列及其后续序列视为假设,并根据每个生成候选者与输入事实相关的假设程度,利用假设验证模型(HVM)对其进行排名。该方法仅对解码过程进行微调,而无需重新训练生成模型。

结论

通过这篇文章,我们对目前大模型的幻觉消除技术有了一个初步的了解,为研究新的有效的幻觉消除技术奠定了基础。由于篇幅有限,具体的文献出处请从论文原文中获取。

你可能感兴趣的:(语言模型,人工智能,深度学习)