【论文笔记】A Survey of Hallucination in “Large” Foundation Models

总述

基础模型(Foundation Models)指的是通过自监督学习在大量未标记数据上训练的大规模AI模型,能够在各种各样的任务中表现出色。
在基础模型的背景下,幻觉(Hallucination)是指模型生成的内容不是基于事实或准确信息的情况。当模型生成的文本包括虚构的、误导性的、或完全捏造的细节、事实或主张,而不是提供可靠和真实的信息时,就会发生幻觉。
之所以会出现这个问题,是因为模型能够根据它从训练数据中学习到的模式生成听起来可信的文本,即使生成的内容与现实不符。幻觉可能是无意的,可能是由各种因素造成的,包括训练数据中的偏差、模型无法获取实时或最新的信息,或模型在理解和生成上下文准确的响应方面的固有局限性。
文章将大模型分为以下四类:文本,图像,视频,音频
【论文笔记】A Survey of Hallucination in “Large” Foundation Models_第1张图片

文本

数据集

对于解决大模型的幻觉问题,首先介绍可以用来评估的数据集:

包含三个问答数据集的hallucination snowballing,其中每个数据集的答案始终为“是”或“否”:

  • 航班数据集为“否”(永远不会有转机航班序列)
  • 素数据集为“是”(所有数字都是素数)
  • 参议员数据集为“否”(没有参议员同时满足这两个要求:来自特定州并上过特定大学)

HaluEval是一个综合基准集,旨在评估LLM中的幻觉。包括 5000 个带有 ChatGPT 响应的一般用户query和来自问答(HotpotQA)、基于知识的对话(OpenDialKG)和文本摘要(CNN/Daily Mail)三个任务的 30,000 个特定于任务的示例。

Med-HALT是医学领域幻觉测试的数据集。其包括一个来自不同国家的医学检查多国数据集,并包括创新的测试方法。Med-HALT由两类测试组成:推理和基于记忆的幻觉测试,旨在评估LLM在医疗环境中解决问题和信息检索的能力。

相关方法

使用外部知识缓解幻觉

这部分可以参考RAG相关内容:https://potato-workspace.notion.site/potato-workspace/RAG-e55cf4c487c147fbbb824ffb6b899e49【论文笔记】A Survey of Hallucination in “Large” Foundation Models_第2张图片
检索+生成的方式

使用提示技术来缓解幻觉

即通过迭代优化prompt来进一步指导生成

特定领域的LLM

医学、银行、金融、法律和临床等关键任务领域的幻觉是指产生或感知虚假或不准确信息的情况,可能导致严重后果。在这些领域内,可靠性和准确性至关重要,任何形式的幻觉,无论是在数据、分析还是决策中,都可能对结果和运营产生重大和有害的影响。
法律:ChatLaw中包含少部分demo数据。【论文笔记】A Survey of Hallucination in “Large” Foundation Models_第3张图片

图像

视频

音频

你可能感兴趣的:(笔记,论文阅读)