论文评论:Chain-of-Note:增强检索增强语言模型的鲁棒性

      英文原文地址:https://artgor.medium.com/paper-review-chain-of-note-enhancing-robustness-in-retrieval-augmented-language-models-3b4e7fce188a

      2023 年 11 月 20 日

论文链接

论文评论:Chain-of-Note:增强检索增强语言模型的鲁棒性_第1张图片

检索增强语言模型(RALM)通过使用外部知识源来增强,但它们面临着检索不相关信息和无法使用其固有知识等挑战。他们还很难确定何时拥有足够的信息来获得准确的答案,而通常不会表明何时缺乏知识。为了改善这一点,引入了注释链(CON),它为检索到的文档生成顺序阅读笔记,以评估它们的相关性并将此评估整合到最终答案中。CON 使用 ChatGPT 作为训练数据进行开发,并应用于 LLaMa-2 7B 模型,显着提高了 RALM 在四个开放域 QA 基准上的性能。它在处理模型预训练知识之外的噪声文档和问题时特别有效,从而对未知场景带来更高的准确性和更好的拒绝率。

方法

背景

RALM 通过整合外部知识源代表了语言模型的进步。这些模型的工作原理是使用表示检索到的文档的辅助变量,根据输入查询和这些文档的内容生成响应。然而,由于潜在来源数量巨大,他们使用排名靠前的文档来近似响应生成过程。

尽管取得了进步,RALM 仍存在一些局限性:

  • 表面处理的风险:RALM 可能依赖于表面信息,而忽略了复杂或间接问题中的细微差别。
  • 处理矛盾信息的困难:当面对文件中的矛盾信息时,他们会陷入困境,发现解决这些矛盾或确定哪些信息更可信具有挑战性。
  • 透明度和可解释性降低:RALM 直接生成答案对决策过程的洞察力有限,使用户很难理解结论是如何得出的。
  • 对检索到的文档的过度依赖:RALM 可能过度依赖于检索到的文档的内容,可能会忽略模型的固有知识。这可能会产生问题,尤其是当文档有噪音或过时时。

笔记链框架

论文评论:Chain-of-Note:增强检索增强语言模型的鲁棒性_第2张图片

注释链框架通过增强 RALM 严格评估检索到的文档的能力来解决 RALM 的局限性。这是通过结构化笔记过程实现的,模型为每个文档生成简洁、相关的摘要。该方法可以系统地评估信息的相关性和准确性,从而提高响应质量。

在实践中,给定输入问题和检索到的文档,该模型会在合成最终响应之前为每个文档生成阅读笔记。CON 框架遵循三个关键步骤:

  • 笔记设计:CON 根据文档与查询的相关性构建阅读笔记。它直接从相关文档中回答,使用部分相关文档中的上下文推断答案,如果文档不相关或不足以回答,则默认为“未知”。
  • 数据收集:这些阅读笔记的训练数据是使用 ChatGPT 生成的。这涉及从 NQ 数据集中抽取 10k 个问题,并提示 ChatGPT 创建注释,然后通过人工评估进行评估。该模型的适应性在各种开放域数据集上得到进一步测试。
  • 模型训练:该模型基于 LLaMa-2 7B 架构,使用收集的数据进行训练。它学习生成与每个文档与输入查询的相关性相对应的阅读笔记。加权损失用于平衡阅读笔记和最终答案之间的焦点,确保答案的准确性和可靠性。

实验

论文评论:Chain-of-Note:增强检索增强语言模型的鲁棒性_第3张图片

结合密集通道检索 (DPR) 方法和具有检索功能的 LLaMa-2 模型的 RALM 始终优于单独的 LLaMa-2 模型。这种改进很大程度上归功于检索过程的有效性。值得注意的是,与 WebQ 相比,DPR 在 NQ 和 TriviaQA 数据集上表现出更好的检索性能,表明在这些数据集上检索的好处更明显。

此外,集成 CON 的增强型 RALM 的性能优于标准 RALM。所有数据集的精确匹配分数平均提高了 +1.97。CON 特别提高了 RALM 在最初检索到更多噪声文档的情况下的性能。

论文评论:Chain-of-Note:增强检索增强语言模型的鲁棒性_第4张图片

使用 CON 的 RALM 中的噪声鲁棒性评估是在两种情况下进行的:使用从实际查询中检索到的排名靠前的不相关文档(代表语义噪声)和使用来自维基百科的完全随机文档(总噪声)。在仅包含噪声文档的场景中,使用 CON 增强的 RALM 始终优于标准 RALM,三个开放域 QA 数据集的精确匹配分数平均提高了 +7.9。

论文评论:Chain-of-Note:增强检索增强语言模型的鲁棒性_第5张图片

当处理完全有噪声的文档时,标准 RALM 和使用 CON 增强的 RALM 的性能都比没有信息检索的原始 LLaMa-2 模型差,这表明容易受到误导性信息的影响。然而,CON 增强模型在没有信息检索的情况下几乎与 LLaMa-2 的性能相匹配,证明了其鲁棒性和忽略不相关数据的能力。

此外,作者观察到,标准 RALM 和具有 CON 的 RALM 在随机文档上的表现都比在语义噪声文档上表现得更好,这表明语义相关噪声更具欺骗性。

论文评论:Chain-of-Note:增强检索增强语言模型的鲁棒性_第6张图片

在比较标准 RALM 与 CON 增强的 RALM 的案例研究中,观察到信息处理和解释方面的明显差异。在一个案例中,问题与美国最近举办的夏季奥运会有关。标准 RALM 错误地关注了芝加哥最近申办 2016 年奥运会的情况,导致答案不准确。相比之下,RALM 和 CON 承认芝加哥申办失败,并正确得出美国最近一届奥运会举办于 1996 年的结论。

在另一个案例中,关于第一位 Jnanpith 奖获奖者的语言,标准 RALM 识别了获奖者,但未能将其与其作品的语言联系起来。然而,带有 CON 的 RALM 有效地综合了多个文档中的信息,正确地将马拉雅拉姆语识别为语言。这些案例凸显了 CON 增强型 RALM 在理解和整合各种来源的信息、避免表面细节并提供更细致和准确的结论方面的卓越能力。

你可能感兴趣的:(LLM,人工智能,语言模型,自然语言处理)