增强检索增强生成模型的可靠性和可追溯性

大型语言模型 (LLM)表现出了卓越的能力,但也存在幻觉、缺乏领域适应性和缺乏持续学习等问题。当它们必须处理知识密集型任务时,这些问题更加明显。解决这些问题的方法之一(或至少是部分解决方案)是在 LLM 上下文中提供相关信息(插入提示中)。该系统通常是检索增强生成 (RAG)。该系统已被证明能够减少幻觉并改善反应。

然而,可靠性和可追溯性仍然存在局限性。事实上,上下文幻觉仍然会出现,有时找不到正确的上下文。如果上下文嘈杂,LLM 生成可能会受到影响。事实上,不相关信息的存在会混淆 LLM 及其提取相关信息进行生成的能力。其次,LLM 不包含生成过程中使用了哪些来源,这使得验证使用了哪些来源变得更加复杂。

在预训练阶段,LLM 专注于获取知识。毕竟,模型是以自回归方式训练的,目的是预测序列中的下一个单词。因此,LLM 并非专门为推理而训练的,但这在训练过程中会出现(好像我们可以称之为训练和上下文学习的副作用)。虽然我们在使用 RAG 时没有对其进行推理训练,但我们感兴趣的是它解释上下文并使用此信息进行响应的能力(因此我们对预训练期间获得的知识不太感兴趣)。

然后,我们可以思考如何调整模型的能力,对发现的上下文进行推理,并学习如何提取信息。从某种意义上说,进行额外的后训练步骤,以专注于我们感兴趣的系统功能。

我们如何调整模型来推理上下文?

你可能感兴趣的:(人工智能,ai,开发语言,机器学习,语言模型)