Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework

本文是LLM系列文章,针对《Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework》的翻译。

验证与编辑:一个知识增强的思想链框架

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 验证和编辑框架
  • 4 实验设置
  • 5 结果与分析
  • 6 结论
  • 局限性

摘要

由于大型语言模型(LLM)已成为NLP中的规范,在生成和推理任务中表现出良好的性能,其最致命的缺点之一是缺乏事实的正确性。生成不真实的文本不仅会降低性能,还会降低应用程序的信任度和有效性。Chainof Thought(CoT)提示通过生成可解释的推理链来提高复杂推理任务的信任和模型性能,但在知识密集型任务中仍然存在真实性问题。在本文中,我们提出了CoT提示的验证和编辑框架,该框架旨在根据外部知识通过编辑后的推理链来提高预测的真实性。在GPT-3的基础上,我们的框架提高了多个开放域问答任务的准确性。为了重现我们的结果并进一步扩展框架,我们在https://github.com/RuochenZhao/Verify-andEdit开源了代码。

1 引言

2 相关工作

3 验证和编辑框架

4 实验设置

5 结果与分析

6 结论

在本文中,我们介绍了一个用于开放域问答的验证和编辑框架。这是首次尝试后编辑CoT风格的推理链,以获得更好的最终任务性能。通过将知识检索与推理相结合,该框架以自然和对话的方式编辑CoTs,增强了预测的真实性。结合谷歌搜索,该框架还展示了一个很有前途的方向,将最先进的LLM的开放生成能力与搜索引擎提供的最新事实相结合。

局限性

目前的框架有一些局限性。首先,验证和编辑最适用于需要复杂推理的开放域问答任务。不太复杂的数据集或不需要知识检索的常识性数据集可能不会带来很高的改进。其次,编辑一组大多数不正确的样本是最理想的,我们试图通过一致性来选择这些样本。因此,我们的方法依赖于一致性方法的性能及其区分正确和不正确预测的能力。大多数情况下,它可以通过一组更具挑战性的例子来证明更大的改进。
为了解决这些局限性,我们计划减少基本原理编辑阶段带来的噪音,并利用更多的知识资源,如知识库,作为后续行动。

你可能感兴趣的:(LLM,知识图谱,语言模型,人工智能)