RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

本文是LLM系列文章,针对《RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION》的翻译。

RETROFORMER:具有策略梯度优化的回溯性大型语言代理

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 挑战
  • 4 直觉
  • 5 符号与公式
  • 6 我们的方法:强化回溯性语言代理
  • 7 实验
  • 8 结论

摘要

近几个月来,出现了一种强大的新趋势,即大型语言模型(LLM)被增强,成为能够独立执行面向目标的多步骤任务的自主语言代理,而不仅仅是响应人类用户的查询。然而,大多数现有的语言代理并没有使用特定于环境的奖励进行优化。尽管一些代理可以通过口头反馈进行迭代细化,但它们不会以与基于梯度的奖励学习兼容的方式进行推理和规划。本文介绍了一个通过学习回顾模型来增强大型语言代理的原则框架,该模型通过策略梯度从环境反馈中自动调整语言代理提示。具体而言,我们提出的代理架构从多个环境和任务的奖励中学习,以微调预训练的语言模型,该模型通过总结先前失败尝试的根本原因并提出行动计划来改进语言代理提示。在各种任务上的实验结果表明,语言代理会随着时间的推移而改进,并且我们的方法大大优于没有适当利用环境梯度的基线。这表明,使用策略梯度优化来改进语言代理(我们相信我们的工作是第一批)似乎很有前景,可以应用于优化代理体系结构中的其他模型,以随着时间的推移提高代理性能。

1 引言

2 相关工作

3 挑战

4 直觉

5 符号与公式

6 我们的方法:强化回溯性语言代理

7 实验

8 结论

在这项研究中,我们提出了Retroformer,这是一个通过学习插件回顾模型来迭代改进大型语言代理的优雅框架。该模型通过策略优化过程,自动细化提供给语言代理的带有环境反馈的提示。通过对HotPotQA等真实世界数据集的广泛评估,该方法已被证明可以随着时间的推移有效提高大型语言代理在学习速度和最终任务完成性能方面的性能。
通过将Actor LLM视为环境的一个组成部分,我们的策略梯度方法允许从来自不同环境和任务的任意奖励信号中学习。这有助于对语言代理体系结构中的特定组件(在我们的案例中是回顾模型)进行迭代细化,同时避免了访问Actor LLM参数或通过它传播梯度的需要。这种不可知的特性使Retroformer成为适用于不同类型云托管LLM(如GPT和Bard)的简洁且适应性强的插件模块。此外,我们的方法不仅限于单独增强回顾模型;它可以用于增强代理体系结构中的其他组件,如内存和摘要模块或actor提示符。通过选择性地关注要微调的组件,同时保持余数不变,我们提出的策略梯度方法允许使用从环境中获得的奖励信号对组件进行迭代改进。

你可能感兴趣的:(LLM,综述文章,人工智能,算法,深度学习)