ExpeL: LLM Agents Are Experiential Learners

本文是LLM系列文章,针对《ExpeL: LLM Agents Are Experiential Learners》的翻译。

EXpeL:LLM代理是体验学习者

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 前言
  • 4 ExpeL:一个实验学习代理
  • 5 实验
  • 6 结论和不足

摘要

最近,通过利用大型语言模型中嵌入的广泛世界知识,将大型语言模型应用于决策任务的研究兴趣激增。虽然为自定义决策任务定制LLM的需求越来越大,但为特定任务微调LLM是资源密集型的,可能会削弱模型的泛化能力。此外,最先进的语言模型,如GPT-4和Claude,主要可以通过API调用访问,其参数权重仍然是专有的,对公众不可用。这种情况强调了对新方法的日益增长的需求,这种方法允许在不需要参数更新的情况下从代理体验中学习。为了解决这些问题,我们引入了体验式学习(ExpeL)代理。我们的代理使用自然语言从一系列训练任务中自主收集经验和提取知识。在推理时,代理人会回忆起自己提取的见解和过去的经历,以做出明智的决定。我们的实证结果突出了ExpeL代理强大的学习效能,表明随着经验的积累,其性能不断增强。我们通过定性观察和额外的实验进一步探索了ExpeL代理的新兴能力和迁移学习潜力。

1 引言

2 相关工作

3 前言

4 ExpeL:一个实验学习代理

5 实验

6 结论和不足

局限性
在这项工作中,我们只研究了具有文本观察的任务,这在现实世界的场景中是有限的。因此,结合图像观测将使我们的方法更具普遍适用性。因此,使用视觉语言模型或字幕模型来补充LLM以实现图像观察可能是一种有趣的新研究途径。此外,我们通过使用封闭源API LLM来研究我们的方法的有效性,这在某些应用中可能是不受限制的。使用开源LLM探索LLM代理应该是另一项有前景的未来工作。最后,由于我们提取的见解没有超过当前LLM的token限制,我们可以将它们放入代理的上下文窗口中。然而,对于真正的终身学习代理来说,可能需要额外的见解检索步骤,以确保可管理的上下文窗口大小。
总之,我们介绍了ExpeL,这是一种新型的学习LLM代理,它可以自主地从一组训练任务中收集经验,以提高其在不访问模型参数的情况下解决评估任务的能力。我们通过展示其与普通ReAct和Act代理相比的性能提升来展示其学习能力。此外,我们研究了一个迁移学习场景,在该场景中,从一组源任务中提取见解可以使ExpeL代理在解决目标任务时受益。最后,我们介绍了ExpeL代理在训练结束时开发的几种新兴能力。我们相信,从经验中自主学习对于开发类似人类的智能代理至关重要,我们的ExpeL代理是朝着这个目标迈出的一步。

你可能感兴趣的:(LLM,人工智能,语言模型)