Large Language Models as Generalizable Policies for Embodied Tasks

本文是LLM系列文章,针对《Large Language Models as Generalizable Policies for Embodied Tasks》的翻译。

大型语言模型作为具体任务的可推广策略

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 语言重排问题
  • 5 实验
  • 6 结论

摘要

我们展示了大型语言模型(LLM)可以被调整为用于具体视觉任务的可推广策略。我们的方法被称为大型语言模型强化学习策略(LLaRP),它采用预先训练的冻结LLM,将文本指令和视觉自我中心的观察作为输入,并直接在环境中输出动作。通过强化学习,我们训练LLaRP只通过环境互动来观察和行动。我们证明了LLaRP对任务指令的复杂转述是鲁棒的,并且可以推广到需要新的最优行为的新任务。特别是,在1000个看不见的任务上,它实现了42%的成功率,是其他常见学习基线或LLM零样本应用的成功率的1.7倍。最后,为了帮助社区研究语言条件下的、大规模多任务的、具体化的人工智能问题,我们发布了一个新的基准,语言重排,包括150000个语言条件重排的训练和1000个测试任务。LLaRP在看不见的语言重排指令中的视频示例位于https://llm-rl.github.io.

1 引言

2 相关工作

3 方法

4 语言重排问题

5 实验

6 结论

我们介绍了LLaRP,这是一种在强化学习的具体任务中使用预训练LLM的方案。为了帮助我们的研究,我们引入了一个重排任务的数据集(由150k个训练指令和10个具有挑战性的评估数据集组成)。LLaRP在样本效率和泛化方面都优于非训练的transformer和基于LSTM的模型。它还显著优于使用最先进LLM的零样本基线。未来需要解决的限制包括RL设计决策,以支持比典型RL策略大得多的LLM,以及推广到语言表达的可变动作空间。

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理,强化学习)