决策Transformer:通过序列建模的强化学习

决策Transformer:通过序列建模的强化学习

[Submitted on 2 Jun 2021]

决策Transformer:通过序列建模的强化学习_第1张图片

 

关注人工智能学术前沿 回复 :ts23

5秒免费获取论文pdf文档,及项目源码

 

摘要

我们引入了一个将强化学习(RL)抽象为序列建模问题的框架。这使我们能够利用Transformer体系结构的简单性和可伸缩性,以及诸如GPT-x和BERT等语言建模方面的相关经验。我们提出了决策Transformer,一个将RL问题转换为条件序列建模的体系结构。不同于之前的RL方法,它适合值函数或计算策略梯度,Decision Transformer只是通过利用随机屏蔽Transformer输出最优操作。通过将自回归模型设置在期望的回报(奖励)、过去的状态和行动上,我们的Decision Transformer模型可以生成实现期望回报的未来行动。尽管简单,Decision Transformer匹配或超过了最先进的RL基线在Atari, OpenAI Gym和Key-to-Door任务上的性能。

 

1.介绍

 

鉴于Transformer模型的成功应用的多样性,我们试图检验它们在形式化为强化学习(RL)的序列决策问题中的应用。我们试图研究并生成式轨迹建模,即对状态、行动和奖励序列的联合分布进行建模,是否可以替代传统的RL算法。

说明性的例子。为了直观地理解我们的建议,考虑在有向图上寻找最短路径的任务,它可以被视为一个RL问题。当代理在目标节点时奖励为0,否则奖励为1。我们训练GPT[9]模型来预测一系列的回报(未来回报的总和)、状态和行动中的下一个令牌。在没有专家演示的情况下,只对随机行走数据进行训练,我们可以在测试时间通过添加一个先验来产生可能的最高回报(详见附录),并随后通过条件反射产生相应的行动序列来生成最佳轨迹。因此,通过将序列建模工具与后见回报信息相结合,我们在不需要动态规划的情况下实现了政策改进。

决策Transformer:通过序列建模的强化学习_第2张图片

 

图2:为固定图(左)寻找最短路径作为强化学习的示例。训练数据集由随机行走轨迹及其每个节点的返回值(中间)组成。基于一个开始状态和在每个节点产生最大可能的返回,决策转换器序列最优路径。

决策Transformer:通过序列建模的强化学习_第3张图片

 

基于这一观察结果,我们提出了Decision Transformer,其中我们使用GPT架构来自回归模型轨迹(如图1所示)。我们研究序列建模是否可以通过在Atari[10]、OpenAI Gym[11]、RL离线基准上评估Decision Transformer来执行策略优化。Key-to-Door[12]环境。我们证明,在不使用动态规划的情况下,Decision Transformer匹配或超过了最新RL算法的性能[13,14]。此外,在需要长期信用分配的任务中,Decision Transformer能够出色地优于RL基线。通过这项工作,我们的目标是将序列建模和转换器与RL连接起来,并希望序列建模能够成为RL的一个强大的算法范式。

 

2.实验概述

 

在本节中,我们研究了Decision Transformer相对于专用离线RL和模仿学习算法的性能。特别是,我们的主要比较点是基于TD-learning的无模型脱机RL算法,因为我们的Decision Transformer架构本质上也是无模型的。此外,TD-learning是RL中用于提高样本效率的主要范式,也是许多基于模型的RL算法的一个子例程[16,17]。我们还比较了行为克隆和变异,因为它也涉及到类似于我们的基于可能性的策略学习制定。具体的算法取决于环境,但我们的动机如下:

 

TD learning:这些方法大多使用行动空间约束或价值悲观主义,将是最忠实的Decision Transformer,代表标准的RL方法。最先进的无模型方法是Conservative Q-Learning (CQL)[14],它作为我们的主要比较。此外,我们还比较了其他的无模型RL算法,如BEAR[18]和BRAC[19]。

 

Imitation learning:这种方法同样使用监督损失进行训练,而不是Bellman备份。我们在这里使用行为克隆,并在第5.1节中包含更详细的讨论。我们对离散控制任务(Atari[10])连续控制任务(OpenAI Gym[11])进行了评估。前者涉及高维的观察空间,需要长期的信用分配,而后者需要细粒度的连续控制,代表一组不同的任务。

决策Transformer:通过序列建模的强化学习_第4张图片

 

图3总结了我们的主要结果,其中显示了每个领域的平均标准化性能。

 

总结

 

我们提出了Decision Transformer,寻求统一的思想在语言/序列建模和强化学习。在标准的脱机RL基准测试中,我们展示了Decision Transformer可以匹配或优于为脱机RL显式设计的强大算法,只需要对标准语言建模架构进行最小的修改。
我们希望这项工作能启发更多的研究使用大型Transformer模型的RL。在我们的实验中,我们使用了一个简单的监督损失,这是有效的,但是在大规模数据集的应用可以从自我监督的训练前任务中受益。此外,还可以考虑更复杂的回报、状态和操作嵌入,例如,以回报分布为条件来建模随机设置,而不是确定性回报。变压器模型也可以用于轨迹的状态演化建模,有可能成为基于模型的RL的替代方法,我们希望在未来的工作中对此进行探索。
对于现实世界的应用,重要的是理解变压器在MDP设置和可能的负面后果的错误类型,这是未充分探索。考虑我们用来训练模型的数据集也很重要,它可能会潜在地增加破坏性的偏差,特别是当我们考虑使用更多可疑来源的数据来研究增强RL代理时。例如,恶意的行为者的奖励设计可能会产生意想不到的行为,就像我们的模型通过设定期望回报来产生行为一样。

你可能感兴趣的:(深度学习,机器学习)