Decision Transformer 前沿追踪——万物皆可归于序列预测

引言

如果想要将强化学习技术应用在某个决策领域,最重要的就是将原始问题转换为一个合理的 MDP (马尔科夫决策过程)问题,而一旦问题环境本身有一些不那么友好的”特性“(比如部分可观测,非平稳过程等等),常规强化学习方法的效果便可能大打折扣。另一方面,随着近些年来数据驱动范式的发展,大数据和预训练大模型在计算机视觉(Computer Vision)和自然语言处理(Natural Language Processing)领域大放异彩,比如 CLIP,DALL·E 和 GPT-3 等工作都取得了惊人的效果,序列预测技术便是其中的核心模块之一。但对于决策智能,尤其是强化学习(Reinforcement Learning),由于缺少类似 CV 和 NLP 中的大数据集和适合的预训练任务,决策大模型迟迟没有进展。


在这样的背景下,为了推进决策大模型的发展,提高相关技术的实际落地价值,许多研究者开始关注 Offline RL/Batch RL 这一子领域。具体来说,Offline RL是一种只通过离线数据集(Offline dataset)训练策略(Policy),在训练过程中不与环境交互的强化学习任务。那对于这样的任务,是否可以借鉴 CV 和 NLP 领域的一些研究成果,比如序列预测相关技术呢?


于是乎,在2021年,以 Decision Transformer[3]/Trajectory Transformer[1-2]为代表的一系列工作出现了,试图将决策问题归于序列预测,在诸多 Offline RL 基准数据集上都取得了令人惊艳的效果,展现出了通往决策大模型的潜力。

Decision Transformer(如何序列预测用来解决决策问题)

什么是序列建模(Sequence model)

DT(Decision Transformer)将 RL 看做一个序列建模问题(Sequence Modeling Problem),不同于传统 RL 方法的建模方法, DT 使用 Transformer 网络直接输出动作(Action)进行决策,从而避免了在 Offline RL 问题中显式的马尔可夫过程建模问题和数据 OOD(Out-of-distribution)导致的 Q-value 过估计问题。DT 在混合的离线训练轨迹数据集上训练序列模型(e.g., GPT/causal transformer),挖掘不同训练轨迹各自的优势,而在推理时,仅仅通过指定未来回报(Return-to-go)的方式,就可以获得最佳表现的轨迹。

具体来说,如下图所示:

  1. DT 首先将过去的状态,动作和未来回报(state, action, return-to-go)输入到数据模态相关神经网络中,提取相应的 linear embeddings,并为其添加时间位置编码(positional timestep encoding)。
  2. DT 接着把这些编码结果输入到 GPT/casual transformer 架构中,使用因果自注意掩码(causal self-attention mask)自回归地预测动作,并用数据中的标签监督式地进行训练。

Decision Transformer 前沿追踪——万物皆可归于序列预测_第1张图片


Decision Transformer 这种序列建模方式的优势

1. 绕过长期信用分配过程中对于 bootstrapping的 需要。
2. 避免因折扣回报(discounted return)而产生的的短视行为(short-sighted behavior)。
3. 享受广泛应用于语言和视觉的 Transformer 模型,易于扩展不同规模和适应多模态数据。

Awesome Decision Transformer

由于 DT 在 Offline RL 问题中取得令人惊艳的效果,研究社区也在越来越多的关注于序列建模问题,由此诞生了下列这些研究方向:
1. 如何将 DT 模型用于更大规模的场景[4]。
2. 如何将 RL/MDP 的建模引入 DT 模型中[5-8]。
3. 如何将 CV,NLP 中关于 Transformer 的新技术应用到 DT 模型中[9]。
为了推动相关社区的发展,降低领域入门门槛,我们对 DT 的一些经典论文和前沿进展进行梳理,主要侧重 NeurIPS, ICLR, ICML 等机器学习顶会中的相关工作,相关论文列表已整理好放置于GitHub(https://github.com/opendilab/awesome-decision-transformer),并将会持续更新。

结语

我们将继续在 Awesome Decision Transformer 仓库中推进 DT 的研究进展,包括一些算法文章解读,并结合DI-engine 推出一系列 DT 相关的基准测试和代码。

同时也欢迎志同道合的小伙伴 Pull Request 相关工作,共同营造健康、可持续的学术生态。

Reference

  1. https://trajectory-transformer.github.io/
  2. Janner, Michael, Qiyang Li, and Sergey Levine. "Offline reinforcement learning as one big sequence modeling problem." Advances in neural information processing systems 34 (2021): 1273-1286.
  3. Chen, Lili, et al. "Decision transformer: Reinforcement learning via sequence modeling." Advances in neural information processing systems 34 (2021): 15084-15097.
  4. Lee, Kuang-Huei, et al. "Multi-Game Decision Transformers." arXiv preprint arXiv:2205.15241(2022).
  5. Zheng, Qinqing, Amy Zhang, and Aditya Grover. "Online decision transformer." International Conference on Machine Learning. PMLR, 2022.
  6. Paster, Keiran, Sheila McIlraith, and Jimmy Ba. "You Can't Count on Luck: Why Decision Transformers Fail in Stochastic Environments." arXiv preprint arXiv:2205.15967 (2022).
  7. Villaflor, Adam R., et al. "Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning." International Conference on Machine Learning. PMLR, 2022.
  8. Zeng, Catherine, et al. "Dreaming with Transformers." AAAI Workshop on Reinforcement Learning in Games. 2022.
  9. Xu, Mengdi, et al. "Prompting decision transformer for few-shot policy generalization." International Conference on Machine Learning. PMLR, 2022.

你可能感兴趣的:(OpenDILab,transformer,深度学习,人工智能)