引言
如果想要将强化学习技术应用在某个决策领域,最重要的就是将原始问题转换为一个合理的 MDP?(马尔科夫决策过程)问题,而一旦问题环境本身有一些不那么友好的”特性“(比如部分可观测,非平稳过程等等),常规强化学习方法的效果便可能大打折扣。另一方面,随着近些年来数据驱动范式的发展,大数据和预训练大模型在计算机视觉(Computer Vision)和自然语言处理(Natural Language Processing)领域大放异彩,比如 CLIP,DALL·E 和 GPT-3 等工作都取得了惊人的效果,序列预测技术便是其中的核心模块之一。但对于决策智能,尤其是强化学习(Reinforcement Learning),由于缺少类似 CV 和 NLP 中的大数据集和适合的预训练任务,决策大模型迟迟没有进展。
在这样的背景下,为了推进决策大模型的发展,提高相关技术的实际落地价值,许多研究者开始关注 Offline RL/Batch RL 这一子领域。具体来说,Offline RL是一种只通过离线数据集(Offline dataset)训练策略(Policy),在训练过程中不与环境交互的强化学习任务。那对于这样的任务,是否可以借鉴 CV 和 NLP 领域的一些研究成果,比如序列预测相关技术呢?
于是乎,在2021年,以 Decision Transformer[3]/Trajectory Transformer[1-2]为代表的一系列工作出现了,试图将决策问题归于序列预测,在诸多 Offline RL 基准数据集上都取得了令人惊艳的效果,展现出了通往决策大模型的潜力。
Decision Transformer(如何序列预测用来解决决策问题)
什么是序列建模(Sequence model)
DT(Decision Transformer)将 RL 看做一个序列建模问题(Sequence Modeling Problem),不同于传统 RL 方法的建模方法, DT 使用 Transformer 网络直接输出动作(Action)进行决策,从而避免了在 Offline RL 问题中显式的马尔可夫过程建模问题和数据 OOD(Out-of-distribution)导致的 Q-value 过估计问题。DT 在混合的离线训练轨迹数据集上训练序列模型(e.g., GPT/causal transformer),挖掘不同训练轨迹各自的优势,而在推理时,仅仅通过指定未来回报(Return-to-go)的方式,就可以获得最佳表现的轨迹。
具体来说,如下图所示:
- DT 首先将过去的状态,动作和未来回报(state, action, return-to-go)输入到数据模态相关神经网络中,提取相应的 linear embeddings,并为其添加时间位置编码(positional timestep encoding)。
- DT 接着把这些编码结果输入到 GPT/casual transformer 架构中,使用因果自注意掩码(causal self-attention mask)自回归地预测动作,并用数据中的标签监督式地进行训练。
Decision Transformer 这种序列建模方式的优势
1. 绕过长期信用分配过程中对于 bootstrapping的 需要。 2. 避免因折扣回报(discounted return)而产生的的短视行为(short-sighted behavior)。 3. 享受广泛应用于语言和视觉的 Transformer 模型,易于扩展不同规模和适应多模态数据。
Awesome Decision Transformer
由于 DT 在 Offline RL 问题中取得令人惊艳的效果,研究社区也在越来越多的关注于序列建模问题,由此诞生了下列这些研究方向: 1. 如何将 DT 模型用于更大规模的场景[4]。 2. 如何将 RL/MDP 的建模引入 DT 模型中[5-8]。 3. 如何将 CV,NLP 中关于 Transformer 的新技术应用到 DT 模型中[9]。 为了推动相关社区的发展,降低领域入门门槛,我们对 DT 的一些经典论文和前沿进展进行梳理,主要侧重?NeurIPS, ICLR, ICML 等机器学习顶会中的相关工作,相关论文列表已整理好放置于GitHub(https://github.com/opendilab/awesome-decision-transformer),并将会持续更新。
结语
我们将继续在 Awesome Decision Transformer 仓库中推进 DT 的研究进展,包括一些算法文章解读,并结合DI-engine?推出一系列 DT 相关的基准测试和代码。
同时也欢迎志同道合的小伙伴 Pull Request 相关工作,共同营造健康、可持续的学术生态。
Reference
- https://trajectory-transformer.github.io/
- Janner, Michael, Qiyang Li, and Sergey Levine. "Offline reinforcement learning as one big sequence modeling problem."?Advances in neural information processing systems?34 (2021): 1273-1286.
- Chen, Lili, et al. "Decision transformer: Reinforcement learning via sequence modeling."?Advances in neural information processing systems?34 (2021): 15084-15097.
- Lee, Kuang-Huei, et al. "Multi-Game Decision Transformers."?arXiv preprint arXiv:2205.15241(2022).
- Zheng, Qinqing, Amy Zhang, and Aditya Grover. "Online decision transformer."?International Conference on Machine Learning. PMLR, 2022.
- Paster, Keiran, Sheila McIlraith, and Jimmy Ba. "You Can't Count on Luck: Why Decision Transformers Fail in Stochastic Environments."?arXiv preprint arXiv:2205.15967?(2022).
- Villaflor, Adam R., et al. "Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning."?International Conference on Machine Learning. PMLR, 2022.
- Zeng, Catherine, et al. "Dreaming with Transformers."?AAAI Workshop on Reinforcement Learning in Games. 2022.
- Xu, Mengdi, et al. "Prompting decision transformer for few-shot policy generalization."?International Conference on Machine Learning. PMLR, 2022.
|