【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

论文标题及作者信息截图

这篇论文最开始是15年提出来的，但最新的修订版本是17年的，下文所有内容都以17年版本为主。

所解决的问题？

如题目中所述，作者解决的就是部分可观测马尔可夫决策过程 (Partially-Observable Markov Decision Process (POMDP)) 中难以获得全部的可观测信息这个问题。

POMDP 数学模型描述

主要就是对DQN做一个改进，变成了Deep Recurrent Q-Network (DRQN)。中国有句古话叫前因后果，DQN中一般取4帧图像数据，对序贯状态的割裂程度比较厉害，往往很难考虑到很久之前的状态对现在的影响，而有些问题却又得考虑周全。

部分可观测游戏

作者采用Hochreiter 和 Schmidhuber 1997年提出来的Long Short Term Memory (LSTM)结合DQN来解决这个部分可观测的问题。

其网络结构如下所示：

DRQN 网络结构

由于网络里面有LSTM，作者主要考虑了两种更新方式：Bootstrapped Sequential Updates和Bootstrapped Random Updates。

这两种更新方式的区别在于隐含状态是否清零。每个Episode更新的话能学到更多的东西，而随机的话更符合DQN中随机采样的思想。这两种方法的实验结果是非常相似的。作者文中采用的是随机采样的方式，期望它具有更强的泛化能力。

部分可观测环境：在每个timestep，游戏图像都会以0.5的概率模糊化。这里作者给出了两个结果，一个最好的和一个最差的。

DRQN 实验结果

作者还提出了一个问题：直接在MDP框架下训练的强化学习算法，能否直接泛化到POMDP上面呢？实验结果如下所示：

MDP到POMDP泛化测试结果

从上述结果可以看出，DRQN的泛化能力比DQN的鲁棒性要好很多。这也就说明用了LSTM不仅能处理POMDP并且性能、鲁棒性都较DQN会有所提升。

这是一篇15年发表在national conference on artificial intelligence上的一篇文章。作者Matthew Hausknecht是得克萨斯大学奥斯汀分校（University of Texas at Austin）的博士，目前是微软的高级研究员。

Matthew Hausknecht

作者也不是这篇文章的思想创始人，早在文献1：2007年Wierstra就有将LSTM用于解决部分可观测马尔可夫决策框架下的论文，但是是用在Policy Gradient的方法下，并且DRQN还结合了卷积神经网络一起训练，避免了手工提取特征。

文献2：在2001年的时候，Bakker在cartpole任务下实验了，LSTM解决POMDP是要比RNN要好的。

Wierstra, D.; Foerster, A.; Peters, J.; and Schmidthuber, J. 2007. Solving deep memory POMDPs with recurrent policy gradients.
Bakker, B. 2001. Reinforcement learning with long shortterm memory. In NIPS, 1475–1482. MIT Press.

我的微信公众号名称：深度学习与先进智能决策
微信公众号ID：MultiAgent1024
公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！