Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)笔记

Deep Recurrent Q-Learning for Partially Observable MDPs

1. 论文讲了什么/主要贡献是什么

传统DQN主要面型MDP的环境,在Atari环境中进行测试的过程中也是采取的输入多个帧的形式,使模型输入的观测能够体现出系统的状态。但现实中大部分都是部分可观测的情况——POMDP,本文在DQN的基础上,结合循环神经网络的特性,将LSTM与DQN结合,设计出DRQN,从而能够解决部分可观测的问题,在测试中也只需要输入一帧的观测信息即可。

2. 论文摘要:

Deep Reinforcement Learning has yielded proficient controllers for complex tasks. However, these controllers have limited memory and rely on being able to perceive the complete game screen at each decision point. To address these shortcomings, this article investigates the effects of adding recurrency to a Deep Q-Network (DQN) by replacing the first post-convolutional fully-connected layer with a recurrent LSTM. The resulting Deep Recurrent Q-Network (DRQN), although capable of seeing only a single frame at each timestep, successfully integrates information through time and replicates DQN’s performance on standard Atari games and partially observed equivalents featuring flickering game screens. Additionally, when trained with partial observations and evaluated with incrementally more complete observations, DRQN’s performance scales as a function of observability. Conversely, when trained with full observations and evaluated with partial observations, DRQN’s performance degrades less than DQN’s. Thus, given the same length of history, recurrency is a viable alternative to stacking a history of frames in the DQN’s input layer and while recurrency confers no systematic advantage when learning to play the game, the recurrent net can better adapt at evaluation time if the quality of observations changes.

深度强化学习已经能够训练出在复杂任务上的熟练控制器。但是,这些控制器的内存有限,依赖于能够在每个决策点感知整个游戏屏幕。为了解决这个缺点,文章在DQN中添加循环的效果——将最后一个卷积层后的全连接层替换为一个循环LSTM。由此得到了深度循环Q网络,虽然在每一步只能看到一个帧,但是通过成功地整合了经历时间内的信息,实现了DQN在标准Atari游戏上的表现和部分观可观测的等价情况——提取具有闪烁游戏屏幕上的特征上的表现。此外,当使用部分观测进行训练并使用逐步增加的更完整的观测进行评估时,DRQN的性能随着可观测性的变化而变化。相反,当用完整的观测训练和用部分观测评估时,DRQN的性能下降小于DQN。因此,在给定相同长度的观测历史后,循环是DQN输入层存储历史帧的一个可行的替代,虽然循环在学习玩游戏的过程中没有系统上的优势,但是循环网络能够更好的适应在测试阶段内观测质量的变化。

3. 论文主要观点:

3.1 背景:

DQN学习的是一个从一定数量的过去状态或Atari 2600游戏中的屏幕显示到价值的映射。在实际中,DQN使用的是过去代理遇到的四个状态作为输入。因此,DQN在需要代理记住多于四个屏幕显示的游戏中表现不好。在这种情况下,状态也不再具有马尔科夫性,因为下一状态不只依赖于当前状态。这时,这个游戏就变为了一个部分可观测马尔科夫决策过程(POMDP)。

真实世界的任务常常由于部分可观测性而导致状态信息不完整且有噪声。在POMDPs问题上,DQN的性能下降,文章基于这个问题假设利用循环神经网络能够提高DQN在POMDPs问题上的性能。因此提出了深度循环Q网络(DRQN),将LSTM和DQN结合。并证明了DRQN能够处理部分可观测问题,并且当使用完全可观测场景进行训练并用部分可观测场景进行评估的情况下,DRQN能够比DQN更好的处理损失信息。因此,循环在观测性下降后能够带来收益。

3.2 问题:

真实的环境中,很少有系统的完整状态可以提供给代理,甚至无法确定。换句话说,马尔可夫特性在现实世界环境中很少成立。POMDP能够更好的描述真实环境中的情况,代理只能够观测到目前系统状态的一部分。POMDP由一个六元组表示 ( S , A , P , R , Ω , O ) (S, A, P, R, \Omega, O) (S,A,P,R,Ω,O),其中前四个分别表示状态、动作、转移概率和奖励,但代理不再能够直接观测到 s s s,而是得到观测 o ∈ Ω o\in \Omega oΩ,这个观测是由系统状态获得的 o ∼ O ( s ) o \sim O(s) oO(s)。DQN只有在观测能够完全反应系统状态的情况下才能有效。而在更一般的情况下,直接有观测得到价值效果会很差,因为 Q ( o , a ∣ θ ) ≠ Q ( s , a ∣ θ ) Q(o, a|\theta) \neq Q(s, a|\theta) Q(o,aθ)=Q(s,aθ)

3.3 方法:

将DQN第一个全连接层替换为循环LSTM层。

Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)笔记_第1张图片

稳定的循环更新:

  1. 自举连续更新:从回放内存中随机采样得到多个回合,从每个回合的开始对网络进行更新,一直向前,直到回合的结束。每一步的目标值由目标Q网络 Q ^ \hat{Q} Q^得到。RNN的隐藏状态在整个回合中一直传播。
  2. 自举随机更新:相似,但只更新展开迭代步长(unroll iterations)。在每次更新的开始将RNN初始状态置零。

连续的更新有一个优点,那就是从事件一开始就将LSTM的隐藏状态向前推进。然而,对整个回合的连续采样违反了DQN的随机采样策略。
随机更新更好地遵循随机抽样体验的策略,但是LSTM的隐藏状态必须在每次更新开始时被归零。但是将隐藏状态置零使LSTM很难学习到跨越比反向传播能够达到的时间步数更长时间跨度的函数。

实验表明,这两种类型的更新都是可行的,并产生了收敛策略,在一组游戏中具有相似的性能。因此,为了限制复杂性,本文所有结果都使用随机更新策略。

3.4 结论:

在现实环境中,由于噪声的原因,通常是局部可观测的。本文通过将LSTM和DQN相结合设计了DRQN,用于解决观测带有噪声的情况——POMDPs。DRQN在每一步的输入只是一帧的观测,仍然能够将多帧的信息结合到的像物体的速度等信息。并且经过测试,在局部可观测环境中,DRQN的性能优于DQN。并且DRQN随着环境可观测性的提升,性能也会提升。当使用标准Atari游戏训练(完全可观测),用闪屏的游戏测试(部分可观测),DRQN的性能优于DQN。泛化性能很好。但同时也有一些游戏,应用循环并没有提升,与DQN性能类似,这表明DRQN相比于在输入层输入多个观测的方式并没有系统上的优势。

你可能感兴趣的:(论文阅读笔记)