在强化学习中 [e.g. 37],agent 通过状态 s t ∈ S s_t \in \mathcal{S} st∈S ;动作 a t ∈ A a_t \in \mathcal{A} at∈A;和奖励 r t + 1 ∈ R r_{t+1} \in \mathbb{R} rt+1∈R 序列与环境交互;agent的策略 π ( a t ∣ s t ) \pi(a_t|s_t) π(at∣st) 决定了动作 a t a_t at 的概率分布。agent的目标是学习最大化期望折扣收益 R t = ∑ τ = 1 T − t γ τ − 1 r t + τ R_t = \sum_{\tau=1}^{T-t}\gamma^{\tau-1}r_{t+\tau} Rt=∑τ=1T−tγτ−1rt+τ 的策略,其中 T T T 是每个轨迹结束的时间步, γ ∈ ( 0 , 1 ] \gamma\in (0,1] γ∈(0,1] 是折扣率。agent在状态 s t s_t st 处执行动作 a t a_t at ,使得状态转换到 s t + 1 s_{t+1} st+1
具有确定性(deterministic)状态转换和奖励的环境在日常经验中很常见。例如,当你退出房间然后返回时,你通常会到达原先的房间。RL算法或大脑可以利用自然环境的这种特性。然而,大多数现有的可扩展深度强化学习算法(例如 DQN [23] 和 A3C [22])并没有这样做。它们的设计考虑了更一般的环境。因此,原则上,它们可以在状态转移和奖励方面具有高度随机性的设置下运作。 这种普适性是以更长的学习时间为代价的。DQN 和 A3C 都试图找到最大化期望收益的策略。而评估预期回报时,需要许多样本才能获得准确的估计。此外,梯度下降学习进一步减慢了这些算法的速度,通常与在环境中采取行动的速度同步。
考虑到现实世界中普遍存在这种确定性情形(near-deterministic situations),如果大脑不采用专门的学习机制来利用这种结构,从而在这种情况下更快地学习,那将是令人惊讶的。我们在这里提出的基于实例的记忆性学习(hippocampal instance-based learning)的 episodic controller 模型就是这样一种机制。它是一个非参数模型(non-parametric model),可以快速记录和重放迄今为止从给定开始状态产生最高回报的动作序列。在最简单的形式中,它是一个增长表(growing table),由状态和动作作为索引。类似RL的价值函数,我们把该表表示为 Q E C ( s , a ) Q^{EC}(s,a) QEC(s,a)。 每个条目包含通过从状态 s s s 采取行动 a a a 获得的最高回报。
对于给定状态,episode control policy 为从 Q E C Q^{EC} QEC 中具有最高价值的动作。在每个轨迹结束时, Q E C Q^{EC} QEC 根据收到的回报进行以下更新
Q E C ( s t , a t ) ← { R t , i f ( s t , a t ) ∉ Q E C m a x { Q E C ( s t , a t ) , R t } , o t h e r w i s e (1) Q^{EC}(s_t,a_t) \leftarrow \left\{ \begin{aligned} &R_t && ,if (s_t,a_t) \notin Q^{EC}\\ &max\{Q^{EC}(s_t,a_t),R_t\} &&,otherwise \end{aligned} \right. \tag1 QEC(st,at)←{Rtmax{QEC(st,at),Rt},if(st,at)∈/QEC,otherwise(1)
这里 R t R_t Rt 是在 s t s_t st 处执行动作 a t a_t at 后获取的折扣收益(discounted return),注意(1)式不是一个通用RL学习目标,因为 Q E C Q^{EC} QEC 中存储的价值永远不会减少,不适用于在随机性环境(stochastic environments)下选择合理动作(rational action)
表格型 RL 方法有两个关键缺陷:
为了解决第一个问题,我们设定一个表格尺寸上限,在达到上限时删除最近最少更新的条目,从而限制表的大小。 这种对较旧的、不常访问的记忆的遗忘也发生在大脑中 [8]。
在大规模 RL 问题(例如现实生活)中,新的状态很常见;现实世界一般来说也有这个属性。为了解决新状态下该做什么以及如何在常见经验中概括价值的问题,我们将 Q E C Q^{EC} QEC 作为一个非参数化的最近邻模型(non-parametric nearest-neighbours model)。让我们假设状态空间 S \mathcal{S} S 中存在距离度量。对于从未访问过的状态,通过对 k 个最近状态的 Q E C Q^{EC} QEC 价值求平均来近似其 Q E C Q^{EC} QEC 价值。因此,如果 s 是一个新状态,那么 Q E C Q^{EC} QEC 估计为
Q E C ^ ( s , a ) = { 1 k ∑ i = 1 k Q E C ( s ( i ) , a ) i f ( s , a ) ∉ Q E C Q E C ( s , a ) o t h e r w i s e (2) \hat{Q^{EC}}(s,a) = \left\{ \begin{aligned} &\frac{1}{k}\sum_{i=1}^k Q^{EC}(s^{(i)},a) && if (s,a) \notin Q^{EC}\\ &Q^{EC}(s,a) &&otherwise \end{aligned} \right. \tag2 QEC^(s,a)=⎩⎪⎪⎨⎪⎪⎧k1i=1∑kQEC(s(i),a)QEC(s,a)if(s,a)∈/QECotherwise(2)
其中 s ( i ) , i = 1 , 2 , . . . , k s(i),i=1,2,...,k s(i),i=1,2,...,k 是与状态 s s s 最近邻的 k 个状态
算法 1 描述了 model-free episodic control 的最基本形式。该算法有两个阶段。
episodic controller 根据 Q E C Q^{EC} QEC 中记录的折扣收益采取行动,试图重放成功的动作序列并重现过去的成功。因此,存储在 Q E C ( s , a ) Q^{EC}(s,a) QEC(s,a) 中的值不对应于预期回报的估计,而是基于所看到的状态、奖励和行动,对给定状态和行动的最高潜在回报的估计。在利用比探索更重要,且环境中的噪音相对较小的情况下,根据这样的价值函数运算和行动很有用。
在大脑中,海马体对一种表征(representation)进行操作,其中尤其包括腹侧流(ventral stream)的输出 [3, 15, 38]。因此,它有望沿着该表示空间的维度进行泛化 [19]。类似地,特征映射函数 ϕ \phi ϕ 对 episodic control 算法遇到新状态时如何执行发挥着关键作用。
虽然可以使用原始观察空间(observation space),但这在实践中可能行不通。例如,我们在第 4 节中考虑的环境中的每一帧将占用大约 28 KB 的内存,实验总共需要超过 300 GB 的内存。相反,我们考虑将两种不同的观察-状态空间映射函数 ϕ \phi ϕ,每个 ϕ \phi ϕ 在设置 Q E C Q^{EC} QEC 估计器的归纳偏差时都具有非常独特的属性。
减少内存和计算需求的一种方法是使用从原始观测空间到较低维空间的随机投影,即 ϕ : x → A x , A ∈ R F × D , F ≪ D \phi : x \to \pmb{A}x, \pmb{A} \in \mathbb{R}^{F\times D},F\ll D ϕ:x→AAAx,AAA∈RF×D,F≪D,其中 D 是观测的维度。对于从标准高斯分布抽取条目组成的随机矩阵 A \pmb{A} AAA,Johnson-Lindenstrauss 引理意味着这种变换近似地保留了原始空间中的相对距离 [10]。我们希望这种表示可以使原始观察空间的微小变化对应于潜在收益(return)的微小变化。
对于某些环境,观测空间的许多方面与价值预测无关。例如3D 环境中的照明和纹理表面(第 4 节中的迷宫)、2D 环境中的滚动背景(第 4 节中的 River Raid)通常可能无关紧要。在这些情况下,原始观察空间中的小距离可能与动作值中的小距离无关。若能提取更抽象的状态空间表示(例如 3D 几何或 2D 视频游戏中的精灵位置),可能会引出更合适的距离计算方法。抽象特征可以通过使用隐变量概率模型来获得。变分自动编码器(VAE;[12, 30])在关于图像的各种无监督学习问题中显示出很大的希望(在补充材料中有进一步描述)。有趣的是,VAEs 以无监督方式学习的潜在表征,可以依赖于结构良好的流形(well structured manifolds),捕获变化的主要因素(salient factors of variation) [12,图 4(a) 和 (b)]; [30,图 3(b)]。 在我们的实验中,我们在随机行动 agent 的帧上训练 VAE。使用不同的数据源会产生不同的 VAE 特征,原则上来自一项任务的特征可以用于另一项任务。此外,还可以学习用于比较嵌入映射(观察-状态空间映射)的距离度量。我们将这两个有趣的扩展留给未来的工作。
对于 Atari 实验,我们考虑了五款游戏:Ms.PAC_MAN、Q*bert、River Raid、Frostbite 和 Space Invaders。我们将我们的算法与原始 DQN 算法 [23]、具有优先重放的 DQN [31] 以及异步优势 actor-critic [22] (A3C) 以及一种SOAT策略梯度方法进行了比较。依照[23],观测结果被缩放到 84 x 84 像素并转换为灰度。Atari 模拟器每秒产生 60 个观测(帧)。为了减少计算要求,每个动作重复 4 次,因此agent每秒与环境交互15次。一个小时的游戏大约相当于 200,000 帧。
在episode controller中,每个动作的状态-价值二元组缓冲区的尺寸限制为一百万个条目。如果缓冲区已满并且必须引入新的状态-价值二元组,则丢弃最近最少使用的状态的记录。k 近邻查找设置为 k = 11。折扣率设置为 γ = 1 \gamma = 1 γ=1。使用 ϵ = 0.005 \epsilon = 0.005 ϵ=0.005 的 ϵ \epsilon ϵ-greedy 策略实现探索。我们发现更高的探索率并不是那么有益,因为更多的探索使得开发已知的东西变得更加困难。注意,先前文章给出探索概率(例如,[22, 23])至少要高出十倍。 因此有趣的是,我们的方法在相对较少的随机探索的范围内获得了良好的性能。
如图 1 的前两行所示。在数据效率方面,episode controller在所有游戏的初始学习阶段优于所有其他算法。 在 Q*bert 和 River Raid 游戏中,episode controller最终被一些参数化控制器(图 1 中未显示)取代。在快速学习的初始阶段之后,episode controller 受到了限制,因为随着轨迹变长,在每个轨迹中获得的新经验相对数量会减少。 相比之下,参数化控制器可以利用其非局部泛化能力( non-local generalisation capabilities)来处理游戏的后期阶段。
假设人在玩超级玛丽游戏,只要有一次人按下了跳键之后,可以跳起来躲避敌人,那么人马上就可以用上这条经验,在下次遇到敌人的时候就会按下跳键。甚至,人还能将经验广义化,不仅是这种类型的敌人,还有别的类型的敌人,甚至障碍,人都可以应对。在机器学习中,这种情况被称为 one-shot learning
本文试图把 one-shot learning 引入Deep RL。传统深度强化学习无法执行one-shot learning,这是因为使用神经网络来泛化状态价值,但由于 “底层策略或价值函数的梯度更新(gradient-based updates)很缓慢,这些算法需要大量的步骤来吸收(assimilate)这些信息并将其转化为策略性能的提升”
作者认为过去的 deep RL 方法为了保证随机性环境中的普适性而牺牲了效率,在确定性环境下,估计价值函数可以比较简单和高效。为此
接下来作者考虑了如何对 agent 的观测进行编码(就是利用文中的嵌入映射 ϕ \phi ϕ),因为原始观测太占内存,需要编码后作为状态。作者考虑了两个方法
作者发现良好的编码方式也有助与提升泛化性能
最后,作者认为 model-free episodic control 和 model-based episodic planning 是跟人的大脑里面基于习惯和基于目标两种机制联系在一起的。到底启用那种机制取决于时间和资源
Humans, on the other hand, can very quickly exploit highly rewarding nuances of an environment upon first discovery.
另一方面,人类则可以在第一次探索时就迅速发现并利用环境中高回报的细微差异
Here we investigate whether a simple model of hippocampal episodic control can learn to solve difficult sequential decision making tasks.
本文中,我们研究了一个简单的海马轨迹控制模型能否学习解决困难的顺序决策任务
We demonstrate that it not only attains a highly rewarding strategy significantly faster than state-of-the-art deep reinforcement learning algorithms, but also achieves a higher overall reward on some of the more challenging domains.
我们证明,它不仅比SOAT深度强化学习算法更快地学到了高回报的策略,而且在一些更具挑战性的领域中获得了更高的整体回报(overall reward)
This paper addresses the question of…
本文解决了…问题
Thus these algorithms lack the ability to rapidly latch onto successful strategies
因此,这些算法缺乏快速锁定成功策略的能力
Humans and animals utilise multiple learning, memory, and decision systems each best suited to different settings
人类和动物利用多种学习、记忆和决策系统,每个系统最适合不同的环境
The key test for this approach is whether it can also work in more realistic environments where states are never repeated and generalisation over similar states is essential
episode control 方法的关键测试是要看他是否也可以在更现实的环境中工作,这种环境中状态永远不会重复,对相似状态的泛化能力非常关键
Critically, we also show that our episodic control model still performs well in such (3D) environments where the same state is essentially never re-visited.
重要的是,我们还表明,我们的episode control模型在这种基本上永远不会重新访问相同的状态的(3D)环境中仍然表现良好。
Thus, in principle, they could operate in regimes with high degrees of stochasticity in both transitions and rewards.
因此,原则上,它们可以在状态转移和奖励方面具有高度随机性的设置下运作
By analogy(类比) with RL value functions, we denote this table Q E C ( s , a ) Q^{EC}(s,a) QEC(s,a)
类似RL的价值函数,我们把该表表示为 Q E C ( s , a ) Q^{EC}(s,a) QEC(s,a)
In large scale RL problems (such as real life) novel states are common
在大规模 RL 问题(例如现实生活)中,新的状态很常见
The values stored in Q E C ( s , a ) Q^{EC}(s,a) QEC(s,a) thus do not correspond to estimates of the expected return, rather they are estimates of the highest potential return for a given state and action, based upon the states, rewards and actions seen.
因此,存储在 Q E C ( s , a ) Q^{EC}(s,a) QEC(s,a) 中的值不对应于预期回报的估计,而是基于所看到的状态、奖励和行动,对给定状态和行动的最高潜在回报的估计
We expect this representation to be suffificient when small changes in the original observation space correspond to small changes in the underlying return.
我们希望这种表示可以使原始观察空间的微小变化对应于潜在收益(return)的微小变化。
A feature extraction method capable of extracting a more abstract representation of the state space (e.g. 3D geometry or the position of sprites in the case of 2D video-games) could result in a more suitable distance calculation.
一种能够提取更抽象的状态空间表示(例如 3D 几何或 2D 视频游戏中的精灵位置)的特征提取方法可能会引出更合适的距离计算方法
Variational autoencoders (VAE; [12, 30]), further described in the supplementary material, have shown a great deal of(大量的) promise across a wide range of unsupervised learning problems on images.
变分自动编码器(VAE;[12, 30])在关于图像的各种无监督学习问题中显示出很大的希望(在补充材料中有进一步描述)
Interestingly, the latent representations learnt by VAEs in an unsupervised fashion can lie on well structured manifolds capturing salient factors of variation
有趣的是,VAEs 以无监督方式学习的潜在表征,可以依赖于结构良好的流形(well structured manifolds),捕获变化的显着因素
Furthermore, the distance metric for comparing embeddings could also be learnt
此外,还可以学习用于比较嵌入映射的距离度量
the 64 parameters of a Gaussian approximation to the posterior over the latent dimensions in a VAE.
VAE 中潜在维度上后验高斯近似的 64 个参数
The agents interact with the environment 15 times per second, as actions are repeated 4 times to decrease the computational requirements
为了减少计算要求,每个动作重复 4 次,因此agent每秒与环境交互15次
We found that higher exploration rates were not as benefificial, as more exploration makes exploiting what is known harder.
我们发现更高的探索率并不是那么有益,因为更多的探索使得开发已知的东西变得更加困难
In terms of data effificiency the episodic controller outperformed all other algorithms during the initial learning phase of all games.
在数据效率方面,episode controller在所有游戏的初始学习阶段优于所有其他算法
Our results demonstrate that a simple exploration technique like ϵ \epsilon ϵ-greedy can result in much faster policy improvements when combined with a system that is able to learn in a one-shot fashion.
我们的结果表明,当与能够以一次性方式(one-shot fashion)学习的系统相结合时,像 ϵ \epsilon ϵ-greedy 这样的简单探索技术可以带来更快的策略改进。
In this case, episodic control thrived in sparse reward environment as it rapidly latched onto an effective strategy
在这种情况下,episodic control方法在稀疏奖励环境中快速提升性能,因为它迅速锁定了有效的策略。
The tentative picture to emerge from this work is one in which the amount of time and working memory resources available for decision making is a key determiner of which control strategies are available.
这项工作呈现的初步图景是,可用于决策的时间和工作记忆资源是哪些控制策略可用的关键决定因素。