【文献阅读】RL经典:Benchmarking Deep Reinforcement Learning for Continuous Control

Benchmarking Deep Reinforcement Learning for Continuous Control

Brief

paper 链接paper
开源代码code
引用量 300++
作者Pieter Abbeel来自UC Berkeley
鉴于RL领域具有很强的时效性,这篇2016年开源的论文在当时应该是非常轰动的。不过对于现在RL算法的发展,这篇肯定是有很大的滞后性的。所以权当学习一种如果对RL算法的重现性进行衡量,怎么选择RL算法,尤其是在连续控制领域里面。

Abstract

本文的目的:in order to facilitate experimental reproducibility and to encourage adoption by other researchers.为了便于实验的的可重复性,并鼓励其他研究人员采用。
【大背景】最近,研究着将特征表征feature representations的deep learning深度学习与强化学习相结合,取得了显著的进展。【具体的】一些显著的例子包括训练agents基于raw pixel data原始像素数据玩Atari 游戏,以及使用raw sensory inputs原始感官输入获得高级操作技能advanced manipulation skills。【缺点】然鹅,由于缺乏一个普遍采用的benchmark基准,一直难以量化连续控制领域的进展quantify progress。【本文】在这项工作中,我们提出了一套连续控制任务的benchmark基准,包括经典任务,如cart-pole swing-up,具有非常高的状态和动作维度的任务,如3D humanoid locomotion 人形运动,部分可观测的任务tasks with partial observation,以及具有层次结构的任务hierarchical structure。我们报告了基于对一系列已实现的RL算法进行系统评估的新发现。

1. Introduction

  • 第一段 列举了一些RL的进展

【RL定义】RL解决的问题是,agents应该如何学习采取行动,通过与环境的interactions相互作用,使累计报酬最大化maximize cumulative reward。【RL传统做法】RL算法的传统方法需要精心选择feature representations特征表示,这些特征表示通常是手工设计的hand-engineered。【最近的进展】最近,通过将用于学习特征表征(Krizhevsky et al., 2012;
Hinton et al., 2012)的深度学习与RL相结合,取得了很大的进展,这可以追溯到早期工作Tesauro (1995) and Bertsekas & Tsitsiklis (1995).【例子】
Notable examples are training agents to play Atari games based on raw pixels显著的例子是训练agents 基于原始像素玩Atari游戏(Guo et al., 2014; Mnih et al., 2015; Schulman et al., 2015a),并使用原始感官收入获得高级操作技能(Levine et al., 2015; Lillicrap et al., 2015;Watter et al., 2015). 【其他例子】在训练3D运动和操纵任务的深度神经网络policies策略方面也取得了令人印象深刻的结果(Schulman et al., 2015a;b; Heess et al., 2015b).

  • 第二段:高维连续空间的问题
    随着这一最新进展,the Arcade Learning Environment (ALE) (Bellemare et al., 2013) 已经成为一个流行的benchmark基准,用于评估具有高维状态输入和离散动作的任务设计的算法。然鹅,这些算法并不总是generalize straightforwardly to tasks with continuous actions直接泛化到具有连续动作的任务中,导致我们的理解存在差距。例如,由于curse of dimensionality 维度诅咒,当对动作空间进行naive discretization天真的离散化时,基于Q-learning 的算法很快就变得infeasible不可行了(Bellman, 1957; Lillicrap et al., 2015).。在连续控制领域,动作是连续的,而且往往是高维的,我们任务现有的控制基准control benchmarks不能提供一套全面的challenging problems (见第7节对现有benchmarks的回顾)。benchmarks在计算机视觉和语言识别等其他领域发挥了重要的作用。例子包括 MNIST (Le-Cun et al., 1998), Caltech101 (Fei-Fei et al., 2006), CIFAR (Krizhevsky & Hinton, 2009), ImageNet (Deng et al., 2009), PASCAL VOC (Everingham et al., 2010), BSDS500 (Martin et al., 2001), SWITCHBOARD (Godfrey et al.,1992), TIMIT (Garofolo et al., 1993), Aurora (Hirsch & Pearce, 2000), and VoiceSearch (Yu et al., 2007). 强化学习和连续控制缺乏一个标准的,具有挑战性的试验台,因此很难量化科学进步。系统的评价和比较不仅能进一步了解现有算法的优势,还能揭示其局限性,并提出未来的研究的方向。

  • 第三段
    我们试图解决这个问题,并提出一个由31个连续控制任务组成的benchmark。这些任务从简单的任务,例如cart-pole balancing, 到具有挑战性的任务,如high-DOF locomotion,tasks with partial observations, 和 hierarchically structured tasks。此外,我们还实现了一系列RL算法,在此基础上,我们报告了基于系统评估其在训练深度神经网络策略方面有效性的新发现novel findings。benchmark和参考实现在链接 , 从而可以开发,实现和评估新的算法和任务。

2. Preliminaries

本节定义后续章节需要用到的符号define the notation
所实现的任务符合conform to a finite-horizon discounted Markov decision process 有限时折扣的马尔可夫决策过程(MDP)的标准接口interface, 定义为tuple元组 ( S , A , P , r , ρ 0 , γ , T ) (\mathcal{S},\mathcal{A} ,\mathcal{P},r,\rho_0,\gamma,T) (S,A,P,r,ρ0,γ,T), S \mathcal{S} S是一个(可能无限的)的状态集, A \mathcal{A} A是动作集, P : S × A × S → R ≥ 0 \mathcal{P}:\mathcal{S}\times\mathcal{A}\times\mathcal{S}\rightarrow\mathbb{R}_\ge0 P:S×A×SR0是转移概率分布transition probability distribution, r : S × A → R r:\mathcal{S}\times\mathcal{A}\rightarrow\mathbb{R} r:S×AR 是回报函数reward function,
ρ 0 : S → R ≥ 0 \rho_0:\mathcal{S}\rightarrow\mathbb{R}_\ge0 ρ0:SR0 是初始状态分布initial state distribution, γ ∈ ( 0 , 1 ] \gamma\in(0, 1] γ(0,1] 是折扣因子discount factor,T 是horizon。
对于部分可观测任务(For partially observation tasks,which conform to the interface of a partially observable Markov decision process (POMDP),two more components are required),符合部分可观测马尔可夫决策过程的接口,还需要两个组件,即, Ω \Omega Ω, 观测值的集(a set of observations),和观测值概率分布the observation probability distribution O : S × Ω → R ≥ 0 \mathcal{\Omicron}:\mathcal{S}\times\Omega\rightarrow\mathbb{R}_\ge0 O:S×ΩR0
我们所实现的大部分算法优化了一个随机策略stochastic policy
π θ : S × A → R ≥ 0 \pi_{\theta}:\mathcal{S}\times\mathcal{A}\rightarrow\mathbb{R}_\ge0 πθ:S×AR0
Let μ ( π ) = E τ [ ∑ t = 0 T γ t r ( s t , a t ) ] \mu(\pi)=\mathbb{E}_\tau\left[\sum_{t=0}^T\gamma^tr(s_t,a_t)\right] μ(π)=Eτ[t=0Tγtr(st,at)],其中 τ = ( s 0 , a 0 , . . . ) \tau=(s_0,a_0,...) τ=(s0,a0,...) 表示整个轨迹, s 0 ∼ ρ 0 ( s 0 ) s_0\sim\rho_0(s_0) s0ρ0(s0) a t ∼ π ( a t ∣ s t ) a_t\sim\pi(a_t|s_t) atπ(atst) s t + 1 ∼ P ( s t + 1 ∣ s t , a t ) s_{t+1}{\sim}P(s_{t+1}|s_t,a_t) st+1P(st+1st,at)
对于确定性策略(For deterministic policies),我们使用标记notation
μ θ : S → A \mu_\theta:\mathcal{S}\rightarrow\mathcal{A} μθ:SA 来表示策略。它的目标和上面的一样,只是现在我们有
a t = μ ( s t ) a_t=\mu(s_t) at=μ(st)

3. Tasks

四类任务,两个平台。

基准测试任务可以分为四类,我们将在本节中简要介绍它们,更详细的规范在补充材料和源代码中给出。

  • basic tasks 基本任务
  • locomotion tasks 运动任务
  • partially observation tasks 部分可观测任务
  • hierarchical tasks 分层任务

我们选择使用physics simulators 物理模拟器而不是rather than symbolic equations符号方程来实现所有的任务。因为前一种方法不易出错,并且允许对每个任务进行简单的修改since the former approach is less error-prone and permits easy modification of each task。
具有简单动力学的任务实现使用Box2D (Catto, 2011),这是一个开源的,免费提供的2D物理模拟器。具有更复杂动力学的任务,如locomotion,使用MuJoCo (Todorov et al., 2012), 这是一个具有更好的接触建模功能的3D物理模拟器 (a 3D physics simulator with bettter modeling of contacts)

3.1. Basic Tasks

我们实现了RL 和 control literature控制文献中广泛分析的5项基本任务:
(1)Cart-Pole Balancing (Stephenson, 1908; Donaldson, 1960; Widrow, 1964; Michie & Chambers, 1968),
(2)Cart-Pole Swing Up (Kimura & Kobayashi, 1999; Doya, 2000),
(3)Mountain Car (Moore, 1990)
(4)Acrobot Swing Up (DeJong & Spong, 1994; Murray & Hauser, 1991; Doya, 2000)
(5)Double Inverted Pendulum Balancing (Furuta et al., 1978).
维的任务提供了RL算法的快速评估和比较。

3.2. Locomotion Tasks

这一类别中,我们实施了6项varying dynamics and difficulty 动力学和难度不同的运动任务locomotion tasks
(1) Swimmer (Purcell, 1977; Coulom, 2002; Levine & Koltun, 2013; Schulman et al., 2015a),
(2) Hopper (Murthy & Raibert, 1984; Erez et al., 2011; Levine & Koltun, 2013; Schulman et al., 2015a),
(3) Walker (Raibert & Hodgins, 1991; Erez et al., 2011; Levine & Koltun, 2013; Schulman et al., 2015a),
(4) Half-Cheetah (Wawrzy´nski, 2007; Heess et al., 2015b),
(5) Ant (Schulman et al., 2015b),
(6) Simple Humanoid (Tassa et al., 2012; Schulman et al., 2015b)
Full Humanoid (Tassa et al., 2012).
所有任务的目标都是尽可能快的move forward 前进。由于自由度高,这些任务比基本任务更具挑战性。此外,需要大量的探索来学习如何向前移动,而不会卡在局部最优without getting stuck at local optima。
Since we penalize for excessive controls as well as falling over, during the initial stage of learning, when the robot is not yet able to move forward for a sufficient distance without falling, apparent local optima exist including staying at the origin or diving forward slowly.
由于我们惩罚过度控制和摔倒,在学习的初始阶段,当机器人还不能向前移动足够的距离而不摔倒时,存在明显的局部最优,包括停留在原点或者缓慢向前跳水。

3.3. Partially Observable Tasks

在real-life situations现实生活中,agents往往没有被赋予endowed with完美的状态信息。这可能是由于传感器噪声sensor noise,传感器堵塞sensor occlusions,甚至传感器限制sensor limitations导致的局部可观测partial observations。为了在更现实的环境中评估算法,我们为第3.1节中描述的5个基本任务中的每一个实现了三个部分可观测任务的变体variations,从而导致总共有15个附加任务additional tasks。这些variations如下所述。

  • Limited Sensors
    对于这种variation变体,我们限制观测值,仅提供位置信息(包括关节角度),excluding velocities不包括速度。an agent 现在必须学会infer推断速度信息以恢复完整状态full state。相似的探索在in Gomez & Miikkulainen (1998); Sch¨afer & Udluft (2005); Heess et al. (2015a); Wierstra et al. (2007).
  • Noisy Observations and Delayed Actions:
    在这种情况下,通过在观测值中加入高斯噪声Gaussian noise来模拟传感器噪声sensor noise。我们还引入了在采取行动和行动生效之间的时间延迟time delay,从而解释了物理延迟physical latencies(Hester & Stone, 2013).。agents需要学习综合integrate 过于的观测past observations和过去的动作past actions来infer推断当前的状态current state。相似的任务也被提出在Bakker (2001).
  • System Identification:
    对于这一类别,潜在的物理模型参数在不同的episodes中是不同的varied。agents必须学会在不同的模型之间进行泛化generalize,以及从模型的观察和行为历史observation and action history中推断infer模型参数。

3.4. Hierarchical Tasks

许多real-worlk 任务都表现出层次结构hierarchical structure,高层次的决策可以reuse重用低层次的技能。例如,机器人在探索环境时可以重用reuse运动技能locomotion skills。我们提出了几个任务,在这些任务中既需要低层次的运动控制low-level motor controls,又需要高层次的决策high-level decisions。 这两部分components个子在不同的时间尺度time scale上操作,并要求建立一个自然的层次结构,以便有效地学习任务。

  • Locomotion + Food Collection:
    对于这个任务,agent需要学会控制swimmer或者ant robot 在有限的区域内in a finite region 收集食物并避开炸弹。该agent接收关于附近食物和炸弹food and bomb units的传感器读数。当它到达一个food unit时,它会得到一个正的奖励positive reward,当它到达一个炸弹时,它会得到一个负的奖励negative reward。
  • Locomotion + Maze:
    对于这个任务,该agent需要学习控制swimmer或者ant robot 到达fixed maze固定迷宫中的目标位置goal position。该agent接收关于附近障碍物的范围传感器读数以及其目标(when visible如果可见时)。只有当机器人到达目标区域是,来给予positive reward 正奖励。

4. Algorithms

在这一节中,我们简要总结了在我们benchmark中实现的算法,并注意到为了将他们应用于一般参数化策略general parametrized policies 而做出的任何修改。我们实现了一系列基于梯度gradient-based的策略搜索算法,以及两种gradient-free无梯度方法,用于与基于梯度的方法进行比较。

4.1. Batch Algorithms

大部分实现的算法都是批算法。Most of the implemented algorithms are batch algorithms. 每次迭代,会产生N条轨迹, { τ i } i = 1 N \{\tau_i\}_{i=1}^N {τi}i=1N,其中
τ i = { ( s t i , a t i , r t i ) } t = 0 T \tau_i=\{(s_t^i,a_t^i,r_t^i)\}_{t=0}^T τi={(sti,ati,rti)}t=0T。对于on-policy 基于梯度方法,所有的轨迹都是在当前策略下进行采样的。对于gradient-free 方法,则在当前策略的扰动版本perturbed versions下进行采样。

  • REINFORCE
  • Truncated Natural Policy Gradient (TNPG)
  • Reward-Weighted Regression (RWR)
  • Relative Entropy Policy Search (REPS)
  • Trust Region Policy Optimization (TRPO)
  • Cross Entropy Method (CEM)
  • Covariance Matrix Adaption Evolution Strategy (CMA-ES)

4.2. Online Algorithms

Deep Deterministic Policy Gradient (DDPG):与批处理算法相比,DDPG算法在探索环境时不断改进策略。它将梯度下降应用于从replay pool中采样的小批量数据的策略,其中梯度计算通过:
梯度计算

其中,B是batch size。在Bellman error 贝尔曼误差 ℓ 2 \ell^2 2 loss 的基础上,通过梯度下降法训练 critic Q
L = 1 B ∑ i = 1 B ( y i − Q ϕ ( s i , a i ) ) 2 L=\frac{1}{B}\sum_{i=1}^B(y_i-Q_{\phi}(s_i, a_i))^2 L=B1i=1B(yiQϕ(si,ai))2 ,其中
yi
为了提高算法的稳定性,在生成regression target y i y_i yi 时,我们同时使用target network 作为critic 和policy。

4.3. Recurrent Variants

5. Experiment Setup

  • Performance Metrics:
  • Hyperparameter Tuning:
  • Policy Representation:
  • Baseline:

6. Results and Discussion

  • REINFORCE:

  • TNPG and TRPO:
    在大多数任务上,TNPG和TRPO都以较大的优势优于其它批处理算法,证实了约束策略分布的变化constraining the change in the policy distribution会带来更稳定的学习效果。
    与TNPG相比,TRPO通过在自然梯度方向上进行line search线路搜索,确保surrogate loss function代理损失函数的改进,对每次策略更新提供了更好的控制。我们观察到,超参数grid search网格搜索倾向于为TNPG选择保守的步长conservative step sizes

  • RWR:
    RWR是我们实现的唯一一种gradient-based基于梯度的算法,不需要任何超参数调整,它可以解决一些基本任务,达到令人满意满意的程度,但无法解决更具挑战性的任务,如locomotion。我们从经验上观察到,RWR表现出快速的初始改善,然后是明显的放缓,如图 Figure 3(d).
    【文献阅读】RL经典:Benchmarking Deep Reinforcement Learning for Continuous Control_第1张图片

  • REPS:
    我们的主要观察是,在连续状态和动作的情况下,REPS特别容易提前收敛到局部最优local optima。
    它的最终结果受 initial policy初始策略的表现的影响很大,这一观察结果与 Peter et al. (2010).的初始工作一致。这导致平均性能不好,尽管在特定的初始设置下,该算法可以与其他算法表现相当。此外,这里提出的的任务并不假设存在一个stationary distribution固定的分布,而Peter et al. (2010)中假设了这一点。特别是,对于我们的许多任务,transient behavior瞬态行为比steady-state behavior稳态行为更重要,这与之前van Hoof et al. (2015),的观察一致。

  • Gradient-free methods:
    令人惊讶的是,即使在训练具有数千个参数的深度神经网络policies时,CEM在某些任务上取得了非常好的性能,如Cart-Pole Balancing 和Mountain Car,这表明搜索参数的维度并不总是该方法的限制因素。然而,随着系统动态特性变得更加复杂,性能会迅速下降。我们还观察到,CEM的表现优于CMA-ES,这一点非常显著remarkable,因为CMA-ES估计的是full covariance matrix 全协方差矩阵。对于具有更高维的策略参数化policy parameterizations,CMA-ES的计算复杂度和内存需求变得明显noticeable。在具有高维观测值的任务上,如Full Humanoid,CMA-ES算法会耗尽内存,无法产生任何结果,在Table1中记为N/A。

  • DDPG:
    与batch 批算法相比,我们发现由于DDPG具有更高的样本效率,因此在某些任务上,比如Half-Cheetah,DDPG能够显著加快收敛速度。但是,它的稳定性不如批处理算法,并且在训练过程中,策略的性能会明显下降。我们还发现它更容易受到scaling of the reward的影响more susceptible to。在我们对DDPG的实验中,我们rescaled所有任务的reward,by a factor of 0.1,这似乎提高了稳定性。

  • Partially Observable Tasks:
    对于部分可观测任务,我们通过实验验证了recurrent policies 循环策略比feedforward policies前馈策略能找到更好的解决方案。但是循环策略也更难训练。如table 1所示,derivative-free 无导数算法像CEM和CMA-ES在处理recurrent policies时的效果要差很多considerably worse。同时我们也注意到,当REINFORCE和TNPG应用于优化recurrent policies时,它们之间的性能差距会扩大,这可以解释为:与feedforward policies相比,参数空间的微小变化会导致策略分布的更大变化。

  • Hierarchical Tasks: poor performance 所有算法都效果不好
    我们观察到,即使在广泛的超参数搜索和500次迭代训练的情况下,我们实现的所有算法在分层任务上的性能都很差。开发能够自动发现和利用这些任务中的层次结构的算法是一个有趣的方向。

7. Related Work

这一节就是回顾一些简单平台和具有连续控制任务的稍微复杂的平台,就是为了突出自己平台的优点。

本节中,回顾了现有的连续控制任务的benchmarks。
最早评价RL算法的工作是从用符号形式symbolic form描述的单个控制问题individual control problem开始的。一些被广泛采用的任务包括inverted pendulum倒立摆,mountain car,和Acrobot。These problems are frequently incorporated into more comprehensive benchmarks。这些问题经常被纳入更全面的benchmarks。
一些RL benchmarks包含了低维度的连续控制任务,例如上面介绍的,包括RLLib,MMLF,JRLF,Policy Gradient Toolbox,and ApproxRL。近年来,也举办了一系列的RL比赛,同样是相对低维度的动作。相比之下,我们的benchmark包含了更广泛的任务,具有高维度的连续状态和动作空间。
此前,已有人针对高维度控制任务提出了其它benchmarks。
Tdlearn包含20-link pole balancing task 20连杆平衡任务,DotRL包含可变自由度章鱼手臂和6自由度平面猎豹模型,PyBrain 包括一个具有站立和跳跃任务的16自由度仿人机器人,RoboCup Keepaway是一个多智能体游戏,它可以通过改变代理的数量来实现灵活的行为维度,SkyAI包括一个具有爬行和旋转任务的17自由度仿人机器人。其他库如CL-Square和RLPark提供与实际硬件的接口,例如Bioloid和iRobot Create。
Tdlearn (Dann et al., 2014) includes a 20-link pole balancing task, DotRL (Papis & Wawrzy´nski, 2013) includes a variable-DOF octopus arm and a 6-DOF planar cheetah model, PyBrain (Schaul et al., 2010) includes a 16-DOF humanoid robot with standing and jumping tasks, RoboCup Keepaway (Stone et al., 2005) is a multi-agent game which can have a flexible dimension of actions by varying the number of agents, and SkyAI (Yamaguchi & Ogasawara, 2010) includes a 17-DOF humanoid robot with crawling and turning tasks. Other libraries such as CL-Square (Riedmiller et al., 2012) and RLPark (Degris et al., 2013) provide interfaces to actual hardware, e.g., Bioloid and iRobot Create.
与上述testbeds测试平台相比,我们的benchmark利用模拟环境来减少计算时间,鼓励实验的可重复性reproducibility。此外,它还提供了更多不同难度的任务集合。

8. Conclusion

在本文中,提出了一个用于RL连续控制问题的benchmark基准,涵盖了各种各样的挑战性任务。我们实现了几种RL算法,并在一般策略参数化的背景下介绍了这些算法and presented them in the contex of general policy parametrizations。结果表明,在已实现的算法中,TNPG,TRPO和DDPG是训练深度神经网络策略的有效方法。不过,在所提出的分层任务上表现不佳,这就需要开发新的算法 still, the poor performanc on the proposed hierarchical tasks calls for new algorithms to be developed. 实现和评估现有的和新提出的算法将是我们继续努力的方向。通过提供open-soure release of the benchmark基准的开源版本,我们鼓励其他研究人员对提出的任务的算法进行评估。

你可能感兴趣的:(文献阅读,强化学习)