【文献阅读】进化导向的策略梯度RL

Evolution-Guided Policy Gradient in Reinforcement Learning

Brief

文章链接 paper
代码链接code
作者 Kagan Tumer作者 另外一个作者是因特尔人工智能研究院的。Intel AI · Ai-Lab
俄勒冈州立大学协作机器人与智能系统研究所
Collaborative Robotics and Intelligent Systems Institute Oregon State University

Abstract

文章是在深度强化学习(DRL)的基础之上。
(1)DRL有三个问题:

  • temporal credit assignment with sparse rewards 稀疏回报
  • lack of effective exploration 缺乏有效探索
  • brittle convergence properties that are extremely sensitive to hyperparameters 对超参数非常敏感的脆性收敛特性。

collectively 总的来说,这些挑战严重限制了在real-world 的应用。

(2)EAs (Evolutionary Algorithms)进化算法的优缺点 :

  • 进化算法是一类受自然进化启发的黑盒优化技术,适合解决这些挑战。
  • 然而,EAs 通常具有较高的样本复杂度,难以解决需要优化大量参数的问题。
    这篇文章:(1)+(2)=ERL
    实验证明效果好于DRL,也好于EA。

1. Introduction

引言结构和摘要结构一模一样。

  • 第一段 RL——DRL,DRL面对的三个挑战。
    【大背景】RL和deep learning 方法如DNN的结合把RL成功扩展到了具有高维输入和动作空间的tasks。【打出问题】然而,real-word 应用受限于三大挑战:temporal credit assignment with long time horizons and sparse rewards, lack of diverse exploration, and brittle convergence properties。

  • 第二段:一号挑战,回报稀疏。
    【定性描述】在real-world 领域是常见的,通常被称为temporal credit assignment problem[54]。【1号差方案以及差在哪】Temporal Difference methods时间差分法,使用bootstrapping来解决这个问题,但是当时间跨度很长且回报很少时,常常会遇到困难。【2号差方案及局限性】Multi-step returns 解决了这一问题,但是只在on-policy scenarios有效。【3号方案及缺点】Offpolicy multi-step learning 被证明稳定,但需要补充修正机制如importance sampling,Retrace 和 V-trace计算成本高限制性强。

  • 第三段:二号挑战,effective exploration。
    【定性】 RL依赖exploration来寻找好的策略来避免陷入局部最优。【打出问题】在高维动作状态空间,有效的探索依然是关键挑战。【一群差方案们】count-based exploration,intrinsic motivation curiosity 和 variational information maximization。【另一类差方案】通过直接向智能体的参数空间添加噪声来emphasize exploration。【小结方案们的缺点】这些方案要么依赖复杂的补充结构,要么引入敏感的task-specific 参数。【段落总结】寻找通用的exploration策略是一个活跃的研究领域。

  • 第四段:三号挑战,对超参数的选择敏感,且脆收敛性。
    【强调问题】尤其影响off-policy DRL。离策略DRL使用replay buffer来存储和复用过去的经验。【脆收敛性】replay buffer是实现样本高效学习的重要组成部分,但是将其与a deep nonlinear function approximator 配对,会导致extremely brittle convergence properities[13,24].

  • 第五段:引出解决三大挑战的EA。
    【EA的1号优点】不惧稀疏回报。使用a fitness metric that consolidates returns across an entire episode 使得EAs对奖励分配的稀疏性无动于衷,并且robust to long time horizons。【EA的2号优点】多样性探索。EA的基于种群的方法还具有实现diverse exploration的优势,特别是与explicit diversity maintenance techniques 结合时。(翻译成人话就是:EA本身天赋异禀,和某些技术结合起来更是不得鸟)【EA的3号优点】鲁棒性和稳定的收敛特性。redundancy inherent in a population 种群固有的冗余也促进了鲁棒性和稳定的收敛特性,特别是和elitism结合起来。【总结】优点这么多确实和DRL结合取得了一些成果[8,22,44,53]。【开始贬,EA的大缺点】然而,EAs受困于high sample complexity,往往难以解决需要优化大量参数的高维问题。【分析原因】主要原因是EA无法利用powerful gradient descent 方法,而梯度下降法这是DRL方法sample-efficient 的核心。

  • 第六段:介绍本文的内容。摘要的扩充版本。一图以蔽之:
    【文献阅读】进化导向的策略梯度RL_第1张图片
    Figure1图解了ERL的双层学习方法,由进化种群产生了相同的数据集(经验)被强化学习机制使用。重复使用相同的数据集可以最大限度的从个体经验中提取信息,从而提高了sample efficiency。

2. Background

介绍MDP 等基础概念。

2.1 DDPG

2.2 EA

EA是一类搜索算法,有三个基本算子,three primary operators:

  • new solution generation 新解生成
  • solution alteration 解的变更
  • selection 选择

这些运算被应用在一个候选解们的种群上,在概率上保留有希望的解的同时,不断生成新的解。selection操作通常是概率的,其中具有较高适应值fitness
value 的解具有更高的被选择的概率。假设较高的fitness值代表良好的品质,则解的整体质量将随着每一代的传递而提高。本文中,进化算法中的每个个体定义了一个深层神经网络。mutation突变代表了对这些神经网络权权重(genes)的随机扰动。这里使用的进化框架与进化的神经网络密切相关,通常被称为neuroevolution神经进化[18,33,43,52]。

3. Motivating Example

OpenAI gym 上的标准倒立双摆和hard倒立双摆。做了两波小实验,对比了DDPG,EA和ERL。

  • 标准双摆:不出所料,ERL和DDPG在3000episodes以下解决问题。EA用了接近22000episodes。ERL和DDPG能够利用梯度来实现更快的学习,而没有梯度的EA则较慢
  • hard 双摆:解释了一下hard相较于标准的困难点在哪里。reward在一个episode结束时才disbursed to the controller。一个episode包含1000个timesteps,每一个step, controller得到的reward 是0,在最后一个step,cumulative reward 累计回报才给agent。由于agent不能定期获得其关于动作的反馈,必须要等很长时间才能获得反馈,因此就产生了非常困难的temporal credit assignment 挑战。(时间信用分配)
  • hard 双摆的实验结果:对于EA来说两种无差,依然是22000episodes解决问题。DDPG失败了。ERL在10000episodes以内解决问题,比EA快得多。
  • 这边的实验结果表明ERL是最棒的!

4. ERL

ERL背后的主要思想:incorporate EA’s population-based approach to generate a diverse set of experiences while leveraging powerful gradient-based methods from DRL to learn from them.翻译成人话:集两家之长。
这篇文章中的ERL结合了standard EA和DDPG。不过,任何off-policy RL使用 actor-critic 框架的都可以用。

  • ERL算法的一般过程:a population of actor 网络以随机权重进行初始化。除了the population, 还在critic 网络旁边初始化了一个额外的actor网络(以下简称 r l a c t o r rl_{actor} rlactor)。然后对一个episode中与环境进行交互的actors(不包括 r l a c t o r rl_{actor} rlactor)进行评价。每个actor的fitness被计算,计算方法是这个episode中的所有timesteps的回报的累加值。然后,一个选择算子(selection operator)从population中选择一部分生存下来,选择的依据是与它们的相对适应度得分相称的概率。然后,通过mutation(突变)和crossover(交叉)操作对population中的actor 进行概率扰动,以创建下一代actors。一部分相对适应度最高的actors作为精英elites被保留下来,被屏蔽在突变步骤之外。
    评价,选择,扰动(对应fitness值的计算,actor的选择,actor的突变)

  • EA——RL:ERL不同于EA only learns between episodes using fitness score, ERL 还learn from the experiences within episodes. ERL 在replay buffer 中存放了每一个actor的experiences ,tuple (current state, action, next state, reward)。this is done for every interaction,at every timestep, for every episode, and for each of its actors. critic 从replay buffer中随机采样一个minibatch,并用它来更新其参数,使用梯度下降法。然后critic和minibatch 一起使用采样策略梯度来训练 r l a c t o r rl_{actor} rlactor。这和DDPG的学习过程类似,只是replay buffer可以访问整个进化种群的experiences。

  • Data Reuse:replay buffer 是实现信息从进化种群向RL learner 流动的核心机制。不同于标准EA从这些experiences中提取适应度指标并立即disregard他们不同,ERL将他们保留在replay buffer,并利用强大的基于梯度的方法让 r l a c t o r rl_{actor} rlactor和critic反复学习。这种机制可以从每个individual experiences 中提取最大的信息,从而提高样本效率sample efficiency。

  • Temporal Credit Assignment: 由于fitness scores 反映的是an individual的episode-wide return,因此selection operator 施加a strong pressure ,使其倾向于选择具有较高episode-wide 回报的individuals。由于buffer中被这些individuals收集的experiences所填充,这个过程使状态分布偏向于具有较高episode-wide return的regions。这作为一种隐性优先级的形式,favors experiences leading to higher long term payoffs ,对于时间跨度长,稀疏回报领域是有效的。RL learner 从这种状态分布(replay buffer)中学习,会偏向于学习策略,以获得更高的episode-wide return。
    这部分不理解,temporal credit assignment 到底啥意思呢?

  • Diverse Exploration:一个noisy version of the r l a c t o r rl_{actor} rlactor使用Ornstein-Uhlenbeck [60]过程用于为replay buffer生成额外的experiences。与actors种群通过噪声探索在parameter space 参数空间探索不同, r l a c t o r rl_{actor} rlactor通过噪声在其action space 动作空间进行探索。这两个过程相辅相成,共同形成有效的探索策略,能够更好的对policy space 策略空间进行探索。

  • RL—— EA: 【定义synchronization】周期性的, r l a c t o r rl_{actor} rlactor网络的权重被复制到不断进化的actors 的population,这个过程称为“synchronization”同步。同步的频率控制着从RL learner到evolutionary population的信息流。这是使进化框架能够直接利用通过梯度下降学习到的信息的核心机制。把 r l a c t o r rl_{actor} rlactor学到的策略注入到population的过程,也是为了stabilize learning 并且使其对于欺骗deception更加robust。如果 r l a c t o r rl_{actor} rlactor学到的策略是好的,它会被选择存活下来,并在后续的generations中把它的影响扩大到population中。然而,如果 r l a c t o r rl_{actor} rlactor是坏的,它将被简单地selected against 和discarded选择和丢弃。这种机制确保了从 r l a c t o r rl_{actor} rlactor到evolutionary population的信息流是constructive的而不是disruptive,建设性的而不是破坏性的。这对于具有稀疏回报和欺骗性局部最小值的领域尤其重要,这些领域中基于梯度的方法极易受到影响。
    同步的过程是核心机制,对 r l a c t o r rl_{actor} rlactor根据好坏进行选择和丢弃的机制也非常重要。
    伪代码:一堆参数设置,很详细。DDPG在这里作为ERL算法的策略梯度部分。
    【文献阅读】进化导向的策略梯度RL_第2张图片
    【文献阅读】进化导向的策略梯度RL_第3张图片
    【文献阅读】进化导向的策略梯度RL_第4张图片

5,实验

domain:实验平台是Mujoco上的6个连续控制任务。

compared baselines: EA ,DDPG(off-policy),PPO(on-policy)

PPO是基于TRPO。ERL使用PyTorch实现,而OpenAI Baselines用于实现PPO和DDPG。
所有算法的超参数hyperparameters都设置为与原始论文相匹配。除了DDPG算法的batch size 设置成了较大的128,在文献[27]中证明可以提高性能。

Methodology for Reported Metrics:

这部分定义了一些很关键的概念,以及每个算法中具体的一些操作。

Results:实验结果的展示和分析。

证明了ERL的核心:incorporating the mechanisms within EA and policy gradient methods to achieve the best of both approaches.

Ablation Experiments: 实验验证selection operator。

证明了selection operator的重要性,去掉这个操作会导致学习效果的严重退化。80%。

Interaction between RL and EA: 做了额外的实验为了进一步梳理系统.

记录在EA population 中周期性同步的 r l a c t o r rl_{actor} rlactor是否被分类为elite,在selection中只是被选择,还是被丢弃。(见表1)

【文献阅读】进化导向的策略梯度RL_第5张图片
EA扮演了重要的角色,“critical interventions”重要的干预手段。

Note on runtime:ERL的运行时间比DDPG平均多3%

时间花的多,但是我能解释啊,并且还有提升空间呢!
(1)增加的计算大部分来自mutation operator,和梯度下降相比成本是最小的。
(2)ERL如果并行化计算肯定更快。可以从[8,44,53]中找到证据。

6,related work

这部分又综述了一遍EA和RL结合的文章。
有EA用于提高RL的
也有RL用于提高EA的。
ERL提供了一个框架来组合这些开发,以进一步提高性能。例如,文献[24]中的交叉和变异算子可以很容易地并入ERL的EA模块中,而诸如[23]的偏差校正技术可以用来改进ERL中的策略梯度操作。

7,Discussion

总结两段

  • 第一段和引言最后一段差不多。
  • 第二段分别从RL角度和EA角度总结了一下ERL。

展望一段

第三段是对未来工作的展望。
(1)把更复杂的进化子机制整合进来是未来工作的一个令人兴奋的领域。
(2)结合基于implicit curriculum 的技术,例如hindsight experience replay[3]和information theoretic 技术[15,24], 可以进一步improve exploration。
(3)另外一个令人兴奋的研究线路是把ERL拓展到多智能体RL。

思考

  1. 作者试图解决什么问题?
    本文结构清晰,目的明确:
    如何利用进化算法 EA 的优势来解决深度强化学习 DRL 的三大挑战
  • 一号挑战,回报稀疏:
    temporal credit assignment with long time horizons and sparse rewards
  • 二号挑战:缺乏探索多样性
    lack of diverse exploration
  • 三号挑战:脆弱的收敛性能
    brittle convergence properties
  1. 研究方法的关键是什么?(最具有开创性)
    本文最大的创新之处也就是其研究方法的关键点:
    EA 进化算法的优势融合进DRL 深度强化学习的框架从而解决了三大挑战。
    我任务其关键之处在于梳理清楚了 进化算法的优势与三大挑战的关系,进行了逐一对应。

  2. 哪些东西可以为我所用?
    (1)‘data reuse’ :“replay buffer”机制是RL领域的常见操作,这里把基于梯度的学习方法引入到进化算法中,最大程度的从个体经验中提取信息,大大提高样本利用率。
    (2) EA 和 RL之间的 “synchronization”同步机制非常值得借鉴
    除了文中所用的进化算法,还有很多进化类算法都可以借鉴此机制。
    (3)除了用EA来改进RL,也可以利用RL来改进EA。
    (4)RL智能体增加,从单agent 到 多 agent。

  3. 有哪些参考文献可以继续跟进?
    (1)RL改进EA的参考文献:
    [21] S. Fujimoto, H. van Hoof, and D. Meger. Addressing function approximation error in actor-critic methods. arXiv preprint arXiv:1802.09477, 2018.
    [22] T. Gangwani and J. Peng. Genetic policy optimization. arXiv preprint arXiv:1711.01012, 2017.
    (2)经典论文,这里是作为 temporal credit assignment 的引证文献:
    [54] R. S. Sutton and A. G. Barto. Reinforcement learning: An introduction, volume 1. MIT press Cambridge, 1998.

  4. 值得借鉴的词汇,表达方法。
    This is a common occurance in most real world domains……
    However, each of these techniques either rely on complex supplementary structures or introduce sensitive parameters that are task-specific.
    DRL are notoriously sensitive to the choice of their hyperparameters.

你可能感兴趣的:(文献阅读)