Latent Space Policies for Hierarchical Reinforcement Learning翻译

摘要

我们解决了为强化学习学习分层深度神经网络策略的问题。 与明确限制或削弱层次结构的较低层以迫使它们使用更高级别的调制信号的方法相比,我们框架中的每一层都经过训练以直接解决任务,但通过最大熵强化获得一系列不同的策略 学习目标。 每层还增加了潜在随机变量,这些变量是在该层训练期间从先验分布中采样的。
最大熵目标使这些潜在变量被纳入到层的策略中,上层可以通过这个潜在空间直接控制下层的行为。 此外,通过限制从潜在变量到动作的映射是可逆的,高层保留了完整的表现力:高层和低层的行为都不受限制。 我们的实验评估表明,我们可以通过添加额外的层来提高单层策略在标准基准任务上的性能,并且我们的方法可以通过在高熵之上学习更高级别的策略来解决更复杂的稀疏奖励任务 为简单的低级目标优化的技能。

引言

无模型深度强化学习 (RL) 已在许多具有挑战性的领域展示了潜力,从游戏(Mnih 等人,2013 年;Silver 等人,2016 年)到操纵(Levine 等人,2016 年)和运动任务(Schulman 等,2015)。 合并深度代表的部分承诺对 RL 的不满是出现层次结构的潜力,它可以在不同抽象层次上进行推理和决策。 原则上,分层 RL 算法可以有效地发现复杂问题的解决方案,并在相关任务之间重用表示。 虽然已经观察到分层结构出现在应用于感知任务的深度网络中,例如计算机视觉 (LeCun et al., 2015),但如何在强化学习环境中引入合适的分层表示仍然是一个悬而未决的问题。 这些方法的一个核心挑战是层次结构过程的自动化:手工指定的层次结构需要相当多的专业知识和洞察力来设计和限制方法的通用性(Sutton 等人,1999 年;Kulkarni 等人,2016 年;Tessler 等人 al., 2017),而自动化方法必须应对严峻的挑战,例如所有原语都分解为一种有用的技能(Bacon 等人,2017 年)或需要手工设计原语发现目标或中间目标(Heess 等,2016)。
在自动学习层次结构时,我们必须回答一个关键问题:我们可以使用什么目标来确保层次结构中的较低层对较高层有用?
先前的工作提出了许多启发式方法,例如对较低层隐藏某些部分观察结果(Heess 等人,2016)、手工设计状态特征和训练较低层行为以最大化针对这些特征的互信息( Florensa 等人,2017 年),或构建寻求多样性的先验,使低层原语承担​​不同的角色(Daniel 等人,2012 年;Eysenbach 等人,2018 年)。 通常,这些启发式方法故意削弱层次结构的较低层,例如,通过隐瞒信息,以迫使层次结构出现,或者限制层次结构的较高级别从一组离散的技能中进行选择(培根等 等,2017)。 在这两种情况下,层级都被迫出现,因为无论是上层还是下层都无法单独解决问题。 然而,以这种方式约束层可能涉及人为和特定于任务的限制(Heess 等,2016),否则会降低整体性能。
我们可以想象一个分层框架,而不是削弱或限制层次结构的不同级别,其中每一层都直接尝试解决任务,如果没有完全成功,则使上一层的工作更容易。 在本文中,我们探索了层次结构的解决方案基于此原理的强化学习问题。 在我们的框架中,层次结构的每一层都对应一个具有内部潜在变量的策略。 这些潜在变量决定了策略如何将状态映射到动作,而较低级别策略的潜在变量充当较高级别的动作空间。 至关重要的是,每一层在感知和影响环境的能力方面都是不受约束的:每一层都接收完整状态作为观察,并且每一层在构造上都是完全可逆的,因此层次结构中的更高层可以撤消任何变换 强加在下面层上的动作空间。
为了用潜在变量训练策略,我们将强化学习的问题放入概率图形模型的框架中。 为此,我们建立在最大熵强化学习 (Todorov, 2007; Ziebart et al., 2008) 的基础上,其中 RL 目标被修改以优化最大化奖励和熵的随机策略。 可以证明,在这个框架中,RL 问题等同于特定类型的概率图形模型中的推理问题(Toussaint,2009)。 通过用潜在变量扩充这个模型,我们可以推导出一种方法,该方法同时产生一个试图解决任务的策略,以及一个可以被更高级别的控制器用来引导策略行为的潜在空间。
我们使用的特定潜在变量模型表示基于归一化流(Dinh 等人,2016 年),该流将样本从球形高斯先验潜在变量分布转换为后验分布,在我们的策略中,这对应于分布 行动。 当这种转换由通用神经网络描述时,当网络足够大时,模型可以表示观察变量的任何分布。 通过在状态上调节整个生成过程,我们获得了一个可以表示动作的任何条件分布的策略。 当与最大熵强化学习算法相结合时,这会导致 RL 方法具有表现力、功能强大且非常稳定。 事实上,我们的实验评估表明,这种方法本身可以在许多连续控制基准任务上获得最先进的结果,而与其对分层 RL 的适用性无关。
我们论文的贡献包括一个稳定且可扩展的算法,用于训练具有潜在变量的最大熵策略,以及用于从这些潜在变量策略构建层次结构的框架。 层次结构以分层方式构建,通过一次训练一个潜在变量策略,每个策略使用其下方策略的潜在空间作为动作空间,如图 2 所示。每一层都可以根据真实奖励进行训练 对于任务,没有任何修改,或者在较低级别的塑造奖励上。 例如,对于学习一个复杂的导航任务,较低层可能会收到促进运动的奖励,而不管方向如何,而较高层的目标是到达特定位置。 当整形条件不可用时,可以对每一层使用相同的奖励函数,我们仍然观察到层次结构的显着改进。 我们的实验评估表明,我们的方法在各种基准任务的样本复杂性方面产生了最先进的结果,包括具有 21 个执行器的类人机器人,即使在训练层次结构的单层时,也可以进一步提高 添加附加层时的性能。
此外,我们说明了通过向较低层提供整形奖励可以有效地解决具有稀疏奖励信号的更具挑战性的任务。

2 相关工作

许多先前的工作已经探索了如何在概率推理框架中进行强化学习(Kappen,2005;Todorov,2007;Ziebart 等,2008;Toussaint,2009;Peters 等,2010;Neumann,2011) . 我们的方法基于将强化学习表述为图形模型中的推理(Ziebart 等人,2008 年;Toussaint,2009 年;Levine,2014 年)。 先前的工作表明,该框架导致了强化学习的熵最大化版本,其中标准目标增加了一个术语,该术语也导致策略最大化熵(Ziebart 等人,2008 年;Haarnoja 等人,2017 年; 2018 年;Nachum 等人,2017 年;Schulman 等人,2017a)。 直观地说,这鼓励了最大化奖励同时尽可能随机的策略,这对于稳健性、探索以及在我们的例子中增加层次结构中较低层的行为多样性很有用。 建立在强化学习的这种图形模型解释的基础上,也让我们很自然地用潜在变量来增强策略。 虽然之前的一些工作试图将最大熵策略与潜在空间的学习(Haarnoja 等人,2017 年;Hausman 等人,2018 年)甚至小状态空间中的学习层次结构(Saxe 等人,2017 年)结合起来,以 根据我们的知识,我们的方法是第一个将这种机制扩展到在连续域中使用深度强化学习设置学习分层策略的方法。
先前的分层学习框架通常基于选项或上下文策略。 选项框架(Sutton 等人,1999 年)将低级选项策略与调用单个选项的顶级策略相结合,而上下文策略(Kupcsik 等人,2013 年;Schaul 等人,2015 年;Heess 等人,2015 年)。 , 2016) 将选项概括为连续目标。 选项和上下文政策框架中的悬而未决的问题之一是应如何获取基本政策。 在某些情况下,合理的解决方案是求助于领域知识并手动设计一系列子目标(Heess 等,2016;Kulkarni 等,2016;MacAlpine & Stone,2018)。 另一种选择是训练端到端的整个层次结构(Bacon 等人,2017 年;Vezhnevets 等人,2017 年;Daniel 等人,2012 年)。 虽然端到端训练方案提供了通用性和灵活性,但它很容易学习只使用单一选项的退化策略,从而失去层次结构的大部分好处(Bacon 等,2017)。 为此,option-critic(Bacon 等人,2017 年)采用了在策略梯度方法(Mnih 等人,2016 年;Schulman 等人,2015 年)、Florensa 等人中普遍存在的标准熵正则化方案。 提出最大化顶层动作和状态分布的互信息,Daniel 等人。 绑定动作和顶级动作的互信息。 我们的方法还使用熵最大化来获得不同的基本策略,但与先前的方法相比,我们的子策略是可逆的并且由连续的潜在变量参数化。 因此,较高的层次可以撤销任何较低层次的转换,而较低的层次可以独立学习,允许我们以自下而上的分层方式训练层次结构。 与使用结构上不同的高层和低层的先前方法不同,我们层次结构中的所有层在结构上都是通用的,并且使用完全相同的程序进行训练。

5. Learning Latent Space Policies

在本节中,我们通过用潜在变量扩充图 1(a) 中的图形模型,讨论如何将 RL 的概率观点用于构建分层策略。 我们还将提出一种特殊的方法来参数化以这些潜在变量为条件的动作分布,该方法基于双射变换,这将为我们提供一个适合稳定的模型和易于处理的训练以及层次结构中较高级别完全反转较低层行为的能力,正如我们将在第 5.2 节中讨论的那样。 我们将推导出两层层次结构的方法来简化符号,但它可以很容易地推广到任意深度的层次结构。 在这项工作中,我们考虑自下而上的方法,我们首先训练一个低级策略,然后使用它为更高级别的策略提供更高级别的动作空间,理想情况下现在可以解决更简单的问题。

图1

图 1. (a) 通过考虑由转移概率、动作先验和最优性变量组成的图形模型,可以将最优控制问题转化为推理问题。 我们可以通过调节最优变量来推断最优动作。 (b) 然后我们可以训练一个潜在变量策略来逼近最优动作,用策略的动作分布来扩充图形模型,并以一组新的最优变量 P0:T 为条件。 虚线表示确定性(可逆)边缘。 © 通过边缘化 at 的动作,我们得到了一个新模型,该模型在结构上与 (a) 中的模型相同,其中 ht 承担了原始动作的角色。

你可能感兴趣的:(RL&OR)