论文研读-Deep Multi-Agent Reinforcement Learning-2

深度多智能体强化学习(DMARL)

此篇文章为 博士学位论文:Deep Multi-Agent Reinforcement Learning 的论文学习笔记,只供学习使用,不作商业用途,侵权删除。并且本人学术功底有限如果有思路不正确的地方欢迎批评指正!

多智能体强化学习是一个非常有趣的研究领域,它与单智能体强化学习、多智能体系统、博弈论、进化计算和优化理论有着密切的联系。

(二)介绍

2.1 工业革命,认知和计算机

蒸汽机 1 以及随之而来的工业革命导致了机器对人类劳动的迅速替代。这些发展给人类生活的各个方面带来了巨大的变化,导致了全新的产业和社会的产生。特别是,在前工业化社会,绝大多数就业是在生产部门,而现代社会的大多数工人是在服务部门就业 2。重要的是,这些工作不需要体力,而是需要认知技能。例子包括医生和律师,也包括出租车司机、客服和护士。蒸汽机、化石燃料和其他能源为体力劳动所取得的成就,计算技术原则上应该能够为那些需要人类认知的任务所取得。

虽然计算是数字模拟的认知,乍一看,计算机和大脑之间有显著的区别。计算机使用在硅中实现的确定性二进制门进行操作,但大脑使用具有概率放电模式的噪声生物神经元 3 。此外,大脑和计算机执行的指令集之间有着明显的区别:计算机需要精心构造的程序来执行计算,其中的任何一位都可能导致失败。相比之下,所有在大脑上运行的神经程序都是通过与环境的反复交互来学习的,而不是由程序员提供的。历史上,人工智能(AI)的研究一直专注于通过执行设计者提供的规则集的专家系统重建类似人类的推理能力 4 。然而,虽然识别图片中的狗对大多数人来说是一项微不足道的任务,但指定一组规则来在各种不同的观点和背景下可靠地实现这一点已被证明是一项超人的挑战。

机器学习是一种将认知能力带入机器的替代方法。重要的是,在ML范例中,设计者不再需要指定一套识别狗的规则。相反,指定一组学习规则就足够了,这些学习规则结合示例的标记数据集允许算法提取决策规则。在过去的30年里,这种方法被证明是成功的,并改变了现代生活的许多领域。示例学习算法包括线性回归、支持向量机 5 、高斯过程 6 和许多其他算法。在过去十年中,深度学习 7 尤其取得了巨大的成功。突出的成功案例包括语音识别 8 、图像识别 9 、唇读 10 和语言翻译 11 等。所有这些成功案例都由大量输入和期望输出组成,这种设置通常被称为“监督学习”。重要的是,在监督学习中,训练数据集总是被假设为独立于算法做出的分类决策。

一旦算法做出的分类决策主动改变了未来的训练数据,就违背了这一假设。这种情况经常发生的一个领域是当算法采取影响有状态环境的动作时。例如,当自动驾驶汽车在训练过程中采取特定的行动时,这将改变汽车在训练过程的后期所接触到的数据和体验的种类。大量现实世界的问题都属于这一类。例如,排序算法会影响用户面临的决策类型,从而改变未来的训练数据。同样,当清洁机器人撞倒花盆时,这将改变未来的状态分布。

所有这些问题都可以在强化学习(RL)框架中形式化 12 。在RL中,代理(例如,机器人)通过基于其进行的观察(例如,相机输入)采取行动,顺序地与环境(例如,客厅)交互。动作空间定义了哪些动作对代理可用,对于清洁机器人,这些动作可能是导航动作,如“向左移动”、“向右移动”等。在每一个时间点,代理人都会收到来自环境的观察和奖励。智能体从观察到行动的映射被称为“策略”,RL的目标是找到一个策略,最大化一集内折扣奖励的预期总和。这里的“折扣”是指在剧集后期,也就是未来更远的地方出现的奖励不如早期的重要。一集由一系列观察、奖励和行动组成,并在达到“最终状态”时结束,在这种状态下,不会给予进一步的奖励,智能体也无法离开。重要的是,所选择的行动可以改变当前的奖励,但也会改变下一个状态的概率分布,进而影响未来的奖励。

此外,智能体没有先验地被提供管理状态转移概率或奖励函数的规则,而是必须从与环境的交互中学习。深度递归神经网络(DRL)指的是递归神经网络的一个子类,其中深度神经网络 7 被用作函数逼近器。特别是,DRL允许代理处理高维输入并学习相关的特征表示和策略。这是以需要大量可调参数为代价的。幸运的是,可以使用反向传播有效地训练这些参数。近年来,DRL已经成功地应用于许多领域,包括玩雅达利游戏 13 、围棋 14 和其他具有挑战性的设定。本文中的所有算法都可以应用于DRL环境。

2.2深度多智能体强化学习

在很大程度上,DRL的进展集中在单个代理需要解决静态任务的设置上,对应于单个代理的设置。相比之下,许多现实世界的挑战涉及包含大量学习代理的环境,因此本质上是多代理的。例子包括自动驾驶汽车、垃圾收集、包裹递送等等。在所有这些环境中,大量分布式代理需要能够基于本地观察做出独立决策,以便最有效地为总体目标做出贡献或最大化个人回报,同时考虑环境中其他代理的存在。值得注意的是,其他代理可以由其他学习算法组成,但是也可以包括生物代理,例如人类或其他动物。多智能体学习是解决这类问题的框架和研究领域。

MARL致力于开发和分析学习规则和算法,以便在这些多代理环境中发现有效的策略。除了这些设置之外,由于以下两个趋势,MARL很可能在未来几年发挥主要作用:首先,机器学习技术的应用正在我们的社会中变得无处不在。因此,人工智能系统可能需要考虑其环境中其他学习系统的存在。当算法没有考虑到他们环境中其他算法决策者的存在时,看似明智的规则可能会导致他们的互动出现激烈的、意想不到的结果,亚马逊上某些二手书的价格爆炸式上涨以及2010年的闪存崩溃就是其中的几个例子。此外,随着人工智能系统本身变得越来越有影响力,它们可能会开始影响人类用户自身的个性发展。例如,假设用户的偏好是静态的,并尝试提供这些偏好,这已经不够了。相反,用户的能动性需要通过对信念、理想和欲望的推理来考虑。

研究MARL的另一个原因是,它可以被视为开发具有类似人类推理能力的系统的垫脚石,尽管这样的目标还在遥远的未来。这一动机得到了这样一个事实的支持,即人类水平智力的发展发生在许多主体相互作用的社会背景下。事实上,研究表明 15 在灵长类动物中,群体大小与前额叶皮层占据的大脑百分比密切相关,前额叶皮层是负责高级认知功能的区域。这是非常直观的:对于许多智能主体,比如人类和猴子,环境中最复杂的相关部分是其他主体以及它们之间的相互作用。它还表明,更高层次的认知技能,如抽象,可能会在这些环境中自然出现:显然,当一个代理人必须将另一个代理人的当前精神状态解释为他们精神状态的一部分时,这对应于抽象思维的一个层次。

未来的智能代理也是如此,他们可能必须每天与人类和其他代理进行交互。除了更高层次的推理能力之外,人类已经开发了大量的工具来允许这种交互高效而流畅。这些工具包括‘互惠’、‘契约’、‘信仰’等概念,还包括语言、习惯、文化以及专门的表征和计算能力,如同理心。它们包括观察他人行动时改变视角的能力,以及理解某人为什么采取特定行动的能力。最后一部分通常被称为心理理论,其中一个代理人可以考虑另一个代理人的信仰、愿望或观点。所有这些都可以被视为数十万年甚至数百万年来发现的答案进化的一部分,以解决多智能体环境中出现的挑战,允许人类在同一环境中协调越来越多的智能体。

在这篇论文中,我们开发了新的深度多代理算法,允许代理组获得这些能力。我们特别关注以下三个挑战:合作、沟通和互惠。协作描述了在智能体学习的同时由于许多原因而出现的挑战,使得学习问题不断变化,或者是非平稳的。它还包括多代理人信用分配的问题:由于采取行动的代理人数量众多,通常不清楚特定代理人的特定行动是否具有总体积极或消极影响。实际上,环境中的其他代理在给定代理的奖励归属中充当混杂因素。

此外,每个代理的最优动作可以关键地依赖于其他代理的(未观察到的)动作选择,使得协调策略的学习具有挑战性。通信解决了与学习通信协议相关的挑战。在许多现实环境中,代理必须采取分散的行动,但可以访问有限带宽的离散通信信道。学习如何通过这种渠道交流信息,以一种对解决给定任务有用的方式,是一个难题。虽然迄今为止解决的所有挑战都出现在完全合作的环境中(即,当代理人旨在最大化联合团队奖励时),但互惠是一个困难的挑战,出现在一般和的环境中。

在这些环境中,如果代理设法鼓励其他代理与其合作,他们通常可以获得更高的回报。即使在军事冲突的情况下,人类也自然会与其他人类相互回报 16 ,但将这些能力应用于学习算法是一个悬而未决的问题。在解决这些问题时,我们通常会利用集中训练和分散执行:对于许多现实世界的问题,训练可以以集中的方式进行,例如通过使用模拟器或在训练过程中提供额外的状态信息,而在执行过程中,每个代理只需要基于本地观察独立选择他们的动作。

重要的是,假设算法能够在训练期间利用中心状态信息而在执行期间不需要它,集中训练可以极大地促进多代理设置中的学习过程。因此,在MARL中集中训练和分散执行的设置是在现实世界中部署强化学习算法的重要途径。有趣的是,我们甚至可以在非合作环境中使用集中训练来学习更好的策略,因为在执行过程中不需要中央状态信息。

2.3 整体结构

论文分为背景部分和三个主要部分,每个部分都解决了上面概述的一个多智能体强化学习挑战。在接下来的小节中,我们将简要概述不同的部分。

背景

在第二章中,我们正式介绍了多智能体RL设置,并提供了与本文其余部分相同的深度强化学习的必要算法和概念工具。为了使读者更容易消化背景信息,在相应的章节中介绍了仅特定章节所需的背景概念。

学会合作

单代理RL技术对MARL设置的最直接的适应被称为幼稚学习(NL)。在该算法中,每个代理执行单个代理RL,将所有其他代理视为环境的静态部分。NL的主要优势在于它不假设其他代理的学习行为。此外,NL通常被发现是一种健壮的方法,在许多多代理设置中工作得出奇地好 17 。在这篇论文中,NL将作为一个基准来比较我们的算法创新。如上所述,MARL最大的挑战之一是信用分配问题:由于所有代理人都在同时探索和学习,任何给定的代理人都很难估计他们的行为对整体回报的影响。例如,一个代理可能在给定的状态下选择了最优的动作,但是由于队友采取了探索性的动作,所以回报低于平均水平。代理将因此(错误地)学会降低概率选择这个(最佳的)行动。这个问题在NL中尤为突出,因为每个代理都根据自己的动作选择来跟踪预期的奖励,而忽略了其他代理做出的选择。

在第三章中,我们提出了反事实多主体策略梯度。COMA通过使用一个集中的批评家来利用集中的训练机制,该批评家学习一个以中央政府和所有代理人的联合行动为条件的价值函数。受差异奖励[18]的启发,我们使用这个价值函数来计算反事实基线。该基线是对如果代理选择不同的操作平均会发生什么的估计。应用于星际争霸微观管理的多智能体版本,我们发现COMA优于一组强基线。当COMA学习联合价值函数时,代理的策略被完全分解。换句话说,行动是独立采样的,因此联合行动的概率是不同代理之间概率的乘积。在某些情况下,这类分解策略将无法学习最优策略。特别地,每当最优动作选择关键地依赖于其他代理也选择最优动作时,一个代理的探索可以将另一个代理的最佳响应从最优动作移开。这些设置原则上可以通过学习在联合行动空间中行动的集中控制器来解决。然而,由于部分可观测性测试这些集中的政策一般不能以分散的方式执行。

第四章介绍了多智能体公共知识强化学习。MACKRL利用一组代理人的共同知识来学习联合行动政策,该政策可以以完全分散的方式执行。在这里,一组代理人的共同知识是所有代理人都知道的事情,所有代理人都知道,所有代理人都知道,无穷无尽。有趣的是,在各种MARL设置中,代理可以观察其他代理,从而形成常识。具体来说,MACKRL依赖于分级控制器,它可以为一组代理分配联合动作,也可以决定应该协调的代理分区。重要的是,虽然每个较小的子组协调动作选择的能力较低,但它们通常具有更多的共同知识。因此,MACKRL控制器学会在协调行动选择的需要和独立参与者可获得的更大信息量之间进行权衡。COMA和MACKRL是政策上的方法,即它们使用在当前政策下收集的训练数据。然而,像Qlearning这样的非政策方法可以提供更好的样本效率。
为了稳定学习,偏离策略的DRL在很大程度上依赖于使用重放存储器:在训练期间,经验被存储在重放存储器中,然后被随机采样以向代理提供不同范围的状态-动作对。然而,从任何给定代理的角度来看,环境中存在多个学习代理会使学习问题变得不稳定:给定代理的给定状态-动作对的预期回报也取决于团队中其他代理正在部署的策略类型。由于所有代理都在更新其策略,因此这一预期回报不断变化。为了应对这一基本挑战,在第5章中,我们提出了一种新颖的方法,用于在集中训练期间稳定体验重放,该方法使用多代理重要性权重的版本和元数据指纹,该指纹在训练期间被添加到每个代理的输入中。该元数据指纹消除了在训练的哪个阶段收集该集的歧义,从而允许代理隐式区分队友的不同策略。

学习交流

到目前为止,我们已经考虑了代理之间没有任何显式通信的设置。然而,在许多实际应用中,通过离散信道进行可靠、有限带宽的通信是可能的。在第6章中,我们研究了当离散的廉价通话信道可用时,代理如何学习发现通信协议以解决任务。这里的闲聊意味着信息对环境或奖励的转移概率没有直接影响。特别地,我们提出了两种方法,可区分的智能体间学习(DIAL)和增强的智能体间学习(RIAL)。在集中训练期间,DIAL将离散消息建模为连续激活,并在不同代理之间传递梯度,以便了解发送什么消息。相比之下,里亚尔将消息视为动作空间的一部分,并学习使用RL发送哪些消息。在第七章中,我们介绍了贝叶斯行动解码器,它是引入公众信仰MDP的RIAL的扩展。与DIAL相反,BAD可以在没有廉价通话频道的环境下工作。特别是,当其他代理观察到代理时,它允许代理通过其环境操作进行通信。通过直接允许代理人对其他代理人的信念进行推理,BAD在合作的部分信息牌游戏Hanabi上实现了一个新的最先进的状态。Hanabi的主要挑战是找到有效的协议,让玩家通过他们的行动相互交流。

学会回报

到目前为止,所有提出的方法都假设了一个完全合作的环境,在这个环境中,代理人学习合作和协调,以便最大化团队奖励。然而,在许多现实问题中,代理人的目标是最大化多样化的个人回报,这可能会导致不同代理人之间的利益冲突。例如,每个司机通常希望尽快到达目的地,而不是最大化交通的整体效率。博弈论在研究这些环境下的最优策略方面有着悠久的历史。这里的核心概念是纳什均衡,当没有一个代理人可以通过单边改变政策来提高他们的回报时,纳什均衡就实现了。然而,博弈论通常假设所有的纳什均衡都是已知的并且可以计算,而在RL设置中通常不是这样。特别是,在MARL中,代理必须依赖与环境的交互才能在第一时间了解任何策略。尽管NL在完全合作环境中有着令人惊讶的良好记录,但总的来说,设置问题可能会出现。首先,所有主体最大化自己的目标会导致不稳定的学习行为。其次,代理人可能无法回报,导致纳什均衡收敛,在纳什均衡中,所有代理人的情况都更糟。这两个问题都是由于其他代理被视为环境的静态部分。具有对手学习意识的学习(LOLA)旨在克服这些问题,并允许代理收敛到Nash高回报的均衡。不是假设其他代理是静态的,而是每个代理假设其他代理是幼稚的学习者,并在对手学习一步后优化预期回报。重要的是,代理可以通过对手的学习步骤进行区分,从而形成他们的策略。LOLA特工设法在反复出现的囚徒困境中发现了著名的针锋相对的策略。一个技术难点是,通过代理的学习步骤进行区分会产生更高阶的导数,需要使用来自环境的样本对其进行估计。在第九章中,我们介绍了一种估计随机计算图高阶梯度的新方法:无限可微蒙特卡罗估计。


  1. John Ruggles. Locomotive steam-engine for rail and other roads. US Patent 1.
    July 1836. ↩︎

  2. Jeremy Rifkin. The end of work: The decline of the global labor force and the
    dawn of the post-market era. ERIC, 1995. ↩︎

  3. William M Siebert. “Frequency discrimination in the auditory system: Place or
    periodicity mechanisms?” In: Proceedings of the IEEE 58.5 (1970), pp. 723–730. ↩︎

  4. Donald Waterman. “A guide to expert systems”. In: (1986). ↩︎

  5. Marti A. Hearst et al. “Support vector machines”. In: IEEE Intelligent Systems
    and their applications 13.4 (1998), pp. 18–28. ↩︎

  6. Carl Edward Rasmussen. “Gaussian processes in machine learning”. In: Advanced
    lectures on machine learning. Springer, 2004, pp. 63–71. ↩︎

  7. Yann LeCun et al. “Gradient-based learning applied to document recognition”. In:
    Proceedings of the IEEE 86.11 (1998), pp. 2278–2324. ↩︎ ↩︎

  8. Geoffrey Hinton et al. “Deep neural networks for acoustic modeling in speech
    recognition: The shared views of four research groups”. In: IEEE Signal processing
    magazine 29.6 (2012), pp. 82–97. ↩︎

  9. Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. “Imagenet classification
    with deep convolutional neural networks”. In: Advances in neural information
    processing systems. 2012, pp. 1097–1105. ↩︎

  10. Brendan Shillingford et al. “Large-scale visual speech recognition”. In: arXiv
    preprint arXiv:1807.05162 (2018). ↩︎

  11. Ilya Sutskever, Oriol Vinyals, and Quoc V Le. “Sequence to sequence learning
    with neural networks”. In: Advances in neural information processing systems.
    2014, pp. 3104–3112. ↩︎

  12. Richard S Sutton. “Learning to predict by the methods of temporal differences”.
    In: Machine learning 3.1 (1988), pp. 9–44. ↩︎

  13. Volodymyr Mnih et al. “Human-level control through deep reinforcement
    learning”. In: Nature 518.7540 (2015), pp. 529–533. ↩︎

  14. David Silver et al. “Mastering the game of Go with deep neural networks and tree
    search”. In: Nature 529.7587 (2016), pp. 484–489. ↩︎

  15. Robin IM Dunbar. “Neocortex size as a constraint on group size in primates”. In:
    Journal of human evolution 22.6 (1992), pp. 469–493. ↩︎

  16. Robert M Axelrod. The evolution of cooperation: revised edition. Basic books,2006. ↩︎

  17. Erik Zawadzki, Asher Lipson, and Kevin Leyton-Brown. “Empirically evaluating
    multiagent learning algorithms”. In: arXiv preprint arXiv:1401.8074 (2014). ↩︎

你可能感兴趣的:(多智能体深度强化学习,强化学习)