ICLR 2020 多智能体强化学习论文总结

ICLR 2020 多智能体强化学习论文总结

  • 如有错误,欢迎指正
    • 所引用内容链接
  • Multi-Agent RL
    • 1.Multi-agent Reinforcement Learning For Networked System Control
    • 2.Intrinsic Motivation For Encouraging Synergistic Behavior
    • 3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies
    • 4.Multi-agent Interactions Modeling With Correlated Policies
    • 5.influence-based Multi-agent Exploration
    • 6.Learning Nearly Decomposable Value Functions Via Communication Minimization
    • 7.Learning Expensive Coordination: An Event-based Deep Rl Approach
    • 8.Evolutionary Population Curriculum For Scaling Multi-agent Reinforcement Learning
    • 9.Cm3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning
    • 10.Learning To Coordinate Manipulation Skills Via Skill Behavior Diversification
    • 11.Action Semantics Network: Considering the Effects of Actions in Multiagent Systems
  • 总结

如有错误,欢迎指正

本篇为自我学习过程中的要点记录,仅作学习使用。
所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。

所引用内容链接

感谢这篇汇总
ICLR 2020 强化学习相关论文合集: https://zhuanlan.zhihu.com/p/134589960.

Multi-Agent RL

1.Multi-agent Reinforcement Learning For Networked System Control

Tianshu Chu · Sandeep Chinchali · Sachin Katti

研究了网络化系统控制中的多智能体强化学习(MARL)。具体地说,每个agent基于本地观察和来自连接邻居的消息来学习分散控制策略。我们将这种网络化MARL(NMARL)问题描述为一个时空Markov决策过程,并引入空间折扣因子来稳定每个局部agent的训练。此外,我们提出了一种新的可微通信协议NeurComm,以减少NMARL中的信息丢失和非平稳性。通过在自适应交通信号控制和协同自适应巡航控制的实际NMARL场景下的实验,适当的空间折扣因子有效地增强了非通信MARL算法的学习曲线,而NeurComm在学习效率和控制性能上都优于现有的通信协议。

通信场景

2.Intrinsic Motivation For Encouraging Synergistic Behavior

Rohan Chitnis · Shubham Tulsiani · Saurabh Gupta · Abhinav Gupta

我们研究了在稀疏奖励协同任务中,内在动机作为强化学习的一种探索偏向的作用。协同任务是多个主体必须协同工作才能达到各自无法达到的目标。我们的核心思想是,协同任务中内在动机的一个好的指导原则是,采取影响世界的行动,而这些动作是智能体无法自己实现的。因此,我们建议激励智能体采取(联合)行动,其效果无法通过每个单独智能体的预测效果的组合来预测。我们研究了这一思想的两个实例,一个基于遇到的真实状态,另一个基于与策略同时训练的动力学模型。前者比较简单,后者的优点是对所采取的行动具有可分析的可微性。我们验证了我们的方法在机器人双手操作和稀疏奖励的多智能体运动任务中的有效性;我们发现我们的方法比两种方法都能产生更有效的学习效果:1)仅使用稀疏奖励的训练;2)使用典型的基于惊喜的内在动机公式,该公式不偏向协同行为。项目网页上提供了视频:https://sites.google.com/view/iclr2020-synergistic.

协同行为,机器人场景

3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies

Sungryull Sohn · Hyunjae Woo · Jongwook Choi · Honglak Lee

我们提出并解决了一个新的少样本RL问题,其中任务的特征是一个子任务图,该子任务图描述了一组子任务及其对agent的依赖性。agent需要在适应阶段快速适应任务,在适应阶段只需几个回合就可以使测试阶段的回报最大化。与直接学习元策略不同,我们开发了一种基于子任务图推理(MSGI)的元学习器,它通过与环境的交互来推断任务的潜在参数,并在给定的潜在参数下获得最大的收益。为了促进学习,我们采用了一种内在的奖励,这种奖励来自于鼓励有效探索的上限(UCB)。在两个网格世界域和星际争霸II环境下的实验结果表明,该方法能够准确地推断出潜在任务参数,并且比现有的元RL和层次RL方法更有效地适应。

与元强化相结合,星际环境

4.Multi-agent Interactions Modeling With Correlated Policies

Minghuan Liu · Ming Zhou · Weinan Zhang · Yuzheng Zhuang · Jun Wang · Wulong Liu · Yong Yu

在多智能体系统中,由于智能体之间的高度关联性,导致了复杂的交互行为。然而,以往从演示中建模多智能体交互的工作主要局限于假设策略及其奖励结构之间的独立性。本文将多智能体交互建模问题转化为一个多智能体仿真学习框架,通过对对手策略的逼近,对相关策略进行显式建模,从而恢复能够重新生成相似交互的agent策略。因此,我们开发了一个具有相关策略的分散对抗性模拟学习算法(CoDAIL),该算法允许分散训练和执行。各种实验表明,CoDAIL可以更好地在演示者附近重新生成复杂的交互,并且优于最先进的多智能体模拟学习方法。

5.influence-based Multi-agent Exploration

Tonghan Wang* · Jianhao Wang* · Yi Wu · Chongjie Zhang

本质激励强化学习旨在解决稀疏奖励任务的探索挑战。然而,在依赖于轨迹的多智能体环境下,对探索方法的研究在很大程度上是空白的。我们的目标是朝着解决这个问题迈出一步。我们提出了两种探索方法:信息论影响下的探索(EITI)和决策理论影响下的探索(EDTI),利用交互作用在agent协调行为中的作用。EITI利用相互信息来捕捉影响轨迹的动态。EDTI使用一种新的内在奖励,称为交互价值(VoI),来描述和量化一个agent的行为对其他agent的预期回报的影响。通过优化EITI或EDTI目标作为正则化器,鼓励agent协调他们的探索和学习策略,以优化团队绩效。我们展示了如何优化这些正则化器,以便它们可以很容易地与策略梯度强化学习集成。由此产生的更新规则将协调探索与内在报酬分配联系起来。最后,我们实证地证明了我们的方法在各种多智能体场景中的显著优势。

在协同开门的小游戏上做的测试

6.Learning Nearly Decomposable Value Functions Via Communication Minimization

Tonghan Wang* · Jianhao Wang* · Chongyi Zheng · Chongjie Zhang

强化学习在多智能体环境中遇到了诸如可伸缩性和非平稳性等主要挑战。近年来,价值函数分解学习成为解决协同多智能体系统中这些挑战的一种很有前途的方法。然而,现有的方法主要集中在学习完全分散的价值函数上,这对于需要交流的任务来说效率不高。针对这一局限性,本文提出了一种新的基于通信最小化的可分解Q函数学习框架,在这种框架下,智能体大部分时间都是自己行动的,但偶尔也会向其他智能体发送消息,以便进行有效的协调。该框架通过引入两个信息论正则化因子,将价值函数分解学习与交流学习相结合。这些正则化器最大化了agent的行为选择和通信消息之间的互信息,同时最小化了agent之间的消息熵。我们展示了如何以一种易于与现有的值函数因式分解方法(如QMIX)集成的方式优化这些正则化器。最后,我们证明,在星际争霸单元微控制基准测试中,我们的框架显著优于基线方法,允许我们在不牺牲性能的情况下切断80%以上的通信。

7.Learning Expensive Coordination: An Event-based Deep Rl Approach

Zhenyu Shi* · Runsheng Yu* · Xinrun Wang* · Rundong Wang · Youzhi Zhang · Hanjiang Lai · Bo An

现有的深层多智能体强化学习(MARL)的研究主要集中在协调协作Agent共同完成某些任务上。然而,在现实世界的许多情况下,agent是自利的,例如公司的雇员和联盟中的俱乐部。因此,领导者,即公司或联盟的经理,需要向追随者提供奖金,以实现有效的协调,我们称之为代价高昂的协调。昂贵协调的主要困难是:i)领导者在分配奖金时必须考虑长期效应并预测跟随者的行为;ii)追随者之间复杂的交互作用使得训练过程难以收敛,尤其是当领导者的策略随着时间变化时。在这项工作中,我们通过基于事件的深层RL方法来解决这个问题。我们的主要贡献有三个方面。(1) 我们将领导者的决策过程建模为半马尔可夫决策过程,并提出一种新的基于多智能体事件的策略梯度来学习领导者的长期策略。(2) 我们利用主从一致性方案设计了跟随者感知模块和跟随者特定注意模块,以预测跟随者的行为并对其行为做出准确的响应。(3) 我们提出了一种基于动作抽象的策略梯度算法,以减少跟随者的决策空间,从而加快跟随者的训练过程。在资源收集、导航和捕食者-食饵博弈中的实验表明,我们的方法大大优于现有的方法。

环境是基本的多智能体环境,提出了新的算法

8.Evolutionary Population Curriculum For Scaling Multi-agent Reinforcement Learning

Qian Long* · Zihan Zhou* · Abhinav Gupta · Fei Fang · Yi Wu† · Xiaolong Wang†

在多agent博弈中,环境的复杂性随着agent数量的增加而呈指数级增长,因此在agent数量庞大的情况下,学习好的策略显得尤为困难。本文介绍了进化种群课程(EPC),它是一种通过逐步增加多智能体强化学习(MARL)的课程学习范式。此外,EPC使用一种进化的方法来解决整个课程中的一个客观偏差问题:在早期阶段成功地训练出一个小规模群体的agent,不一定是适应具有规模化人口的后期阶段的最佳人选。具体来说,EPC在每个阶段维护多个agent集,对这些agent集进行混合匹配和微调,并提升对下一个阶段具有最佳适应性的agent集。我们在一个流行的MARL算法MADDPG上实现了EPC,并通过经验证明,随着agent数量的指数级增长,我们的方法始终比基线性能高出很多。

基本的环境:捕食,对抗,合作找食

9.Cm3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning

Jiachen Yang · Alireza Nakhaei · David Isele · Kikuo Fujimura · Hongyuan Zha

各种协作多agent控制问题要求agent在实现个体目标的同时,为集体成功做出贡献。这种多目标多agent设置给最近的算法带来困难,因为两个新挑战主要针对具有单一全球奖励的目标设置:有效探索学习个人目标实现和合作以获得他人成功,以及不同agent动作与目标之间相互作用的信用分配。为了解决这两个挑战,我们将问题重构为一个新的两阶段课程,在学习多agent合作之前学习单agent目标实现,并推导出一种具有信用函数的多目标多agent策略梯度,用于局部信用分配。我们使用功能增强方案来连接课程的价值和策略方程。完整的架构CM3在三个具有挑战性的多目标多agent问题上学习速度明显快于现有算法的直接适应性:在困难编队中进行协作导航,在SUMO交通模拟器中协商多车辆车道变化,以及在跳棋环境中进行战略合作

10.Learning To Coordinate Manipulation Skills Via Skill Behavior Diversification

Youngwoon Lee · Jingyun Yang · Joseph J. Lim

在掌握一项复杂的操作任务时,人类往往将任务分解为身体各部分的子技能,独立地练习这些子技能,然后共同执行这些子技能。类似地,具有多个末端执行器的机器人可以通过协调每个末端执行器的子技能来执行复杂的任务。为了实现技能的时间和行为协调,我们提出了一个模块化的框架,该框架首先对每个终端效应器的子技能进行技能行为多样化的训练,然后学习如何利用技能的不同行为来协调终端效应器。我们证明,我们提出的框架能够有效地协调技能来解决具有挑战性的协同控制任务,例如拿起一根长棒,在容器内放置一个块,同时用两个机器人手臂推动容器,以及用两个蚂蚁代理推箱子。视频和代码可在https://clvrai.com/coordination

机器人控制

11.Action Semantics Network: Considering the Effects of Actions in Multiagent Systems

Weixun Wang · Tianpei Yang · Yong Liu · Jianye Hao · Xiaotian Hao · Yujing Hu · Yingfeng Chen · Changjie Fan · Yang Gao

在多智能体系统(MASs)中,每一个智能体都会做出单独的决策,但所有这些决策都会对系统的全局演化做出贡献。大规模学习是困难的,因为每个主体的行为选择必须在其他共同学习主体在场的情况下进行。此外,环境随机性和不确定性随着agent数量的增加呈指数级增加。以前的工作将各种多智能体协调机制引入深度学习架构,以促进多智能体的协调。然而,它们都没有明确地考虑到agent之间的动作语义,不同的行为对其他agent的影响不同。在本文中,我们提出了一种新的网络架构,命名为动作语义学网路(ASN),它可以明确地表示agent间的动作语义学。ASN根据不同智能体之间的动作语义,利用神经网络来表征不同动作对其他智能体的影响。ASN可以很容易地与现有的深度强化学习(DRL)算法相结合来提高其性能。在星际争霸II小游戏和神经MMO上的实验结果表明,与几种网络架构相比,ASN显著提高了最先进的DRL方法的性能。

总结

ICLR 2020 强化学习论文106篇中有十几篇是关于多智能体强化的(可能有没有统计上的,欢迎指出)总体感觉针对多智能体的研究没有特别热门。

你可能感兴趣的:(强化学习,强化学习)