本篇为自我学习过程中的要点记录,仅作学习使用。
所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。
感谢这篇汇总
ICML2020 180篇强化学习论文汇总: https://zhuanlan.zhihu.com/p/147774833?utm_source=ZHShareTargetIDMore.
Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)
多智能体协同决策是指在网络上进行具有时延的通信时,一群智能体协同解决学习问题。本文考虑了kernelised contextual bandit问题。1其中一个agent获得的奖赏是相关再生核Hilbert空间(RKHS)中上下文图像的任意线性函数,并且一组agent必须合作来共同解决其唯一的决策问题。对于这个问题,我们提出了extsc{Coop KernelUCB},这是一个在每个agent regret上提供近似最优边界的算法,在计算和通信方面都是有效的。对于合作问题的特殊情况,我们还提供了extsc{Coop KernelUCB}的变体,它提供了每个agent的最优regret。此外,我们的算法推广了多agent bandit环境下已有的一些结果。最后,在一系列综合的和真实的多智能体网络基准测试中,我们证明了我们的算法明显优于现有的基准测试。
Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)
研究了多智能体协作环境下的重尾随机bandit问题,其中一组agent与一个共同的bandit问题相互作用,同时在网络上进行有时延的通信。现有的随机bandit算法利用基于平均的通信协议产生的置信区间,该协议不适合重尾设置的鲁棒估计。我们提出了一个分散的多智能体算法来解决协作随机bandit问题,它将鲁棒估计与消息传递协议结合起来。我们证明了在多个问题设置下的最优regret界,并证明了它比现有方法的优越性。此外,我们建立了合作bandit问题的第一下界,并提供了鲁棒bandit位置估计的有效算法。
Yaodong Yang (Huawei Technology R&D UK) · Ying Wen (UCL) · Jun Wang (UCL) · Liheng Chen (Shanghai Jiao Tong University) · Kun Shao (Huawei Noah’s Ark Lab) · David Mguni (Noah’s Ark Laboratory, Huawei) · Weinan Zhang (Shanghai Jiao Tong University)
分散执行的集中式训练已成为多智能体学习的一种重要范式。目前的方法虽然实用,但是依赖于限制性的假设来分解agent之间的集中的值函数以供执行。本文通过提出多智能体行列式Q学习来消除这种限制。我们的方法建立在Q-DPP上,它是行列式点过程(DPP)在多智能体环境下的推广。Q-DPP促进了agent获得不同的行为模型;这使得联合Q函数可以自然分解,而不需要对值函数或特殊的网络结构进行结构约束。我们证明了Q-DPP在可分散协作任务上推广了包括VDN、QMIX和QTRAN在内的主要解决方案。为了有效地从Q-DPP中提取样品,我们采用了一个线性时间取样器,并保证了理论近似性。我们的采样器也有利于通过协调agent在训练期间覆盖状态空间中的正交方向进行探索。我们对我们的算法在各种协作基准上进行了评估,并与最新的算法进行了比较,证明了算法的有效性。
Rundong Wang (Nanyang Technological University) · Xu He (Nanyang Technological University) · Runsheng Yu (Nanyang Technological University) · Wei Qiu (Nanyang Technological University) · Bo An (Nanyang Technological University) · Zinovi Rabinovich (Nanyang Technological University)
研究了多智能体强化学习中的有限带宽通信问题,即多智能体在通信协议和调度器的协助下进行协作。协议和调度程序共同确定哪个agent正在向谁传递什么消息。在有限的带宽限制下,需要一个通信协议来生成信息消息。同时,不应建立不必要的通信连接,因为它徒劳地占用了有限的资源。在这篇论文中,我们提出一个信息化的多智能体通讯(IMAC)方法来学习有效的通讯协定和调度。首先,从通信理论的角度,我们证明了有限的带宽限制要求在整个传输过程中传递低熵的消息。在信息瓶颈2原理的启发下,我们学习了一个有价值的紧凑的通信协议和一个基于权重的调度器。为了验证该方法的有效性,我们在不同数量、不同带宽的多智能体协作和竞争任务中进行了大量的实验。与许多基线方法相比,在有限带宽下,IMAC收敛速度更快,并能有效地实现agent间的通信。
Somdeb Majumdar (Intel AI Lab) · Shauharda Khadka (Intel AI) · Santiago Miret (Intel AI Products Group) · Stephen Mcaleer (UC Irvine) · Kagan Tumer (Oregon State University US)
许多合作的多智能体强化学习环境为agent提供了稀疏的基于团队的奖励,以及密集的特定于agent的奖励,以激励学习基本技能。仅仅基于团队奖励的训练策略通常是很困难的,因为它是稀疏的。另外,仅仅依靠特定于智能体的回报是次优的,因为它通常不能捕获团队协调的目标。一种常见的方法是通过组合个体奖励来构造agent奖励。但是,这需要为每个环境手动调整。我们介绍了多智能体进化强化学习(MERL),它是一个分层次的训练平台,通过两个优化过程分别处理这两个目标。进化算法通过对一个团队群体进行神经进化,使稀疏的团队目标最大化。同时,一个基于梯度的优化器训练策略,以使密集的特定于agent的奖励最大化。在进化种群中周期性地加入基于梯度的策略,作为两个优化过程之间信息传递的方式。这使得进化算法能够使用通过特定于agent的奖励学习的技能来优化全局目标。结果表明,在一些困难的协调基准测试中,MERL的性能明显优于最新的方法,如MADDPG。
Tonghan Wang (Tsinghua University) · Heng Dong (Tsinghua) · Victor Lesser (UMASS) · Chongjie Zhang (Tsinghua University)
角色概念为设计和理解复杂的多智能体系统提供了一个有用的工具,允许具有相似角色的agent共享相似的行为。然而,现有的基于角色的方法使用领域先验知识并预定义角色结构和行为。相比之下,多智能体强化学习(MARL)具有灵活性和适应性,但在复杂任务中效率较低。在本文中,我们将这两种范式结合起来,提出了一个面向角色的MARL框架(ROMA)。在这个框架中,角色是突然出现的,具有相似角色的agent倾向于共享他们的学习并专门处理某些子任务。为此,我们通过引入两个新的正则化器和对角色的个体策略进行约束来构造一个随机的角色嵌入空间。实验表明,我们的方法可以学习专门的、动态的、可识别的角色,这有助于我们的方法在星际争霸II微管理基准测试中的水平提高。演示视频在https://sites.google.com/view/romarl/。
Alexander Vezhnevets (DeepMind) · Yuhuai Wu (University of Toronto) · Maria Eckstein (UC Berkeley) · Rémi Leblond (DeepMind) · Joel Z Leibo (DeepMind)
本文研究了多智能体博弈中的泛化问题,其中智能体的一般性可以通过与训练中从未见过的对手比赛来评估。我们提出了两个新的具有隐藏信息和复杂的,不可传递的奖励结构的游戏(比如石头/布/剪刀)。结果表明,目前大多数的深度强化学习方法无法有效地探索策略空间,因此学习的策略很难向不可见的对手推广。然后,我们提出了一种新的层次agent体系结构,该体系结构以博弈论的结构为基础,上层选择对对手的战略反应,而下层则将其执行为策略而不是原始行为。这种基础有助于跨层级的信用分配。我们的实验表明,所提出的分层智能体能够对看不见的对手进行泛化,而传统的基线则无法进行任何泛化。
Quinlan Sykora (Uber ATG) · Mengye Ren (Uber ATG / University of Toronto) · Raquel Urtasun (Uber ATG)
本文研究了多个agent协同路由问题。这是一个复杂的问题,在车队管理中有着广泛的应用,以实现一个共同的目标,例如从一群机器人中绘制地图和共享单车。传统的方法通常不是为包含稀疏连接图和未知流量的真实环境而设计的,并且在运行时速度太慢而不实用。相比之下,我们提出了一个基于图神经网络的模型,该模型能够在稀疏连通图中,在动态变化的交通条件下进行基于学习值迭代的多智能体路由。此外,我们学习的通信模块使agent能够在线协调并更有效地适应变化。我们创建了一个模拟环境来模拟由自主车辆在未知的最小边缘覆盖和交通状况下执行的真实映射;我们的方法在总成本和运行时间方面都显著优于传统的求解器。我们还证明了在最多25个节点的图上只使用两个agent训练的模型可以很容易地推广到具有更多agent和/或节点的情况。
Yaodong Yang (Tianjin University) · Jianye Hao (Tianjin University) · Guangyong Chen (Tencent) · Hongyao Tang (Tianjin University) · Yingfeng Chen (NetEase Fuxi AI Lab) · Yujing Hu (NetEase Fuxi AI Lab) · Changjie Fan (Netease) · Zhongyu Wei (Fudan University)
近年来,由于许多现实问题本质上可以看作是多智能体系统,因此深度多智能体强化学习(MARL)已成为一个非常活跃的研究领域。一类特别有趣且应用广泛的问题是部分可观测的合作多智能体环境,在这种情况下,一组智能体学习协调他们的行为,条件是他们的私人观察和共同分享的全球奖励信号。一个自然的解决方案是求助于集中培训和分散执行范式。在集中训练过程中,一个关键的挑战是多智能体的信用分配:如何为个体智能体策略分配全局奖励,以更好地协调系统级的利益。本文提出了一种新的Q值路径分解(QPD)方法,将系统的全局Q值分解为单个agent的Q值。与以往限制单个Q值和全局Q值表示关系的工作不同,我们利用集成梯度属性技术,将全局Q值沿轨迹路径直接分解,为agent分配信用。我们在具有挑战性的星际争霸II微管理任务上对QPD进行了评估,结果表明QPD在同质和异构多智能体场景下都达到了最先进的性能,与现有的协同MARL算法相比。
Tianyi Lin (UC Berkeley) · Zhengyuan Zhou (Stanford University) · Panayotis Mertikopoulos (CNRS) · Michael Jordan (UC Berkeley)
在本文中,我们考虑了一类称为λ-协迫对策的多智能体在线梯度下降学习问题,这类博弈是一类相当广泛的博弈,它允许许多纳什均衡,并且适当地包括无约束强单调博弈。我们刻画了λ-协同博弈上联合OGD学习的有限时间最后迭代收敛速度;在此基础上,我们开发了一个完全自适应的OGD学习算法,该算法不需要任何问题参数(如cocoercive常数λ)的知识,并通过一种新的双停止时间技术证明了该算法的有效性,该自适应算法与非自适应算法具有相同的有限时间最后迭代收敛速度。随后,我们将OGD学习推广到有噪声梯度反馈的情况下,建立最后一次迭代收敛结果——首先是定性几乎肯定收敛,然后是定量有限时间收敛速度——所有这些都是在不减小步长的情况下。据我们所知,我们提供了第一组结果,填补了现有多智能体在线学习文献中的几个空白,在这三个方面——有限时间收敛速度、非递减步长和完全自适应算法——以前都没有进行过探索。
Hengyuan Hu (FAIR) · Alexander Peysakhovich (Facebook) · Adam Lerer (Facebook AI Research) · Jakob Foerster (Facebook AI Research)
我们考虑零样本协调的问题——构造人工智能体,使之能够与他们从未见过的新伙伴(例如人类)协调。标准的多智能体强化学习(MARL)方法通常集中在自玩(SP)环境中,在这种环境下,Agent通过反复与自己玩游戏来构建策略。不幸的是,将SP直接地应用于零样本协调问题,可能会产生建立高度特殊化约定的agent,而这些约定不会传递给未接受过训练的新伙伴。**我们引入了一种新的学习算法other play(OP),它通过寻找更健壮的策略,利用潜在问题中已知对称性的存在来增强自学习。**我们从理论和实验两方面对OP进行了表征。我们研究了合作卡博弈Hanabi,发现当OP agent与独立训练的agent配对时,其得分更高。在初步结果中,我们还表明,与最先进的SP agent相比,我们的OP agent在与人类玩家配对时获得更高的平均分数。
James Kostas (University of Massachusetts Amherst) · Chris Nota (University of Massachusetts Amherst) · Philip Thomas (University of Massachusetts Amherst)
Coagent策略梯度算法(Coagent policy gradient algorithms,CPGAs)是一种用于训练一类称为Coagent网络的随机神经网络的强化学习算法。本文证明了cpga收敛于局部最优策略。此外,我们将先验理论扩展到包含异步和递归coagent网络。这些扩展有助于直接设计和分析分层强化学习算法(如option critic),并消除了对这些算法定制学习规则的复杂推导的需要。
Samy Jelassi (Princeton University) · Carles Domingo-Enrich (NYU) · Damien Scieur (Samsung - SAIT AI Lab, Montreal) · Arthur Mensch (ENS) · Joan Bruna (New York University)
数据驱动的建模越来越需要在多人博弈中找到一个纳什均衡,例如在训练GANs时。本文分析了一种新的求解纳什均衡的额外梯度方法,即在每次迭代时对随机的参与者子集进行梯度外推和更新。对于带有噪声梯度预言的非光滑凸对策,该方法比完全额外梯度方法具有更好的收敛速度。在光滑凸对策中,我们提出了一个额外的方差缩减机制来获得加速。我们的方法使外推法适用于大量的多层设置,并带来经验加速,特别是当使用启发式循环抽样方案时。最重要的是,它可以训练更快更好的GANs和混合GANs。
Yuxuan Xie (INSA de Lyon) · Jilles Dibangoye (INSA Lyon, INRIA) · Olivier Buffet (INRIA - LORIA)
在完全或不共享信息的情况下,最优解分散部分可观测Markov决策过程是近年来备受关注的问题。然而,对于部分信息共享对现有理论和算法的影响却知之甚少。本文针对一个由两个agent组成的团队,在单边信息共享的情况下,即两个agent都不完全了解世界的状态,但只有一个可以访问另一个所看到的和做的事情。**从中心计划者的角度,我们证明了原问题可以转化为一个等价的信息状态马尔可夫决策过程来求解。**此外,我们证明了最优值函数具有一种特殊形式的一致连续性。我们还提出了一个启发式搜索算法利用这一性质,并提供了这类问题的初步结果。
第1、2篇文章是多智能体在推荐系统中的应用。第3篇文章通过行列式Q学习解决了多智能体学习中值函数分解的问题。第4篇用多智能体的方法解决有限通信带宽中的通信问题。第5篇通过分层的方法平衡了个体奖励和团队奖励。第6篇提出了面向角色的方法,具有相同特征的角色共享学习使得在星际小游戏中表现提高。第7篇通过分层结构提高了强化学习的泛化能力。第8篇基于图网络,解决了动态交通环境下的智能体路由问题。第9篇是天大腾讯网易合作的文章,用Q值分解的方式解决全局奖励分配的问题,在星际小游戏上证明了性能。第11篇在零样本背景下提出OP算法,解决自玩过程中的一些问题。第14篇文章证明了在不完全信息共享的情况下最优值函数的一种连续性。
有些文章没有查到太多资料,也没来得及细读内容,如有错误,欢迎大佬多多指教。
什么是contextual bandit问题?
先搞清楚什么是bandit。简单来说,就是拿着游戏币在游戏厅玩老虎机以求利益最大化的问题。(注意每台老虎机的吐币概率不同)可参考:https://www.zhihu.com/question/53381093
而contextual bandit主要应用于推荐算法中,通过探索和利用获得较大的收益。可参考:https://zhuanlan.zhihu.com/p/35753281 ↩︎
信息瓶颈理论是指在尽量保留X关于Y的相关信息前提下,尽量降低X的码率。在深度学习中,这个理论通常认为:在这个边界上,网络在没有牺牲准确预测标签能力的情况下,尽可能地压缩输入。可参考:https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%93%B6%E9%A2%88/22761215?fr=aladdin
及https://zhuanlan.zhihu.com/p/60958638 ↩︎