AAMAS 2021 强化学习论文70篇(自整理)

AAMAS 2021接收论文列表:

HTTPS://WWW.IFAAMAS.ORG/PROCEEDINGS/AAMAS2021/FORMS/CONTENTS.HTM

AAMAS 2021 MARL论文(36篇)

一、非应用类(33篇)

1.Learning Correlated Communication Topology in Multi-Agent Reinforcement learning MARL中相关通信拓扑的学习
Yali Du, Bo Liu, Vincent Moens, Ziqi Liu, Zhicheng Ren, Jun Wang, Xu Chen, Haifeng Zhang
(PDF | Details)
多智能体通信Multi-agent Communication
有的智能体通信研究仅限于预定义的固定连接。虽然注意机制存在,并且有助于安排智能体之间的通信,但它在很大程度上忽略了通信的动态性质,从而忽略了智能体之间连接的相关性。在这项工作中,我们采用规范化流程来编码智能体之间的交互关系,动态通信拓扑直接通过最大化智能体回报来学习。在我们的端到端公式中,通信结构是通过将其视为隐藏的动态变量来学习的。环境:MPE合作导航;自适应交通控制任务。

2.An Abstraction-based Method to Check Multi-Agent Deep Reinforcement-Learning Behaviors 一种基于抽象的MADRL行为检测方法
Pierre El Mqirmi, Francesco Belardinelli, Borja G. León
(PDF | Details)
安全强化学习Safe RL
MARL通常难以确保学习智能体的安全行为,因此通常不适用于安全关键应用。为了解决这个问题,我们提出了一种将形式验证与RL算法相结合的方法,以确保在训练和测试中满足形式指定的安全约束。

3.Safe Multi-Agent Reinforcement Learning via Shielding 基于屏蔽的安全多智能体强化学习
Ingy ElSayed-Aly, Suda Bharadwaj, Christopher Amato, Rüdiger Ehlers, Ufuk Topcu, Lu Feng
(PDF | Details)
安全强化学习Safe RL
MARL已越来越多地应用于各种安全关键应用中,这些应用要求在学习过程中确保安全(如从不访问不安全的状态)。不幸的是,目前的MARL方法没有安全保证。因此,我们提出了两种安全MARL的屏蔽方法。

4.Partially Observable Mean Field Reinforcement Learning 部分可观测平均场强化学习
Sriram Ganapathi Subramanian, Matthew E. Taylor, Mark Crowley, Pascal Poupart
(PDF | Details)
平均场强化学习Mean-field RL/大量智能体
传统的MARL算法不能扩展到具有很多智能体的环境中,但利用平均场理论可以将MARL算法扩展到有更多智能体的场景。这方面之前的工作假设,智能体可以访问有关系统平均场行为的精确累积度量,然后可以使用这些度量采取行动。在本文中,我们放松了这个假设,并保持一个分布来模拟系统平均场的不确定性。

5.Multi-Agent Reinforcement Learning with Temporal Logic Specifications 基于时序逻辑规范的多智能体强化学习
Lewis Hammond, Alessandro Abate, Julian Gutierrez, Michael Wooldridge
(PDF | Details)
时序逻辑规范Temporal Logic Specifications
我们研究了在未知环境中,一组可能表现出概率行为的智能体学习满足时序逻辑规范的问题。从学习的角度来看,这些规范提供了一种丰富的形式化语言,用于捕获任务或目标,而从逻辑和自动验证的角度来看,学习能力的引入允许在大型、随机、未知环境中进行实际应用。然而,这方面的现有工作有限。我们开发了第一种面向时序逻辑规范的多智能体强化学习技术,提出了ALMANAC(Automaton/Logic Multi-Agent Natural Actor Critic)算法。

6.Cooperative-Competitive Reinforcement Learning with History-Dependent Rewards基于历史奖励的合作-竞争强化学习
Keyang He, Bikramjit Banerjee, Prashant Doshi
(PDF | Details)
混合合作竞争环境
我们首先证明了智能体的决策问题可以被建模为一个交互式部分可观测马尔可夫决策过程(I-POMDP),该过程捕捉了历史相关奖励的动态。我们提出了一种交互式优势演员-评论家方法(Interactive Advantage Actor-Critic,IA2C+),将独立的A2C网络与一个信念过滤器相结合,该过滤器保持了对其他智能体模型的信念分布。

7.Deep Implicit Coordination Graphs for Multi-agent Reinforcement Learning 多智能体强化学习的深层隐式协调图
Sheng Li, Jayesh K. Gupta, Peter Morales, Ross Allen, Mykel J. Kochenderfer
(PDF | Details)
协调Coordination/协调图Coordination Graphs
在需要协调的MARL中,完全集中控制通常是不可行的。基于协调图的形式化允许基于交互结构对联合动作进行推理。然而,它们的设计通常需要领域专家。本文介绍了适用于此类场景的深层隐式协调图(Deep Implicit Coordination Graphs ,DICG)体系结构,允许通过标准的AC方法学习完全集中和分散之间的权衡,以显著改善具有大量智能体的域的协调。实验环境:PP,SMAC,交通枢纽环境。

8.Contrasting Centralized and Decentralized Critics in Multi-Agent Reinforcement Learning 多智能体强化学习中集中与分散Critic的对比
Xueguang Lyu, Yuchen Xiao, Brett Daley, Christopher Amato
(PDF | Details)
Critic
我们正式分析了集中和分散的critics方法,从而对critic选择的含义有了更深入的理解。我们表明,目前的文献中存在关于集中式critics的误解,并表明集中式critic设计并非绝对有益,而是集中式和分散式critic都有不同的优点和缺点,算法设计者应该加以考虑。

9.Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning 多智能体协作强化学习中的智能体交互建模
Xiaoteng Ma, Yiqin Yang, Chenghao Li, Yiwen Lu, Qianchuan Zhao, Jun Yang
(PDF | Details)
协作Cooperation/交互建模
提出了一种新的合作MARL算法,称为交互式行动者-批评家(Interactive Actor-Critic,IAC),该算法从策略和价值函数的角度对智能体之间的交互进行建模。实现时,我们将价值分解方法扩展到连续控制任务,并在基准任务(包括经典控制和MPE)上评估IAC。

10.Cooperation between Independent Reinforcement Learners under Wealth Inequality and Collective Risks 财富不平等和集体风险下独立强化学习者的合作
Ramona Merhej, Fernando P. Santos, Francisco S. Melo, Francisco C. Santos
(PDF | Details)
公共物品困境public goods dilemma/财富不平等Wealth Inequality
我们研究了财富不平等如何影响独立强化学习者群体的行为动态特性,这些学习者面临着收益不确定的临界公共品困境。该游戏允许个人向一个公共池捐款或不捐款,以减少他们未来损失的机会。阈值引入的非线性、风险引入的随机性以及参与者的财富异质性导致了一个具有多重均衡的博弈环境。我们发现,在这种情况下,学习者的动态特性在决定达到的平衡点方面起着重要作用。我们的研究结果表明,在基于个人的学习下,财富不平等会对新兴的集体行为产生相当大的影响,从而降低群体成功的总体机会。

11.Reward Machines for Cooperative Multi-Agent Reinforcement Learning 多智能体协作强化学习的奖励机
Cyrus Neary, Zhe Xu, Bo Wu, Ufuk Topcu
(PDF | Details)
协作Cooperation/奖励机Reward Machines
我们提出使用奖励机器(RM)——作为奖励函数的结构化表示的Mealy机器——对团队的任务进行编码。

12.Cooperative and Competitive Biases for Multi-Agent Reinforcement Learning 多智能体强化学习中的合作和竞争偏差
Heechang Ryu, Hayong Shin, Jinkyoo Park
(PDF | Details)
我们提出了一种算法,利用基于朋友或敌人概念的其他智能体的有偏动作信息来增强MARL训练。

13.Towards Decentralized Social Reinforcement Learning via Ego-Network Extrapolation 基于自我网络外推的分散式社会强化学习
Mahak Goindani, Jennifer Neville
(PDF | Details)
在这项工作中,我们在定向社会网络中考虑具有大量智能体的MARL的问题。用户活动之间的网络依赖性会影响个人行为的回报,需要将其纳入策略学习中,然而,定向交互要求每个用户都能部分观察到网络。在本地估计策略时,由于状态信息不足,用户很难有效地了解网络依赖关系。为了解决这个问题,我们在一个分散的策略学习和执行框架中使用了参数共享和自我网络外推。

14.Attention Actor-Critic Algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning 多智能体约束协作强化学习的注意AC算法
P. Parnika, Raghuram Bharadwaj Diddigi, Sai Koti Reddy Danda, Shalabh Bhatnagar
(PDF | Details)
带约束的Constrained
我们考虑在一个合作环境中计算RL的最优行动的问题,其中目标是优化一个共同的目标。然而,在许多实际应用中,代理还需要满足对其动作指定的某些约束。在这种设置下,智能体的目标不仅是学习优化公共目标的操作,而且还要满足指定的约束。近年来,带有注意机制的Actor-Critic算法已成功地应用于多智能体环境中。在本研究中,我们将此算法扩展到有约束的MARL环境。

15.Approximate Difference Rewards for Scalable Multigent Reinforcement Learning 可扩展多智能体强化学习的近似差分奖励
Arambam James Singh, Akshat Kumar, Hoong Chuin Lau
(PDF | Details)
我们解决了大规模多智能体系统中的多智能体信用分配问题。差异奖励(Difference Rewards,DRs)是解决这一问题的有效工具,但其精确计算即使对少量智能体来说也是一个挑战。我们提出了一种可扩展的方法,利用实际应用中存在的对称性,在具有大量智能体的多智能体系统中,基于聚合信息计算差异报酬。对两个多智能体领域——空中交通控制和合作导航的实证评估表明,与以前的方法相比,我们解决方案的质量更好。

16.A Distributional Perspective on Value Function Factorization Methods for Multi-Agent Reinforcement Learning 多智能体强化学习中价值函数分解方法的分布式视角
Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee
(PDF | Details)
值函数分解Value Function Factorization/分布式强化学习Distributional RL
分布式强化学习为单智能体领域提供了有益的影响,但其与用于MARL的值函数分解方法并不直接兼容。这项工作提供了价值函数分解的分布式视角,为弥合分布式RL和价值函数分解方法之间的差距提供了解决方案。

17.Reward-Sharing Relational Networks in Multi-Agent Reinforcement Learning as a Framework for Emergent Behavior 作为涌现行为框架的多智能体强化学习中的奖励共享关系网络
Hossein Haeri (University of Massachusetts, Lowell)
(PDF | Details)
(博士生论坛)奖励共享reward-sharing
本研究旨在将用户定义的关系网络集成到MARL设置中,并评估智能体关系对涌现行为生成的影响。具体来说,我们提出了一个框架,使用奖励共享关系网络(Reward-Sharing Relational Networks,RSRN)的概念来确定智能体之间的关系,其中边权决定一个智能体对另一个智能体的成功(或“关心”)投入了多少。初步结果表明,奖励共享关系网络可以有效地影响学习者对强加关系网络的行为。

18.Cooperative Prioritized Sweeping 合作优先扫除
Eugenio Bargiacchi, Timothy Verstraeten, Diederik M. Roijers
(PDF | Details)
基于模型Model-based/合作Cooperation
我们提出了一种新的基于模型的算法Cooperative Prioritized Sweeping,用于大型多智能体MDP中的样本高效学习。我们的方法以动态决策网络的形式利用有关问题结构的领域知识。使用这些信息,我们的方法学习环境模型,以确定哪些状态-动作对最有可能需要更新,从而显着提高学习速度。然后可以执行批量更新,其有效地在整个值函数中反向传播知识。我们的方法在著名的SysAdmin基准测试,随机环境以及消防员基准的完全可观察变体方面均优于最先进的稀疏协作Q学习和QMIX算法。

19.Improved Cooperation by Exploiting a Common Signal 通过利用共同信号改善合作
Panayiotis Danassis, Zeki Doruk Erden, Boi Faltings
(PDF | Details)
公共池资源Common-pool resources/合作Cooperation
人工智能能从人类习惯中受益吗?尽管非合作博弈论的预测很悲观,但人类社会成功地自我组织并解决了公共资源共享的悲剧。最重要的是,现实世界中的问题本质上是大规模的,且不易观察的。在这种环境中促进人类协调的一个关键概念是使用约定。受人类行为的启发,我们研究了学习动态特性和时间约定的出现,重点关注公共池资源。在设计一个现实的评估环境时,我们特别强调a)环境动力学是以现实世界的渔业为模型的; 2)我们假设分散学习,在这种学习中,智能体只能观察自己的历史; c)我们运行大规模模拟(最多64个智能体)。
不耦合的策略和低可观测性使得合作难以实现;随着智能体数量的增加,采取正确梯度方向的概率呈指数下降。通过引入任意公共信号(例如,日期、时间或任何周期性的数字集)作为耦合学习过程的手段,我们证明了时间约定可以出现,智能体可以达成可持续的收获策略。

20.Accumulating Risk Capital Through Investing in Cooperation 通过投资合作积累风险资本
Charlotte Roman, Michael Dennis, Andrew Critch, Stuart Russell
(PDF | Details)
在MARL中促进合作的代价是更容易受到恶意行为者的剥削。我们表明,这是一个不可避免的权衡,并提出一个平衡这些关切的目标,促进安全和长期合作。此外,安全与合作之间的权衡并不严重,通过少量风险的合作,可以获得成倍增长的回报。我们研究了一种精确的解决方法,并提出了一种针对这一目标的训练策略的方法,即通过投资合作积累风险资本(Accumulating Risk Capital Through Investing in Cooperation ARCTIC),并在重复囚徒困境和猎鹿中对其进行评估。

21.Cooperative Policy Learning with Pre-trained Heterogeneous Observation Representations 具有预训练的异质观察表征的合作策略学习
Wenlei Shi, Xinran Wei, Jia Zhang, Xiaoyuan Ni, Arthur Jiang, Jiang Bian, Tie-Yan Liu
(PDF | Details)
合作Cooperation
在协作MARL方面,许多现有的研究利用GNN在基于互联智能体的交互图上传播关键的协作信息。但由于通用的消息传递机制在异构顶点之间无效,而且简单的消息聚合函数无法准确地建模来自多个邻居的组合交互,因此,vanilla GNN方法在处理复杂的现实场景时会产生很大的缺陷。虽然采用具有更多信息传递和聚合机制的复杂GNN模型可以明显有利于异构顶点表示和合作策略学习,但其增加了MARL的训练难度。为了应对这些挑战,我们提出了一个新的合作学习框架,其中包含预先训练好的异质观察表征。特别是,我们使用基于encoder-decoder的图形注意来学习复杂的交互和异构表示,这些更容易被MARL利用。此外,我们还设计了一种基于局部AC的预训练算法,以缓解合作策略学习的困难。

22.Balancing Rational and Other-Regarding Preferences in Cooperative-Competitive Environments 在合作竞争环境中平衡理性和其他偏好
Dmitry Ivanov, Vladimir Egorov, Aleksei Shpilman
(PDF | Details)
混合合作竞争Cooperative-Competitive
混合合作竞争环境中,自私和社会利益冲突,纯粹理性的智能体往往难以维持合作。诱导合作行为的一种普遍方法是根据其他智能体的幸福感分配额外的奖励。然而,这种方法存在多智能体信用分配问题。在协作环境中,使用QMIX和COMA等可以有效地缓解这个问题。但当在混合环境中,使用这些算法可能会导致不公平的奖励分配。我们提出BAROCCO,它是这些算法的扩展,能够平衡个人和社会激励。BAROCCO背后的机制是训练两个不同但相互交织的组成部分,共同影响智能体的决策。

23.Learning Robust Helpful Behaviors in Two-Player Cooperative Atari Environments 在两人合作的Atari环境中学习强大的帮助行为
Paul Tylkin, Goran Radanovic, David C. Parkes
(PDF | Details)
双人合作
我们研究学习帮助行为的问题,特别是在两人合作的雅达利游戏中学习与各种不同技能的伙伴合作。

24.Multi-Agent Coordination in Adversarial Environments through Signal Mediated Strategies 通过信号介导策略在对抗环境中进行多智能体协调
Federico Cacciamani, Andrea Celli, Marco Ciccone, Nicola Gatti
(PDF | Details)
我们关注的是在零和、不完全信息博弈中,一组智能体面对一个对手的场景。团队成员可以在比赛开始前协调他们的策略,但在比赛阶段无法沟通。
我们的第一个贡献是一个博弈论集中训练方案,以有效地执行轨迹采样,从而促进团队协调。然后,我们引入了一个基于信号的框架来表示团队协调的策略。通过结合这两个元素,以前最先进的MARL算法没有收敛到协调均衡的情况下,我们的方法可以收敛到协调均衡。

25.Difference Rewards Policy Gradients 区分奖励策略梯度
Jacopo Castellini, Sam Devlin, Frans A. Oliehoek, Rahul Savani
(PDF | Details)
信用分配Credit assignment/分散的策略decentralized policies
提出了一种称为Dr.Reinforced的新算法,该算法通过将差异奖励与策略梯度相结合来明确解决多智能体信用分配的问题(评估智能体对整体性能的贡献),以便在奖励函数已知的情况下学习分散的策略。通过直接区分奖励函数,Enhanced博士避免了与学习Q函数相关的困难,正如最先进的区分奖励函数的方法COMA那样。

26.Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems 多样化的自动课程对于成功的现实世界多智能体学习系统至关重要
Yaodong Yang, Jun Luo, Ying Wen, Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang, Matthew E. Taylor
(PDF | Details)
自动课程auto-curriculum
MARL在解决各种类型的电子游戏方面取得成功的基石是自动课程框架,该框架通过不断为智能体创造新的挑战性任务让其适应来塑造学习过程。为了将MARL方法扩展到视频游戏之外的现实世界领域,我们在本文中设想,维护一个具有多样性的自动课程对于成功的MARL应用至关重要。具体而言,我们认为,行为多样性是现实世界多智能体学习系统中一个关键但尚未充分探索的组成部分,在理解如何设计一个具有多样性的自动课程方面仍有大量工作要做。我们还列出了自动课程技术的四个公开挑战。

27.Towards Sample Efficient Learners in Population based Referential Games through Action Advising 在基于群体的参考游戏中通过动作建议使学习者样本有效
Shresth Verma
(PDF | Details)
(Extended Abstract)
通过涌现通信任务研究了智能体通过交互学习通信的能力。该领域的前期工作研究了新兴语言的语言特性,如组合性、泛化性,以及塑造它们的环境压力。然而,这些实验大多需要在智能体之间共享相当多的训练时间才能成功地进行通信。我们的工作强调了基于群体的参考博弈中智能体样本效率低下的问题,并提出了一个动作建议框架来应对这一问题。

28.Multi-Agent Graph-Attention Communication and Teaming 多智能体图-注意力通信和团队合作
Yaru Niu, Rohan Paleja, Matthew Gombolay
(PDF | Details)
在MARL中,综合有效的策略需要对何时通信、与谁通信以及如何处理消息进行推理。我们提出了一种新的MARL算法,即多智能体图-注意通信(MAGIC),它带有一个图-注意通信协议。我们在各种合作任务中评估我们的方法,包括Google Football Research。

29.A General Trust Framework for Multi-Agent Systems 多智能体系统的通用信任框架
Mingxi Cheng, Chenzhong Yin, Junyao Zhang, Shahin Nazarian, Jyotirmoy Deshmukh, Paul Bogdan
(PDF | Details)
未来的交通系统最好建模为MAS,目前已经开发了一些提高此类系统安全性和效率的协调协议。这些系统的总体目标是在参与智能体与集中式(或分布式)协调器协同工作的假设下提供行为保证。虽然有人从安全角度分析此类系统,但我们认为,在MAS中量化单个智能体的可信度方面的工作有限。我们提出了一个框架,该框架使用认知逻辑来量化智能体的可信度,并将量化可信度值的使用嵌入到控制和协调策略中。我们修改的控制策略可以帮助MAS在存在不可信智能体(以及在某些假设下,包括恶意代理)的情况下提高其安全性。

30.Intrinsic Motivated Multi-Agent Communication 多智能体通信的内在激励
Chuxiong Sun, Bo Wu, Rui Wang, Xiaohui Hu, Xiaoya Yang, Cong Cong
(PDF | Details)
我们提出了一种新的通信机制,称为内在激励多智能体通信(Intrinsic Motivated Multi-Agent Communication,IMMAC)。我们的主要见解可以概括为“传达让你惊讶的事情”。

31.Distributed Q-Learning with State Tracking for Multi-agent Networked Control 用于多智能体网络控制的具有状态追踪的分布式Q学习
Hang Wang, Sen Lin, Hamid Jafarkhani, Junshan Zhang
(PDF | Details)
本文研究了多智能体网络中线性二次型调节器(LQR)的分布式Q学习问题。现有的结果通常假设智能体可以观察全局系统状态,这在大规模系统中可能由于隐私问题或通信限制而不可行。在这项工作中,我们考虑了一个具有未知系统模型和没有集中式协调器的设置。我们设计了一种基于状态跟踪(ST)的Q-学习算法来设计智能体的最优控制器。

32.Efficient Nonmyopic Online Allocation of Scarce Reusable Resources 高效非近视在线分配稀缺的可重用资源
Zehao Dong, Sanmay Das, Patrick Fowler, Chien-Ju Ho
(PDF | Details)
我们研究的环境是,必须以在线方式将一组相同的、可重用的资源分配给到达的智能体。每个到达的智能体都有耐心,愿意等待一段时间来匹配。当匹配时,每个智能体都会占用一个资源一段时间,然后释放它,从中获得一些效用。系统设计者的目标是在已知到达智能体分布的一些先验知识的情况下,最大化总体效用。我们为此问题开发了新的、高效的算法。

33.Fast Adaptation to External Agents via Meta Imitation Counterfactual Regret Advantage 通过元模仿反事实后悔优势快速适应外部智能体
Mingyue Zhang, Zhi Jin, Yang Xu, Zehan Shen, Kun Liu, Keyu Pan
(PDF | Details)
本文主要研究多智能体信用分配问题。我们提出了一种新的MARL算法,称为Meta Imitation Counterfactual Regret Advantage(MICRA),并为MICRA的训练、适应和执行提供了一个三阶段框架。其主要特点是:1)提出了一种反事实后悔优势来优化目标智能体的策略;2) 设计了一个元模仿者来推断外部智能体的策略。结果表明,MICRA的性能优于最先进的算法。

二、应用类/交叉领域(3篇)

1.Scalable Multiagent Driving Policies for Reducing Traffic Congestion 减少交通拥堵的可扩展多智能体驱动策略
Jiaxun Cui, William Macke, Harel Yedidsion, Aastha Goyal, Daniel Urieli
(PDF | Details)
自动车辆(automated vehicles,AVs)如何有助于减少拥堵?本文中,我们扩展了现有的方法,并在更复杂的场景中为AVs开发了新的多智能体驱动策略。我们首先展示了过去研究中使用的拥堵指标在开放道路网络场景中是可操作的。然后,我们建议使用一个不同的指标,该指标对操纵具有鲁棒性,并反映开放网络流量效率。接下来,我们提出了一种模块化的迁移学习方法,并使用它将多智能体驾驶策略扩展到一个真实的模拟场景,该场景比过去的场景大一个数量级。

2.Modelling Cooperation in Network Games with Spatio-Temporal Complexity 基于时空复杂性的网络游戏合作建模
Michiel A. Bakker, Richard Everett, Laura Weidinger, Iason Gabriel, William S. Isaac, Edward Hughes
(PDF | Details)
多智能体系统中,如果有适当的机制来描述个体之间的互动,即使面对短期的自私激励,群体也可能获得对社会有益的结果。在许多情况下,集体行动问题具有潜在的图形结构,其拓扑结构决定了局部决策和突发全局效应之间的关系。在并行工作中,MADRL在模拟复杂网格世界领域中自组织合作的出现方面显示出巨大的潜力。在这里,我们将这种范式应用于图形结构的集体行动问题。

3.Trajectory Diversity for Zero-Shot Coordination Zero-Shot Coordination的轨迹多样性
Andrei Lupu, Hengyuan Hu, Jakob Foerster
(PDF | Details)
我们研究零射击协调(Zero-Shot Coordination,ZSC)的问题,其中智能体必须独立地为协作博弈制定策略,并与训练期间未见的新合作伙伴兼容。我们的第一个贡献是考虑生成这些智能体的多样性的必要性。因为自博弈的智能体在训练期间控制自己的轨迹分布,所以他们的策略只在这个精确的分布上表现良好。结果,他们在ZSC中得分较低,因为与其他智能体一起行动可能会使他们碰到训练期间未遇到的情况。为了解决这个问题,我们对一群智能体进行了共同的最佳回应(Best Response,BR),我们规定这些智能体尽可能多样化。为此,我们介绍了轨迹多样性(Trajectory Diversity,TrajeDi)——一个可区分的目标,用于生成不同的RL策略。我们将TrajeDi作为策略间Jensen-Shannon散度(JSD)的推广,并在简单的矩阵博弈中通过实验激励它,其中它可以找到唯一的ZSC最优解。

AAMAS 2021 RL论文(34篇)

一、非应用类(22篇)

1.Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via Online High-Confidence Change-Point Detection 基于在线高置信度变化点检测的非平稳强化学习最小延迟自适应
Lucas N. Alegre, Ana L. C. Bazzan, Bruno C. da Silva
(PDF | Details)
介绍了一种在非平稳环境中有效学习策略的算法。

2.Cooperation and Reputation Dynamics with Reinforcement Learning 强化学习下的合作与声誉动态
Nicolas Anastassacos, Julian García, Stephen Hailes, Mirco Musolesi
(PDF | Details)
协调Coordination/声誉Reputation
目前智能体如何独立学习建立有效的声誉机制尚不清楚。我们使用一个简单的强化学习模型来说明声誉机制会产生两个协调问题:智能体需要学习如何协调现有声誉的含义,并集体同意一个社会规范,以便根据其行为将声誉分配给其他人。此外我们还出了两种机制来缓解收敛不到期望的平衡的问题。

3.Action Selection for Composable Modular Deep Reinforcement Learning 组合式模块化深度强化学习的动作选择
Vaibhav Gupta, Daksh Anand, Praveen Paruchuri, Akshat Kumar
(PDF | Details)
模块强化学习Modular RL/组合决策composable decision making
在模块强化学习(MRL)中,一个复杂的决策问题被分解成多个简单的子问题,每个子问题由一个单独的模块解决。通常,这些子问题有相互冲突的目标和不可比拟的奖励尺度。一个可组合的决策体系结构要求,即使是单独编写的模块,其奖励尺度可能不一致,也可以连贯地组合在一起。仲裁员应考虑不同的模块的动作偏好,以学习有效的全局动作选择。我们提出了一个新框架GRACIAS,根据不同模块在给定状态下的相关性为其分配细粒度的重要性,并支持基于现代Deep RL方法的组合决策。

4.Action Advising with Advice Imitation in Deep Reinforcement Learning 深度强化学习中的动作建议与建议模仿
Ercüment İlhan, Jeremy Gow, Diego Perez-Liebana
(PDF | Details)
动作建议Action Advising /模仿Imitation/师生机制
我们提出了一种方法,使学生智能体能够模仿之前获得的建议,直接在其探索策略中重用它们,而无需对学习机制本身进行任何干预。特别是,我们使用行为克隆模块来模仿教师策略,并使用dropout regularisation来获得认知不确定性的概念,以跟踪实际收集的状态建议对。实验环境是Atari游戏。

5.Grid-to-Graph: Flexible Spatial Relational Inductive Biases for Reinforcement Learning 网格到图形:强化学习的灵活空间关系归纳偏差
Zhengyao Jiang, Pasquale Minervini, Minqi Jiang, Tim Rocktäschel
(PDF | Details)
我们缺乏能够系统概括的智能体。虽然适合任务的关系归纳偏差可以提高RL智能体的泛化能力,但这些偏差通常直接硬编码在智能体的神经结构中。在这项工作中,我们将以关系图的形式编码的关系归纳偏差合并到智能体中。基于这一认识,我们提出了Grid-to-Graph (GTG),这是一种从网格结构到关系图的映射,当通过关系图卷积网络(R-GCN)进行处理时,它携带有用的空间关系归纳偏差。

6.Parallel Curriculum Experience Replay in Distributed Reinforcement Learning 分布式强化学习中的并行课程经验回放
Yuyu Li, Jianmin Ji
(PDF | Details)
分布式强化学习Distributed RL/课程Curriculum/经验回放Experience Replay
我们引入了一个具有并行课程经验回放的分布式培训框架,该框架可以并行地收集不同的经验,然后自动识别这些子任务的难度。实验环境:模拟RoboCup足球。

7.Deceptive Reinforcement Learning for Privacy-Preserving Planning 隐私保护规划中的欺骗性强化学习
Zhengshang Liu, Yue Yang, Tim Miller, Peta Masters
(PDF | Details)
隐私保护强化学习privacy-preserving reinforcement learning
本文研究了保护奖励函数隐私的欺骗性强化学习问题。在某些情况下,我们可能希望保持奖励函数的私密性,即让观察者难以确定使用的奖励函数。我们定义了隐私保护强化学习的问题,并提出了两个解决该问题的模型。

8.SEERL: Sample Efficient Ensemble Reinforcement Learning 样本高效集成强化学习
Rohan Saphal, Balaraman Ravindran, Dheevatsa Mudigere, Sasikant Avancha, Bharat Kaul
(PDF | Details)
集成学习Ensemble Learning/迁移学习Transfer Learing?
我们提出了一种新的无模型强化算法的训练和模型选择框架,该框架使用从单个训练运行中获得的策略集合。这些策略本质上是多样的,通过定期定向扰动模型参数来学习。我们表明,学习和选择一组充分多样的策略是实现良好集成的必要条件,而极端多样性可能会对整体性能造成不利影响。通过我们新颖的策略选择框架,选择一套充分多样的策略。我们评估了挑战离散和连续控制任务的方法,并讨论了各种集成策略。我们的框架基本上是样本效率高、计算成本低,并且在Atari 2600和Mujoco中的表现优于最先进的SOTA分数。

9.AlwaysSafe: Reinforcement Learning without Safety Constraint Violations during Training 训练期间不违反安全约束的强化学习
Thiago D. Simão, Nils Jansen, Matthijs T. J. Spaan
(PDF | Details)
安全强化学习Safe RL
Safe RL中,可以使用约束马尔可夫决策过程(CMDP)将安全与奖励分离,其中一个独立的信号对安全方面进行建模。在这种设置下,RL智能体可以自主地在性能和安全性之间进行权衡。不幸的是,大多数专为CMDP设计的RL智能体只在学习阶段后保证安全,这可能会阻止它们直接部署。在这项工作中,我们研究了给出安全方面简明抽象模型的环境,并提出了一种RL算法,使用这个抽象模型安全地学习CMDP的策略,即不违反约束。在训练过程中,该算法可以在不违反安全约束的情况下,从保守策略无缝切换到贪婪策略。

10.No More Hand-Tuning Rewards: Masked Constrained Policy Optimization for Safe Reinforcement Learning 不再有手动调整奖励:安全强化学习的蒙蔽约束策略优化
Stef Van Havermaet, Yara Khaluf, Pieter Simoens
(PDF | Details)
安全强化学习Safe RL
我们将安全定义为在采取危险行动可能导致任务提前终止的环境中生存的概率。本文提出了一种安全的RL算法,称为蒙蔽约束策略优化(Masked Constrained Policy Optimization,MCPO),该算法的学习过程受安全约束,排除了风险回报信号。

11.Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy Reinforcement Learning 分层经验重放:纠正异策略强化学习中的多重性偏差
Brett Daley, Cameron Hickert, Christopher Amato
(PDF | Details)
经验回放Experience Replay
DRL方法依赖于经验回放来近似小批量监督学习设置;然而基于重放的DRL在存在无关数据的情况下似乎很困难。最近的研究表明,当重放内存过大时,DQN的性能会下降。这表明过时的经验在某种程度上影响了DRL的性能,而DQN等异策略方法则不应如此。因此,我们重新检查了在重放内存上均匀采样的动机,发现在使用函数近似时可能存在缺陷。我们表明,尽管有传统的观点,从均匀分布中取样并不会产生不相关的训练样本,因此在训练过程中会产生梯度偏差。我们的理论规定了一种特殊的非均匀分布来抵消这种影响,我们提出了一种分层抽样方案来有效地实现它。

12.Distributional Monte Carlo Tree Search for Risk-Aware and Multi-Objective Reinforcement Learning 风险感知和多目标强化学习的分布式蒙特卡罗树搜索
Conor F. Hayes, Mathieu Reymond, Diederik M. Roijers, Enda Howley, Patrick Mannion
(PDF | Details)
风险感知Risk-aware/多目标Multi-task
在许多风险感知和多目标强化学习环境中,用户的效用来自于策略的单一执行。在这些情况下,根据未来的平均回报做出决策是不合适的。例如,在医疗环境中,患者可能只有一次机会治疗自己的疾病。在做出决策时,仅仅是期望回报无法解释决策可能产生的负面或正面结果的潜在范围。我们认为应该以不同的方式使用期望未来收益的分布来表示智能体在决策时需要的关键信息。
在本文中,我们提出了分布式蒙特卡罗树搜索,这是一种学习后验分布的算法,该算法可以从单个策略执行中获得不同的可能收益,从而为风险感知环境生成良好的策略。此外,在多目标强化学习中,我们的算法在收益的预期效用方面优于最新的算法。

13.SIBRE: Self Improvement Based REwards for Adaptive Feedback in Reinforcement Learning SIBRE:强化学习中基于自我改进的自适应反馈奖励
Somjit Nath, Richa Verma, Abhik Ray, Harshad Khadilkar
(PDF | Details)
奖励塑造Reward shaping
我们提出了一种通用的奖励塑造方法来提高RL中的收敛速度:基于自我改善的奖励(Self Improvement Based Rewards,SIBRE)。该方法旨在与任何现有的RL算法结合使用,包括奖励对智能体自身过去性能的改进。我们证明了SIBRE在与原RL算法相同的条件下是期望收敛的。当原始奖励被弱歧视或稀疏时,重新设计的奖励有助于区分策略。在多个著名的基准测试环境中使用不同的RL算法进行的实验表明,SIBRE更快、更稳定地收敛到最优策略。

14.Tunable Behaviours in Sequential Social Dilemmas using Multi-Objective Reinforcement Learning 基于多目标强化学习的连续性社会困境中的可调节行为
David O’Callaghan, Patrick Mannion
(PDF | Details)
多目标Multi-objective/连续社会困境Sequential Social Dilemmas
我们利用多目标强化学习来创建可调整的智能体,即可以根据设计师的偏好采用一系列不同行为的智能体,而无需再训练。我们将这种技术应用于连续的社会困境。我们表明,可调智能体框架允许在连续的社会困境中轻松地适应合作和竞争行为,而无需再训练,允许调整单个经过训练的代理模型,以适应各种行为和对手策略。

15.Online Learning of Shaping Reward with Subgoal Knowledge 利用子目标知识在线学习塑造奖励
Takato Okudo, Seiji Yamada
(PDF | Details)
SARSA-RS是一种奖励塑造方法,通过学习来更新塑造。然而,这种方法的瓶颈是状态的聚合,因为设计者需要设计从所有状态到抽象状态的映射。我们提出了一种使用子目标序列的动态轨迹聚合,这使得应用于高维观测环境成为可能。

16.Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games 双人零和马尔可夫博弈的异策略可利用性利用-评估
Kenshi Abe, Yusuke Kaneko
(PDF | Details)
异策略评估Off-Policy Evaluation
异策略评估(Off-Plocily Evaluation,OPE)是使用从不同策略中获得的历史数据来评估新策略的问题。最近的OPE大多数研究都集中在单人案例上。本研究中我们提出了由双人零和马尔可夫博弈中的双稳健和双强化学习估计(doubly robust and double reinforcement learning estimators)构造的OPE估计。

17.Learning Complex Policy Distribution with CEM Guided Adversarial Hypernetwork 用CEM(交叉熵方法)引导的对抗性超网络学习复杂策略分布
Shi Yuan Tang, Athirai A. Irissappane, Frans A. Oliehoek, Jie Zhang
(PDF | Details)
交叉熵方法(CEM)是一种无梯度的直接策略搜索方法,具有更高的稳定性,对超参数调整不敏感。CEM与基于种群的进化方法有相似之处,但它不是使用种群,而是使用候选解的分布(在我们的例子中是策略)。通常,使用自然指数族分布(如多元高斯分布)来参数化策略分布。当搜索局限于一个不太具代表性的子空间时,使用多元高斯分布会限制CEM策略的质量。我们通过使用一个经过对抗训练的超网络来解决这个缺点,从而能够更丰富、更复杂地表示策略分布。

18.Guiding Evolutionary Strategies with Off-Policy Actor-Critic 用异策略演员-评论家指导进化策略
Yunhao Tang
(PDF | Details)
进化策略(Evolutionary Strategies,ES)和异策略学习算法是RL的两个主要工作:ES采用一种简单的黑盒优化方法,但效率可能稍低一些;异策略学习通过设计更有效,但更新可能不稳定。基于他们的权衡,我们提出了CEM-ACER,是一种具有经验回放(ACER),组合了交叉熵法、标准ES算法和演员-评论家算法的方法。

19.State-Aware Variational Thompson Sampling for Deep Q-Networks 用于深度 Q 网络的状态感知变分汤普森采样
Siddharth Aravindan, Wee Sun Lee
(PDF | Details)
汤普森采样法是一种在强化学习中平衡探索和利用的著名方法。它要求维持价值-动作函数的后验分布,这对于具有高维状态-动作空间的任务来说通常是棘手的。我们推导了DQNs的变分汤普森采样近似,它使用了一个深度网络,其参数受到一个学习的变分噪声分布的扰动。我们将NoisyNets方法解释为我们推导的变分汤普森抽样方法的近似。此外,我们还提出了状态感知噪声探索(State Aware Noisy Exploration ,SANE),它通过允许非均匀扰动来改善噪声网络,其中参数扰动的数量取决于智能体的状态。我们假设这种状态感知的噪声探测在某些高风险状态下的探测可能导致智能体严重失败的问题中特别有用。

20.Evaluating the Robustness of Collaborative Agents 评估协作智能体的鲁棒性
Paul Knott, Micah Carroll, Sam Devlin, Kamil Ciosek, Katja Hofmann, Anca Dragan, Rohin Shah
(PDF | Details)
如果我们不能依靠平均的训练或验证奖励作为衡量标准,那么如何才能有效地评估鲁棒性?我们从软件工程中的单元测试实践中得到启发。具体来说,我们建议,在设计与人类合作的AI智能体时,设计师应该在可能的合作伙伴行为和遇到的可能状态中搜索潜在的边缘情况,并编写测试,检查智能体在这些边缘情况下的行为是否合理。

21.Gambler Bandits and the Regret of Being Ruined 赌徒强盗和被毁的遗憾
Filipo Studzinski Perotto, Sattar Vakili, Pratik Gajane, Yaser Faghan, Mathieu Bourgais
(PDF | Details)
在本文中,我们考虑一类特殊的问题,称为多臂赌徒盗贼(Multi Armed Gambler Bandits,MAGB),它构成了伯努利MAB问题的修改版本,其中必须考虑两个新的因素:预算和破产的危险。智能体有一个初始预算,该预算随着收到的奖励而变化,可以是成功后的+1或失败后的-1。本文的贡献是在当前预算和观测的情况下,对破产概率进行了初步分析,并提出了一种替代的后悔公式,将经典的后悔概念与破产概率造成的预期损失相结合。最后,使用所提出的度量对标准的最新方法进行了实验比较。

22.Improving Sample-based Reinforcement Learning through Complex Non-parametric Distributions 通过复杂非参数分布改进基于样本的强化学习
Shi Yuan Tang
(PDF | Details)
(博士生论坛)基于采样的强化学习Sample-based RL
RL中基于采样的方法通常涉及学习或维持分布。虽然文献中提出了许多优雅的算法,但大多数方法都涉及基础分布的先验假设(例如自然指数族),或者出于简单性或可处理性的原因,涉及模态的数量。目前仍然缺乏一种有效应用复杂或非参数分布的方法,例如,使用神经网络近似的分布。本论文的重点是提出和评估方法,以便更好地逼近复杂分布,以及估计非参数分布测量值的方法。其动机是通过减轻复杂非参数分布的限制和困难,使许多深度学习和信息理论技术能够更好地连接和应用于RL中基于采样的方法。

二、迁移学习/元学习(3+1篇)

1.Learning to Cooperate with Unseen Agents Through Meta-Reinforcement Learning 通过元强化学习学习与看不见的智能体合作
Rujikorn Charakorn, Poramate Manoonpong, Nat Dilokthanakul
(PDF | Details)
元强化学习Meta RL/合作Cooperation/MARL?
Ad hoc(点对点)团队合作问题描述了一个智能体必须与以前看不见的智能体合作以实现共同目标的情况。为了在这些场景中取得成功,智能体必须具备合作技能。然而,在复杂的领域中,领域知识可能不可用,也不能借此来设计智能体的行为。因此,探索如何从数据中直接学习合作技能是一件有趣的事情。在这项工作中,我们将元强化学习(meta-RL)公式应用于特殊团队协作问题。

2.Deep Interactive Bayesian Reinforcement Learning via Meta-Learning 基于元学习的深度交互贝叶斯强化学习
Luisa Zintgraf, Sam Devlin, Kamil Ciosek, Shimon Whiteson, Katja Hofmann
(PDF | Details)
元强化学习Meta RL/MARL?
(Extended Abstract)
与其他智能体互动的智能体通常不知道其他智能体的策略是什么,但在与他人互动和了解他人时,必须最大限度地提高自己的在线回报。在对其他智能体策略不确定的情况下,最优自适应行为在理论上可以使用交互式贝叶斯强化学习框架计算一些先验。不幸的是,在大多数情况下这样做很难,而且现有的近似方法仅限于小任务。为了克服这一点,我们提出了元学习(along side the policy)通过结合顺序和分层VAE进行近似信念推理。

3.Self-Attention Meta-Learner for Continual Learning 用于持续学习的自我关注元学习者
Ghada Sokar, Decebal Constantin Mocanu, Mykola Pechenizkiy
(PDF | Details)
Continual Learning的目的是提供能够使用神经网络顺序学习多个任务的智能体。当前大多数方法中,智能体从随机初始化的参数开始进行优化以掌握当前任务,而不管学习到的表示对未来任务是否有用。此外,未来的每项任务都会使用所有之前学到的知识,尽管其中的一部分可能对学习没有帮助。这些会导致任务之间的干扰,尤其是在无法访问以前任务的数据时。在本文中,我们提出了一种新的方法,称为自我注意元学习器(Self-Attention Meta-Learner ,SAM),它可以学习一个连续学习的先验知识,允许学习一系列任务,同时避免灾难性遗忘。SAM采用了一种注意力机制,学习为未来的每项任务选择特定的相关表征。

SEERL: Sample Efficient Ensemble Reinforcement Learning 样本高效集成强化学习
Rohan Saphal, Balaraman Ravindran, Dheevatsa Mudigere, Sasikant Avancha, Bharat Kaul
(PDF | Details)
集成学习Ensemble Learning/迁移学习Transfer Learing?
我们提出了一种新的无模型强化算法的训练和模型选择框架,该框架使用从单个训练运行中获得的策略集合。这些策略本质上是多样的,通过定期定向扰动模型参数来学习。我们表明,学习和选择一组充分多样的策略是实现良好集成的必要条件,而极端多样性可能会对整体性能造成不利影响。通过我们新颖的策略选择框架,选择一套充分多样的策略。我们评估了挑战离散和连续控制任务的方法,并讨论了各种集成策略。我们的框架基本上是样本效率高、计算成本低,并且在Atari 2600和Mujoco中的表现优于最先进的SOTA分数。

三、应用类/交叉领域(9篇)

1.To hold or not to hold? - Reducing Passenger Missed Connections in Airlines using Reinforcement Learning 坚持还是不坚持?-使用强化学习减少航空公司的乘客错过航班
Tejasvi Malladi, Karpagam Murugappan, Depak Sudarsanam,Ramasubramanian Suriyanarayanan, Arunchandar Vasan
(PDF | Details)
航空
我们使用RL学习保持航班以避免错误连接的策略,补充了现有方法。

2.Active Screening for Recurrent Diseases: A Reinforcement Learning Approach 复发性疾病的主动筛查:强化学习方法
Han-Ching Ou, Haipeng Chen, Shahin Jabbari, Milind Tambe
(PDF | Details)
疾病筛查
我们提出了一种新的基于DQN的强化学习(RL)方法,并对其进行了一些创新性的调整,以应对主动筛查疾病所面临的计算挑战。

3.SPOTTER: Extending Symbolic Planning Operators through Targeted Reinforcement Learning 通过Targeted RL扩展符号规划操作符
Vasanth Sarathy, Daniel Kasenberg, Shivam Goel, Jivko Sinapov, Matthias Scheutz
(PDF | Details)
符号规划模型允许决策智能体以任意方式对行动进行排序,以实现动态领域中的各种目标。然而,它们通常是手工制定的。RL方法虽需要这样的模型,但往往需要数百万次的经验,并且往往学习到不容易迁移到其他任务的策略。在本文中,我们讨论了集成这些方法的开放问题的一个方面:决策智能体如何在试图实现目标的同时解决其符号规划模型中的差异?我们提出了一个名为SPOTTER的集成框架,该框架使用RL来增强和支持规划智能体(通过发现规划智能体所需的新操作符),以实现智能体最初无法实现的目标。SPOTTER的性能优于纯RL方法,同时也能发现可迁移的符号知识,并且不需要监督。

4.An Autonomous Negotiating Agent Framework with Reinforcement Learning based Strategies and Adaptive Strategy Switching Mechanism 一个基于强化学习策略和自适应策略切换机制的自动谈判智能体框架
Ayan Sengupta, Yasser Mohammad, Shinji Nakadai
(PDF | Details)
自动谈判
这项工作的重点是解决专家选择问题和利用我们的自动谈判智能体框架适应对手的行为。该框架允许对对手的行为进行实时分类,并提供了一种机制,可在单个谈判会话中选择、切换或组合策略。

5.Reinforcement Learning for Unified Allocation and Patrolling in Signaling Games with Uncertainty 不确定信号博弈中一致分配和巡逻的强化学习
Aravind Venugopal, Elizabeth Bondi, Harshavardhan Kamarthi, Keval Dholakia, Balaraman Ravindran, Milind Tambe
(PDF | Details)
绿色安全游戏(Green Security Games , GSG)已成功用于保护渔业、森林和野生动物等宝贵资源。现实世界的部署既包括资源分配,也包括后续的协调巡逻,在存在实时、不确定信息的情况下进行通信。以前的游戏模型不能同时处理这两个阶段。此外,采用现有的解决方案策略是困难的,因为它们不能很好地适应更大、更复杂的游戏模型变体。我们提出了一种新的GSG模型来应对这些挑战。我们还提出了一种新的算法CombSGPO,用于计算该博弈模型的防御策略。

6.Solving 3D Bin Packing Problem via Multimodal Deep Reinforcement Learning 基于多模态深度强化学习的三维装箱问题求解
Yuan Jiang, Zhiguang Cao, Jie Zhang
(PDF | Details)
三维装箱问题3D bin packing problem
我们提出通过端到端多模态DRL智能体来缓解这个问题,该智能体依次处理序列、方向和位置三个子任务。由此产生的体系结构使智能体能够解决100个或更多盒子的大规模实例。

7.Facial Feedback for Reinforcement Learning: A Case Study and Offline Analysis Using the TAMER Framework 强化学习中的面部反馈:使用TAMER框架的案例研究和离线分析
Guangliang Li, Hamdi Dibeklioğlu, Shimon Whiteson, Hayley Hung
(PDF | Details)
交互式强化学习Interactive RL/面部反馈Facial Feedback
(JAAMAS)交互式强化学习为智能体提供了一种从人类用户提供的评估反馈中学习解决任务的方法。之前的研究表明,人类在训练早期会给出丰富的反馈,但在训练之后反馈非常少。在本文中,我们通过将训练者的面部表情解释为评估反馈,研究了智能体从训练者的面部表情中学习的潜力。为此,我们在强化学习基准问题无限马里奥中实现了一种流行的交互式强化学习方法TAMER,并首次对TAMER进行了大规模研究,涉及561名参与者。通过设计CNN-RNN模型,我们的分析表明,告诉训练者使用面部表情和竞争可以提高使用面部表情估计正反馈和负反馈的准确性。此外,我们的模拟实验结果表明,仅从基于面部表情的预测反馈中学习是可能的,并且使用强/有效的预测模型或回归方法,面部反应将显著提高智能体的性能。

8.Temporal Watermarks for Deep Reinforcement Learning Models 深度强化学习模型中的时间水印
Kangjie Chen, Shangwei Guo, Tianwei Zhang, Shuxin Li, Yang Liu
(PDF | Details)
水印Watermarks
我们提出了一种新的数字水印方案来保护DRL。

9.Transferable Environment Poisoning: Training-time Attack on Reinforcement Learning 可迁移环境中毒:强化学习的训练时攻击
Hang Xu, Rundong Wang, Lev Raizman, Zinovi Rabinovich
(PDF | Details)
研究针对RL智能体的对抗性攻击已经成为开发基于RL的健壮解决方案的一个关键方面。最新的研究工作已经转移到调查针对RL智能体的训练时间攻击,即迫使学习过程朝着攻击者设计的目标策略进行。本文研究了训练时的环境动力学中毒攻击。

你可能感兴趣的:(强化学习,人工智能,深度学习)