MADDPG openai 博客

文章目录

  • Where Traditional RL Struggles
  • Initial Research
  • Next Step

智能体争夺资源的多智能体环境是通用人工智能AGI之路上的垫脚石。多智能体环境有两个有用的属性:第一,有一个自然的课程——环境的难度取决于你的竞争对手的技能(如果你与自己的克隆竞争,环境完全符合你的技能水平)。其次,多智能体环境没有稳定的均衡:无论智能体多么聪明,总是有变得更聪明的压力。这些环境与传统环境有着截然不同的感觉,在我们擅长这些环境之前,我们需要做更多的研究。
我们开发了一种新的算法MADDPG,用于在多智能体环境中集中学习和分散执行,使智能体能够学会相互协作和竞争。
MADDPG openai 博客_第1张图片
MADDPG openai 博客_第2张图片

MADDPG被用来训练四名红色智能体追捕两名绿色智能体。红智能体学会了互相合作去追捕一个绿智能体,从而获得更高的奖励。与此同时,绿智能体学会了分开,当一个被追赶时,另一个试图靠近水面(蓝圈),同时避开红色特工。
MADDPG扩展了一个称为DDPG的强化学习算法,从actor-critic强化学习技术中获得灵感;其他小组正在探索这些想法的变化和并行实现。
我们将模拟中的每个智能体视为“演员”,每个演员都从“评论家”那里获得建议,帮助演员决定在训练期间要采取哪些行动。传统地,批评家试图预测在一个特定的状态下动作的值(比如我们期望在未来获得的回报),这被智能体-——演员——用来更新其策略。这比直接使用奖励更稳定,奖励可能会有很大差异。为了使训练能够以全局协调方式行动的多智能体成为可能,我们加强了我们的批评者,以便他们能够访问所有智能体的观察和行动,如下图所示:

我们的智能体不需要在测试时访问中心批评家;他们的行为基于他们的观察和他们对其他智能体行为的预测。由于一个集中的批评者是为每个智能体独立学习的,我们的方法也可以用来模拟智能体之间的任意奖励结构,包括奖励相反的对抗性案例。
MADDPG openai 博客_第3张图片 MADDPG openai 博客_第4张图片 MADDPG openai 博客_第5张图片
我们在各种任务上测试了我们的方法,它在所有任务上的性能都优于DDPG。在上面的动画中,你可以看到,从左到右:两个人工智能代理试图去一个特定的地点,并学习分裂,以向敌对智能体隐藏他们的目标地点;一个智能体将地标的名称传达给另一个智能体;还有三个智能体协调前往地标而不相互碰撞。

接受过MADDPG训练的红色智能体表现出比接受过DDPG训练的更为复杂的行为。在上面的动画中,我们看到用我们的技术(左)和DDPG(右)训练的智能体试图通过绿色森林和黑色障碍物追逐绿色智能体。我们的智能体比那些接受过DDPG培训的智能体捕捉更多的智能体,并能明显地协调更多的智能体。

Where Traditional RL Struggles

传统的分散式RL方法——DDPG、actor-critic、深度Q学习等等——在多智能体环境中难以学习,因为每个智能体都会尝试学习预测其他智能体的行为,同时也会采取自己的行动。在竞争环境中尤其如此。MADDPG雇佣了一位集中的批评家,向智能体提供有关其同行观察和潜在行动的信息,将不可预测的环境转变为可预测的环境。
使用策略梯度方法提出了进一步的挑战:因为这些方法具有很高的方差,所以当奖励不一致时,学习正确的策略是很难的。我们还发现,加入一个批评家,尽管提高了稳定性,仍然无法解决我们的一些环境,如合作交流。似乎在训练过程中考虑他人的行为对于学习协作策略很重要。

Initial Research

在开发MADDPG之前,当使用分散式技术时,我们注意到,listener智能体通常会学会忽略speaker,如果他发送关于去哪里的消息不一致。然后,智能体会将与speaker消息相关的所有权重设置为0,从而有效地使自身变聋。一旦发生这种情况,训练就很难恢复,因为由于没有任何反馈,speaker永远不会知道是否说了正确的话。为了解决这个问题,我们研究了最近一个分级强化项目中概述的一种技术,它允许我们强制listener在决策过程中加入speaker的话语。这种方法不起作用,因为尽管它迫使listener注意speaker,但它不能帮助speaker弄清楚说什么是相关的。我们的集中批评方法有助于应对这些挑战,帮助speaker了解哪些话语可能与其他智能体的行为相关。

Next Step

智能体建模在人工智能研究中有着丰富的历史,其中许多场景都曾被研究过。许多以前的研究只考虑有少量时间步和较小的状态空间的游戏。深度学习让我们能够处理复杂的视觉输入,而RL则为我们提供了长期学习行为的工具。既然我们可以使用这些能力一次培训多个智能体,而无需了解环境的动态(环境如何在每个时间步骤中发生变化),我们可以在学习环境的高维信息的同时,解决更广泛的涉及通信和语言的问题。

你可能感兴趣的:(杂文)