多智能体强化学习论文——G2ANet(AAAI 2020)

存在的问题&研究动机&研究思路

  1. 大规模多智能体的博弈关系复杂,导致了策略学习困难。因此,简化学习过程是重要的研究点。
  2. 早期工作主要集中在耦合多智能体系统、game abstraction和知识迁移来加速多智能体的学习过程。受限制。
  3. 再后来,近期工作,通过某种提前定义好的规则来定义智能体之间的交互关系。困难。
  4. 本文提出用端到端的模型自动学习智能体之间的交互关系

创新点

  1. 基于两阶段注意力网络(G2ANet),提出了一种新的game abstraction算法。
  2. hard-attention用来切某些智能体之间的连接,其输出是one-hot vector,并且其参数原本不可导,需要引入gumbel-softmax。
  3. soft-attention就像MAAC等算法那样,给出存在边的智能体之间的权重。
  4. 随后可以用GNN将智能体的vector representation表示出来。
  5. 分别结合策略网络和值网络,提出了 GA-Comm和GA-AC。

算法框图

多智能体强化学习论文——G2ANet(AAAI 2020)_第1张图片
多智能体强化学习论文——G2ANet(AAAI 2020)_第2张图片
多智能体强化学习论文——G2ANet(AAAI 2020)_第3张图片

some points

  1. game abstraction:主要思想是简化马尔可夫博弈为更简单的决策,降低决策的复杂度,降低策略的复杂度。

你可能感兴趣的:(多智能体强化学习,算法,深度学习,强化学习)