多智能体强化学习论文——COMA

存在的问题&研究动机&研究思路

  1. 遵循CTDE框架。是大规模多智能体训练的常见的范式,训练过程可以使用模拟器的全局状态信息,但是执行过程每个智能体只能依赖于自身的动作-观测值历史(常用循环神经网络来处理history)。
  2. 在协作的环境中,多智能体面临信誉分配的问题。联合动作产生的全局reward并不能让每个智能体很好的推断出自己对全局的贡献。
  3. 为了解决信誉分配问题,提出了反事实基准:固定其他智能体的动作,边缘化某个智能体的动作。
  4. agent之间传递梯度参数共享,是两种常用于发挥集中式critic优势的方法。
  5. 对于使用参数共享的IAC,因为critic训练使用的是全局reward,因此对每个智能体不能很好的推断出自己对于全局reward的贡献度,当智能体数量变多的时候,梯度变得尤为noisy。因此才提出了使用counterfactual baseline
  6. 反事实基准参考difference rewards:difference rewards的default action难以选择,并且需要额外的一套仿真,消耗过多计算资源。

创新点

  1. CTDE框架,actor使用参数共享。
  2. counterfactual baseline利用actor-critic框架的优势,计算出一个基准,从而解决了difference rewards存在的两个问题。在这里插入图片描述

算法框图

多智能体强化学习论文——COMA_第1张图片

实验

  1. StarCraft: 离 散 动 作 空 间 : m o v e [ d i r e c t i o n ] , a t t a c k [ e n e m y   i d ] , s t o p , n o o p . 离散动作空间:move[direction], attack[enemy\ id], stop, noop. :move[direction],attack[enemy id],stop,noop.
    局 部 观 测 信 息 : d i s t a n c e , r e l a t i v e   x , r e l a t i v e   y , u n i t   t y p e , s h i e l d . 局部观测信息:distance, relative\ x, relative\ y, unit\ type , shield. :distance,relative x,relative y,unit type,shield.
    全 局 状 态 信 息 : a b s o l u t e   x , a b s o l u t e   y , u n i t   t y p e , s h i e l d , h e a l t h , p o i n t s , c o o l d o w n . 全局状态信息:absolute\ x, absolute\ y, unit\ type , shield,health, points, cooldown. :absolute x,absolute y,unit type,shield,health,points,cooldown.

  2. 消融实验:

    1. 在两个IAC上面,分别学习Q和V,即IAC-Q和IAC-V。比较学习Q和V的区别。
    2. 测试学习Q的意义,因此有central-V学习V(s),用TD error进行策略梯度的更新。
    3. 测试反事实基准的意义,central-QV学习Q和V,用V替代counterfactual baseline,即用Q-V作为优势函数,用TD( λ \lambda λ)训练。

你可能感兴趣的:(多智能体强化学习,强化学习)