多智能体强化学习论文——ROMA

文章目录

  • 论文:ROMA: Multi-Agent Reinforcement Learning with Emergent Roles
  • 存在的问题&研究动机&研究思路
  • 创新点
  • 算法框图
  • some points

论文:ROMA: Multi-Agent Reinforcement Learning with Emergent Roles

存在的问题&研究动机&研究思路

  1. ROMA提出智能体的策略是建立在智能体角色上的。
  2. 智能体的角色是由智能体的局部观测值决定的随机变量,有相似职责的智能体有相似的角色。相似智能体倾向于特定的子任务。

创新点

  1. 使用encode-decoder结构:
    encoder产生均值和方差,角色 ρ i \rho_i ρi从中采样得到:
    多智能体强化学习论文——ROMA_第1张图片
    decoder根据角色 ρ i \rho_i ρi产生智能体 i i i的效用函数。

  2. 最大化条件互信息 I ( τ i ; ρ i ∣ o i ) I(\tau_i;\rho_i|o_i) I(τi;ρioi),使得角色 ρ i \rho_i ρi可通过轨迹 τ i \tau_i τi辨认。可转化为最小化如下loss:
    在这里插入图片描述

  3. 提出以下约束,鼓励两个智能体要么有相似的角色(执行相似的任务),要么行为大相径庭:
    多智能体强化学习论文——ROMA_第2张图片
    约束中第一项互信息,若此项较大,证明智能体i与智能体j角色相似,执行相似的任务。若第二项较大,证明两智能体角色差距较大,则行为应该不相似。

    上述最优化问题可转化为优化如下loss:
    在这里插入图片描述
    在这里插入图片描述

  4. 最终loss为:
    在这里插入图片描述

  5. 执行过程中,只有角色的encoder、decoder和智能体局部效用函数work。

算法框图

多智能体强化学习论文——ROMA_第3张图片

some points

  1. 通过最大化互信息使得两种分布更接近。
  2. 将角色转化为分布,从而可以最大化互信息,从而使得角色 ρ i \rho_i ρi可与轨迹 τ i \tau_i τi实现近似的一一对应,即Identifiable。

你可能感兴趣的:(多智能体强化学习,机器学习,深度学习,人工智能,强化学习)