MARL 笔记

16年的MARL概览: A comprehensive survey of multiagent reinforcement learning(谷歌学术)

Model-free时学习均衡:

  • Nash Q-learning:仅在强假设收敛,多个收敛点。(类似的有MADDPG、Mean-Field Q-learning)
  • Stackelberg 均衡:越合作越优于Nash均衡,且仅有一个收敛点,是帕累托最优点。

Model-based时学习均衡:

  • Minimax-Q method

协同(对其他agent建模)

PR2(Probabilistic Recursive Reasoning)

合作(MA共享同一个reward)

通讯 - Multiagent Bidirectionally-Coordinated Net
集中训练分布执行 - Multi-Agent Actor-Critic for Mixed Cooperative-Competitve Environments

你可能感兴趣的:(MARL 笔记)