Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition论文导读
分享论文:本文的研究对象是DecentralizedPartiallyObservableMarkovDecisionProcess(Dec-POMDP),首先介绍一下它和传统的MAMDP的区别:Multi-AgentMDP,所有实体(entity)的集合记为E\mathscr{E}E,这里的实体包括agent和一些非agent的动态物体,其中agent的集合记为A\mathscr{A}A.每个实