早期的研究表明,在连续控制任务中,on-policy算法TRPO优于off-policy算法DDPG。然而,在最近的off-policy方法SAC和Rainbow中认为,即使是最新的PG算法PPO,采样效率也明显低于off-policy方法。
在许多单智体领域(MuJoCo,Atari和机器人系统),目前off-policy方法在样本复杂度上是SOTA的。
在多智能体领域也有类似的结论:多智体PG方法COMA在MPE和SMAC上的表现均明显优于MADDPG和QMix。
尽管IPPO可以在一些特定的hard SMAC地图上表现出高成功率,但原因尚不清楚,而且IPPO的整体表现仍然比QMix差得多。
作者重新检验了这些关于PPO的结论,并表明MAPPO能够在3个主流的MARL合作试验台上实现SOTA性能。
单智体技巧:input normalization, value clipping, orthogonal initialization, and gradient clipping ,regularization(文中用normalization layer),离散任务使用soft trust-region penalty and discretizing the action space避免连续控制的局部最优问题,以上多智体领域同样适用,文中作者都用了。
POMDP定义为 ⟨ S , A , O , R , P , n , γ ⟩ \langle\mathcal{S}, \mathcal{A}, O, R, P, n, \gamma\rangle ⟨S,A,O,R,P,n,γ⟩, S \mathcal{S} S是状态空间, A \mathcal{A} A是智能体共享动作空间, o i = O ( s ; i ) o_{i}=O(s ; i) oi=O(s;i)是每个智能体局部观测空间, P ( s ′ ∣ s , A ) P\left(s^{\prime} \mid s, A\right) P(s′∣s,A)是状态转移概率, R ( s , A ) R(s, A) R(s,A)表示智能体共享奖励。算法采用CTDE框架,每个智能体使用共享策略 π θ ( a i ∣ o i ) \pi_{\theta}\left(a_{i} \mid o_{i}\right) πθ(ai∣oi),利用局部观测 o i o_{i} oi生成其动作 o i o_{i} oi,优化自己的折扣累计回报 J ( θ ) = E a t , s t [ ∑ t γ t R ( s t , a t ) ] J(\theta)=\mathbb{E}_{a^{t}, s^{t}}\left[\sum_{t} \gamma^{t} R\left(s^{t}, a^{t}\right)\right] J(θ)=Eat,st[∑tγtR(st,at)]。
作者设计了一个策略网络 π θ \pi_{\theta} πθ和一个中心化值函数网络 V ϕ ( s ) V_{\phi}(s) Vϕ(s),注意使用全局状态而不是局部状态。PPO常见Tricks:GAE with advantage normalization, observation normalization, gradient clipping, value clipping, layer normalization, ReLU activation with orthogonal initialization, and a large batch size under our 1-GPU constraint。超参网格搜索:network architecture,learning rate,entropy coefficient,the initialization scale of the final layer in the policy network.
除了上面讲的,作者还总结提升PPO性能的5个关键:
实验环境
MPE、SMAC、Hanabi
对比算法
MADDPG、QMix和IPPO
IPPO使用本地观察作为价值输入,但其他方法遵循前面提到的所有PPO实施建议。
所有基准方法使用与MAPPO相同的超参数调优过程。我们强调,我们在这篇论文中报告的基线数字都与原始论文中相同或超过。此外,我们比较了每个领域的MAPPO和SOTA方法,即SMAC上的RODE 和Hanabi上的SAD。这两种算法的SOTA值均来自于它们的原始论文。
实验设备:256 GB RAM、1个64核CPU、1个GeForce RTX 3090 GPU的台式机。
为了计算wall-clock时间,MAPPO在MPE中运行128个并行环境,在SMAC中运行8个并行环境,而off-policy算法使用单个环境,这与原始论文中使用的实现是一致的。由于机器资源有限,我们在SMAC实验中最多使用5gb GPU内存Hanabi提供13gb GPU内存。
实证结果:在绝大多数环境中,MAPPO结果及样本复杂度,与SOTA相当或更好,大大缩短了训练时间。
本研究证明了一种基于策略的策略梯度多智能体强化学习算法MAPPO。在各种合作的多智能体挑战上,取得了与最新技术相当的强大结果。尽管其在策略上的性质,MA PPO在采样效率方面与无处不在的非策略方法(如MADDPG、QMix和RODE)竞争,甚至在时钟时间方面超过了这些算法的性能此外,在第4和第6节中,我们展示了对MAPPO的性能很重要的5种关键算法和实现技术,并通过各种消融研究来支持我们的发现,这些研究实证地证明了这些技术对MAPPO性能的影响。MAPPO获得的强有力的结果表明,适当配置的MAPPO是MARL任务的竞争性基线。基于这些结果,在未来的工作中,我们的目标是在更广泛的领域测试MAPPO的性能,如竞争游戏和具有连续行动空间的多智能体问题。
PopArt:https://arxiv.org/pdf/1809.04474.pdf
本研究提出了MAPPO。在各种合作的多智能体环境上,取得了与最新技术相当的SOTA结果。在采样效率方面,MAPPO与普遍存在的非策略方法(如MADDPG、QMix和RODE)相比,甚至在wall-clock时间这些算法的性能。此外,在第4节和第6节中,我们展示了总结了对MAPPO性能很重要的5种关键算法和实现技术,并通过各种消融研究来支持我们的发现,这些研究实证地证明了这些技术对MAPPO性能的影响。
这篇文章没有创新性,但是必不可少的。因为单智体目前性能最好的算法是PPO。而多智体的IPPO效果却不好,不是PPO本身的问题,是前人单智体算法迁移到多智体的工作没有做好,MAPPO的提出是多智体强化算法发展的必经之路。
参考
[1]: http://baijiahao.baidu.com/s?id=1693377816234538595&wfr=spider&for=pc
[2]: https://blog.csdn.net/deeprl/article/details/114529629
[3]: https://arxiv.org/pdf/1809.04474.pdf