多智能体强化学习环境

环境是强化学习的核心要素之一。不同的环境一直是研究新的强化学习算法的动力。但是让智能体和真实环境交互的代价是很大的,不但费时费力,甚至有的时候根本不可能进行交互。

现在的多智能体强化学习和强化学习早期境遇很像,只有较少的环境可用。另外在不同的智能体之间分享信息的设置范围可能很广,有些环境涉及通信,有些共享联合奖励,有些共享全局状态。

星际争霸

作为一款复杂的即时战略游戏,星际争霸2受到了很大的关注,《Learning to communicate with deep multi-agent reinforcement learning》《QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning》等很多论文都使用星际争霸2作为环境。

注:这里介绍的环境SMAC与Deepmind的pysc2有所不同,它更关注分散的微观管理方法,游戏中的每个单位都是受单独的强化学习智能体控制。

Multi-agent particle environment

《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》所用的环境。

Deepmind MAS enviroment

《Multi-agent Reinforcement Learning in Sequential Social Dilemmas》和《Value-Decomposition Networks For Cooperative Multi-Agent Learning》所用的环境。

Google Research Football

《Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning》所用的足球环境。

PlayGround

炸弹人

Neural MMO

提供MMORPG(大规模多人在线角色布局游戏)环境,如口袋妖怪,在这样的环境里面,智能体学习战斗和导航,有大量具有相同目标的相同智能体。

CityFlow

用于MARL研究的交通信号环境。

Multi-Agent-Reinforcement-Learning-Environment

提供了十多种小的游戏环境。

ml-agents

一个游戏平台的机器学习智能体工具包,可以是简单的网格世界,也可以是复杂的多智能体战略游戏。这些游戏可以作为训练智能体的环境。 该框架支持合作和竞争的多智能体环境。Unity赋予了创建任何类型的多智能体环境的能力,尽管它不是专门为多智能体系统设计的。

retro

有少数几个游戏有双人场景

MAgent

平均场Mean Field Multi-Agent Reinforcement Learning(MFMARL)用到的环境

MaCA

多智能体作战竞技场是 CETC-TFAI 团队开发的异构多智能体分布式决策与控制技术研究平台。它着重于人工智能技术的应用,例如多agent合作和对抗中的强化学习

你可能感兴趣的:(强化学习)