论文笔记 Hierarchical Macro Strategy Model for MOBA Game AI

Hierarchical Macro Strategy Model for MOBA Game AI

自从围棋被alpha go 解决之后,强化学习领域就把自己的注意力转向了RTS游戏,比如MOBA类游戏。OPENAI 玩dota, 腾讯自然就是玩王者荣耀。首先说说这个领域的难点。

  • 问题复杂度高,状态空间或动作空间可以达到 1 0 20000 10^{20000} 1020000
  • 多智能体优化,因为涉及队友间的合作之类的。
  • 信息不完全,因为存在战争迷雾
  • 稀疏奖励以及延迟奖励,游戏结束才知道奖励。

作者还说之前的OPENAI论文缺乏对宏观策略的掌控,只懂“操作”也就是微观策略,没有显式地去设计"意识",也就是宏观策略。而宏观策略方面的文献又存在各种各样的缺陷。作者认为宏观策略的设计,目前文献有几个不足,

  • 直接从微观的操作中学出宏观的策略,是一件很难得事情
  • 之前的文献在宏观策略上过度依赖于手工设计的公式
  • 之前的文献没有显式考虑合作

因此这篇论文提出了Hierarchical Macro Strategy,直接从微观操作学习宏观策略太难,手工设计公式太笨,不如就用监督式学习的方式学习一个策略。
论文笔记 Hierarchical Macro Strategy Model for MOBA Game AI_第1张图片

直接上图,整个模型分成两部分,一部分是phase 预测,另一部分是attention 预测,整个attention不是平时神经网络里面那个attention,而是说,在接下来的任务中,应该把这个任务派到哪里,看个例子
论文笔记 Hierarchical Macro Strategy Model for MOBA Game AI_第2张图片
下面这个东西就是一个attention的例子,颜色深的地方,代表更应该把你的人物派到那里,比如第一张图,法师去中路,第二张图,韩信去野区。至于亚瑟和后裔为啥去红buff那里,我也不懂。这不是低端局的操作吗。。。。

微观方面的操作,用的是和OPENAI那篇论文同样的方法,只是做了一些修改,使得他能适应王者荣耀这个游戏,比如王者荣耀是没有传送的。

微观操作中难以学出宏观策略,手工设计公式太难这两个麻烦点解决了,那就只剩一个队友间的交流了。

说了这是监督式学习,所以在训练的时候,智能体去哪里是有标签的,我们把其他四个人的标签 传给剩下的那个人去预测 attention。而测试的时候,5个人的交互则是互相传递attention。

下面是论文的实验结果,不过实验部分还有一些有趣的结论,比如AI在团战中并不占据优势,The number of kills made by AI is about 15% less than human teams. 也就是说,AI强的地方是运营,宏观策略确实起作用了。
论文笔记 Hierarchical Macro Strategy Model for MOBA Game AI_第3张图片

你可能感兴趣的:(强化学习)