感谢阅读腾讯AI Lab微信号第103篇文章。本文将介绍 “开悟AI+游戏高校大赛”。
8月18日,腾讯宣布首届“开悟AI+游戏高校大赛”(下称“大赛”)初赛正式启动,这也是腾讯开悟平台首次面向高校开放。该大赛由腾讯AI Lab携手王者荣耀、腾讯高校合作、腾讯游戏学院等共同发起,邀请来自清华大学、北京大学、上海交通大学等国内18所顶尖高校的100多名学生同台竞技。
开悟是腾讯牵头构建的AI多智能体与复杂决策开放研究平台,依托腾讯AI Lab和「王者荣耀」在算法、脱敏数据、算力方面的核心优势,为学术研究人员和算法开发者开放的国内领先、国际一流研究与应用探索平台。
本届大赛依托王者荣耀的游戏测试环境和开悟平台提供的算法、脱敏数据、计算平台等资源,为研究者开放脱敏游戏数据集及游戏核心集群,并提供评估工具、计算平台以及其他研究支持服务,以测试并提升AI在复杂对战游戏场景下的多维度决策水平。
参赛队伍需要在指定的时间内,在给定的资源下训练出最优模型,并最终部署好使用最优模型的AI服务器,提交系统进行1V1、5V5对局。大赛总奖金池高达50万元,最终成绩将于今年12月发布。
腾讯AI Lab团队表示,在2019年8月18日的王者荣耀“无限开放计划交流会”上,腾讯AI Lab与王者荣耀和高校携手,开启了对“AI+游戏开放平台”的共建。一年后的今天,腾讯正式开放开悟平台,希望延续“818无限开放”的美好寓意,向开放生态推动科研与应用的愿景持续迈进。
为进一步促进技术交流,腾讯AI Lab“AI+游戏”系列高端讲座视频已于开悟官网免费开放,欢迎大家前来了解国内“AI+游戏”研究最新进展:
官网地址:
aiarena.tencent.com
图2 开悟官网截图
课题挑战:
让AI学会像人一样决策
《王者荣耀》是一款移动端MOBA类游戏,基本玩法是通过推塔、击杀敌人、赚取经济来得到优势,胜利条件是摧毁敌方的水晶基地;但细节玩法因所选模式的不同而略有不同。
不论是王者“大神”还是新手“小白”,游戏水平并不妨碍人类玩家从游戏中得到乐趣,但这个游戏对AI来说是个巨大的挑战——AI 要在不完全信息、高度复杂度的情况作出复杂快速的决策。在庞大且信息不完备的地图上,10位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择,这带来了极为复杂的局面,预计有高达10的20000次方种操作可能性,而整个宇宙原子总数也只是10的80次方。
具体而言,要实现胜利目标,需要考查AI的多项能力:智能体解决方案、特征、动作空间、模型结构设计、强化学习算法设计、奖励函数设计、训练方式探索等。
首届“开悟AI+游戏高校大赛”分为初赛和决赛两个阶段。初赛为1V1玩法,决赛为5V5玩法,两种玩法的挑战任务均为摧毁敌方基地水晶。
初赛期间,参赛队伍需通过基准测试(在1V1对局中击败主办方提供的基准模型),方可进入与对手模型对战的阶段。之后参赛队伍将进入两两对战阶段,胜利者可获得1分,通过循环对战积分得出排行榜,最终前6名将进入决赛。
决赛期间,每支队伍的AI将操纵五位英雄对战,更大的动作空间挑战,将更考验AI之间的配合协作。
图3 赛程时间线
资源支持:
平台,算力,gamecore与知识
腾讯AI Lab联合王者荣耀、腾讯高校合作、腾讯游戏学院等合作伙伴,共同为参赛团队提供全方位资源支持,帮助他们完成开悟大赛的课题挑战:
• 游戏核心集群(gamecore):业内唯一读取“王者荣耀”游戏场景和控制英雄行为的数据接口 Gamecore API,让研究者可以基于这款经受亿级玩家考验的成熟MOBA游戏测试环境,借助10万级脱敏对局数据,进行在复杂对战游戏场景下的多维度决策AI研究。
• 算力资源:免费提供腾讯云计算与大数据处理平台,可用于训练强化学习和模仿学习算法和模型。
• 评估工具:基于 Linux 环境的游戏对战工具和对局录像回放工具,帮助研究者即时有效地评估新算法和模型的性能表现,便于调试。
自今年5月起,腾讯AI Lab为参赛选手提供赛前培训,专人指导选手熟悉使用平台,了解监督学习和强化学习知识。6月下旬,腾讯AI Lab组织“开悟”内部交流会,邀请来自北京大学、中国科学院自动化研究所、上海交通大学等高校的顶尖教授学者,为学生们分享他们在“AI+游戏”领域的前沿研究成果。
目前,腾讯AI Lab“AI+游戏”系列高端讲座也同步于开悟官网免费开放,面向行业共享国内“AI+游戏”研究最新进展。
• 《斗地主的游戏复杂度和智能体复杂度的度量方法研究》北京大学教授李文新
AI 玩斗地主还是挺难的,因为洗牌是随机的,而玩家初始手牌对胜率影响很大。北京大学李文新团队研究了初始手牌对“地主”或“农民”的获胜难度有何影响;另外,他们还提出了另一种新方法,可以评价一个斗地主 AI 的牌技好不好。
• 《基于动态不后悔策略的多智能体合作学习》中科院自动化所研究员兴军亮
要让多个智能体学会合作是很困难的,既要设定各个智能体的目标,还要分出主力和辅助关系,实现这样的复杂设计成本很高。中国科学院自动化研究所兴军亮团队提出了一种自我提升式强化学习框架,先让智能体通过模仿来学习,再通过自我互博来进阶进化,加上他们提出的一种新策略,可有效缓解一些多智能学习的常见问题。
• 《Behavioral Diversity Generation via Multi-Agent Determinantal Q-Learning》上海交通大学教授温颖
或许《王者荣耀》高手们会觉得人机AI看起来都不太聪明。上海交通大学温颖提出了一种新技术,能让AI们的合作方式更多样化,从而不那么容易暴露自己的套路,让游戏变得更有挑战性。另外,这个技术还可以用于训练自动驾驶汽车。
开悟愿景:
助力产学研,共享AI+游戏新生态
AI业界普遍认为,下一个 AI 里程碑可能会在复杂策略游戏中诞生:若 AI 能在如此复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。世界顶级科技公司均在推进此类研究,如Google Deepmind(星际争霸2)、Facebook(星际争霸2) 及 Open AI(Dota 2)等。
腾讯 AI Lab 一直是此类智能体研究的先行者。2016年起,研发的围棋 AI “绝艺”(Fine Art),现担任中国国家围棋队训练专用 AI ;2017年,基于王者荣耀游戏测试环境启动MOBA策略协作型AI“绝悟”研发,2019年达到职业电竞水平;腾讯还在射击类顶级 AI 竞赛 VizDoom 夺冠,并在《星际争霸2》首先研发出击败内置 AI 的智能体。
在2018年对战顶尖水平的非职业战队时,绝悟表现出即时策略+团队协作能力:在赛区联队全队覆灭后, 「绝悟」的兵线尚未到达,下路高地塔还有过半血量,「绝悟」果断选择四人轮流抗塔,无兵线强拆塔。
借助开悟平台,腾讯AI Lab希望联动更多有兴趣的高校和学者参与,共同探讨和研究这些难题,并进一步将在该游戏测试环境中探索得到的新技术和新方法,应用于日常生活中的现实问题。
* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)