谷歌阿尔法零又添新技能:自学国际象棋和将棋

谷歌的DeepMind出台了一项新文件,在该文件中概述了他们的机器学习系统是如何创造出阿尔法狗并建立针对国际象棋的新系统,以实现在每一场游戏中打败顶级选手。这项计划也被称作阿尔法零,同时,也完败它的前身阿尔法狗零。

这也是DeepMind规划的下一个动向。国际象棋和将棋(类似于象棋的棋盘游戏,起源于日本)领域中,电脑程序均已打败人类玩家。阿尔法零也打败了象棋界的顶尖高手Stockfish以及将棋领域的高手Elmo。

程序最初就被设计为独立系统,通过强制学习,可对每一个游戏规则的关键信息进行学习,定夺每一步棋路。而阿尔法狗(包括阿尔法狗零,也是依靠自我发挥的强制学习训练)就是专门为此服务的,阿尔法零的设计相对来说更加灵活。

该通用设计已经为AI系统的发展描绘出一个蓝图,包括玩儿游戏以及解决其他规则明确的问题,比如设计药物。

在三种情况下对阿尔法狗分别进行训练,包括围棋、将棋和象棋。象棋要自我训练大约4400万场比赛,将棋要训练2400万 场比赛,而围棋系统要经过2100万场比赛。

阿尔法零的优势还未确定,围棋和另外两个类型的比赛也有很多关键性的差异需要DeepMind进行选择。对于每一步棋,无论是国际象棋还是将棋均有严格的限制,每场比赛的板面都不像围棋那样可以自行旋转。此外,在将棋中,对手可以拿住旗子然后将它放在板上。

阿尔法零的主要算法也必须进行改变,因为现代围棋游戏不允许有平局,阿尔法零的算法必须进行胜利优化设置以达到结果的优化,将平局算入国际象棋中。

通过系统的所有测试,呈现出一些有趣的趋势,在对抗Stockfish的100场比赛中,没有一次失手。下白棋时比赛赢了25次,平局25次,下黑棋时赢了3局,47次平局。(这一情况并不常见,在象棋中具有明显的优势。)

阿尔法零也通过自我发挥学习了一些象棋中最为流行的开放移动,与随后的比赛相比,这种超长发挥的次数尽管并不多见,但是也足够体现了电脑学习象棋知识的速度有多快,而这些经验对于人类来讲,需要漫长时间的积累。

阿尔法零在对抗Elmo的比赛中的表现更为均衡,但是也显现除了一定的弱势。DeepMind系统输掉了5局白棋外加3倍的黑棋。日本象棋是比象棋更为复杂的一种棋类,因为它在一种更大的板面上进行对抗,更加复杂。

围棋是距离最近的一种比赛,相比第一次和第二次的对抗,阿尔法零赢得了更多的比赛,它的前身阿尔法狗零第一次赢了19局,第二次赢了21局。

目前我们还不清楚阿尔法零是如何衡量人类对手的。对于Elmo and Stockfish这两位打败了顶尖人类选手的人来说,DeepMind 将系统的性能称为超人更加合理。该公司表示,在轻而易举打败了人类竞争对手后,阿尔法狗将不再参与早前与人类的对抗游戏。

视频链接:https://v.qq.com/x/page/v0517elovu9.html

——————————————

文章采集自互联网,版权问题请与我们取得联系。

SaaSPad (www.saaspad.com) 是专注AI/BI/ML领域的科技网站,我们分享国内外的成功理论和经验,建立行业人士交流探讨的社区,欢迎访问官网。

你可能感兴趣的:(谷歌阿尔法零又添新技能:自学国际象棋和将棋)