动态 | 时隔一年卷土重来,强化版AlphaGo的制胜棋艺能再续辉煌吗?

时隔一年,AlphaGo 将在围棋的发源地——中国,迎来它的第二次围棋世纪对决。

4 月 10 日,AI科技评论从第一线了解了「中国乌镇·围棋峰会」的最新动态,中国围棋协会、浙江省体育局、谷歌三方共同宣布将在 5 月份联合举办这一盛会,届时 AlphaGo 将与柯洁正式对决。而今天,DeepMind 也在官网宣布了 AlphaGo 的下一场征战。

赛制介绍

根据官网信息,在 5 月 23-27 日,AlphaGo 将进行三种不同形式的比赛,包括:

  • 配对赛:任意两位棋手(古力、连笑)分别与 AlphaGo 组队比赛,最大亮点在于从以往的人机纯对战转变为人机协作与另一人类棋手对决,人类又将如何与计算机合作?

  • 团队赛:由五位中国棋手(时越、芈昱廷、唐韦星、陈耀烨和周睿羊)一同群战 AlphaGo,考验的是人类的多方协作是否能做出更好的决策。

  • 常规挑战赛:AlphaGo 与柯洁的对弈。

值得一提的是,本次的常规挑战赛赛制在去年的基础上做了不少改进,主要集中于三个方面:

  • 首先最明显的变化是从原来的五番棋变成了三番棋。

  • 其次是计时方式上,从每方两小时、另有五次一分钟读秒转变为每方三小时、另有五次一分钟读秒。

  • 再者是将常规赛的时段延长至隔天一局而非原来的一天一局。

一名业内人士向AI科技评论表示,这样的机制更能保证人类在充分思考的情况下完成比赛。他指出,在 AlphaGo 化名「Master」在腾讯野狐围棋平台横扫 60 局的不败神话中,其实有 59 局是每方的 30 秒快棋,而与聂卫平对战一局则是每方 60 秒快棋。「自然,人类在拥有更长时间考虑的情况下,出错率会更少。人很难避免情绪、心理压力等因素的干扰,而机器不会。」

AlphaGo的“修炼大法”

毫无疑问,AlphaGo 对棋局的计算能力远超人类。Facebook 研究员田渊栋在地平线大牛讲堂发表题为《深度学习如何进行游戏推理?》时也提及了 AlphaGo 所用的神经网络包括策略网络和值网络,主要实现的是两个方面的功能:

• 给出一个局面后,可以决定下哪些位置;

• 给出一个关键局面时,判断它们的值,到底是白优还是黑优。

具体到算法层面,包括 Policy Network(决定下一步怎么走)和 Value Network(决定当前局面分数多少)两大神经网络。此外,在前两者返回速度比较慢的时候,采用 High quality playout/rollout policy 在微秒级的快速走子预测下一步。

那么这个神经网络是如何训练出来的呢?

首先要通过人类棋谱进行训练,让神经网络掌握初步的围棋章法;其次采用蒙特卡罗树搜索选择胜率更高的节点探索,得到最后的胜负结果后,再回溯刚才探索的过程,并更新路径上的节点胜率。

蒙特卡罗树搜索在保证灵活的前提下,也很容易漏掉一些妙招,因此还需要值网络的配合,进行自我对弈的「左右互搏」。DeepMind 表示,AlphaGo 是采用了 3000 多万场这样的游戏训练而不断提升的。它的数据收集过程是这样的:

  • 首先让算法采样通过监督学习学得的策略网络;

  • 其次通过人为操作更多的棋局形式丰富系统理解棋局的适用面。

  • 而当前棋局在人为操作某一步后,再用强化学习增强的策略网络计算后续的下一步招式,并以此得到最后的输赢结果。完成这个步骤后,系统能够得到一个当前状态到输赢结果间的样本点,再以此训练策略网络。

根据田老师的演讲介绍,目前 AlphaGo 在快速走子的情况下能够达到 2 微秒的判断速度,同时也能达到比较好的精确度。

双方实力对比

去年 3 月,AlphaGo 在以 4:1 战胜人类棋手李世石后,它将在 2017 年复出,与中国顶尖棋手柯洁对决的传闻不绝于耳。

不过,讳莫如深的 DeepMind 一度否认这一消息,直至去年 11 月,DeepMind 创始人 Demis Hassabis 才松了口,表示 AlphaGo 近一年来正在提升棋艺水平,将在 2017 年再次挑战人类棋手。而「职业陪练」樊麾当时也在同一天证实了这一消息。

而继李世石之后,人们也将焦点放在了将与 AlphaGo 单挑的柯洁身上。但鉴于去年 AlphaGo 把李世石虐得太惨,导致目前舆论大方向都认为 AlphaGo 会赢得最终的胜利。

三岁开始学棋的柯洁目前等级排名世界第一,DeepMind 评价他「以精湛且善于平衡的棋风为人所称道,且具有良好的策略性,知道何时要大胆出招,何时要谨慎行事。」

但在年初的在线围棋比赛中,柯洁两局都不敌 AlphaGo 的「Master」,而柯洁在微博了也放言「来啊」,并在赛前预热会上表示,希望自己能「不惜一切代价去争取胜利」。

不过不可否认的是,我们要感谢 AI 的地方在于,棋手在博弈的过程中招式也变得更加聪明灵活了。

围棋,不论是从「起手九式」到「入门必学定式」,虽然强调以不变应万变,但惯用的招式通常是前辈屡试不爽的必杀,因此诚然值得反复研习。而 AlphaGo 不按常理出牌的招式,看似毫无逻辑,实际上却是草蛇灰线般的精心谋虑,而这也是围棋的魅力,也是人机大战值得关注和追随的一大亮点。

九段棋手周睿羊在访谈中提及,「你会觉得 AlphaGo 的招式非常自由,而且有着一切皆可能的灵动性。现在每位棋手都会想着尝试走一些自己不曾尝试过的棋法。」AlphaGo 的横空出世,让围棋高手们变得更加聪明了,也更具创造力。

DeepMind想挑战的,远不只围棋

DeepMind 表示,五月份的这次赛事能够更好地对 AlphaGo 进行探索,了解它是如何在这项古老的游戏中不断创新的。「而 AlphaGo 背后所隐含的机器学习及人工智能技术,也能够帮助人类更好地解决全球未来可能面临的挑战。」

而就像 DeepMind 创始人 Demis Hassabis 在被 《Nature》评选为“2016年度10大影响力人物”时曾表示,「在围棋界的胜利还远远不够。我更想要向世界展示的是,机器学习技术在人类的生产和生活中拥有更强大的潜力,可以帮助人类解决更多棘手的全球性问题。」

目前,AlphaGo 背后的机器学习技术已经应用于非常多的领域,AI科技评论此前做过大量的报道和覆盖,比如:

  • 利用 AI 平衡英国电力供需问题;

  • 与英国国家医疗服务体系 NHS 旗下基金会 Royal Free London 签订了为期五年的合同,致力视网膜研究、训练 AI 识别健康组织及癌变组织的头颈部癌症图像。

此外,DeepMind 还与母公司谷歌有着密切合作,比如用机器学习技术在 Google Photo 上帮助人们找到图片中的特定物体;或是提升 Google Translate 的翻译水平。

DeepMind 表示,「在下一场人机大战中,我们对它可能带来的讨论及影响感到兴奋非常,而所带来的挑战也能够带给我们更多的启发——不论是围棋,还是其它的领域。」让我们一同期待五月的 AlphaGo 世界之战,AI科技评论也将持续关注。

你可能感兴趣的:(DL)