人机围棋大战第一局,李世石(黑) VS AlphaGo (白中盘胜)
编者按:
人机对弈的巅峰对决,李世石九段首场被棋界寄予厚望,但是盘中出现情绪波动最终被机器逆转。他在赛前认为人工智能还不够强、排除万一的担心居然一语成谶,“因为人类下棋时会有失误。”
人类输了棋,有人在欢呼人工智能的伟大胜利,有人的感受比较失落,还有的人开始担忧未来。而在谷歌CEO施密特看来,不管胜败,人类都是最大的赢家。
“机器”总比人类强?在各种情绪面前,历史和现实都已经表明,这似乎是不可阻挡的趋势。也许人类应该避免的是因为赛事带来的人与机器二元对立的情绪,因为我们终将迎来一个人工智能技术应用日渐丰富的生活场景。
文 | 江铸久、卫鸿泰、张峥、田渊栋、董飞、朱文章、刘峰、卫鸿泰、何波等
● ● ●
2015年10月,AlphaGo先以5:0击败了欧洲围棋冠军樊麾二段。这是电脑围棋程序第一次在全尺寸棋盘上公平击败职业围棋棋手。
2016年3月9日——15日,AlphaGo挑战世界排名第二、韩国棋手李世石九段,人机对决举世瞩目。在第一局的对决中,AlphaGo执白186手,以约7.5目的优势中盘取胜,
《知识分子》特邀请多位人工智能、围棋领域的专家,通过微信群和广大网友共同解读人工智能与人类智力的巅峰对决。
感谢各位网友的踊跃参与!
江铸久
九段,中国国家队著名国手,韩国棋院客座棋士。
今天这棋AlphaGo表现挺好的,我觉得。不过不管怎么说,尽管我预测偏向电脑赢,赢一盘就算赢,但没想到第一盘就赢,说明AlphaGo这5个月进步真的很快。从李世石布局阶段就能看出来,他今天在心理上一开始就有波动,因为他采取的是非正常的布局。我估计这是因为他知道是在跟AlphaGo,而不是和人类下棋。
在这种情况下,我个人觉得李世石的布局不算太成功,而且AlphaGo上来的斗志是不错的,断的时候挺果断的,算路是比较深的。这样夸人工智能,也是它长处的地方。
中途的时候,李世石追上来了。但是,AlphaGo在左下角双飞燕的应对,是AlphaGo让职业棋手觉得low的地方,它那个下法肯定不是职业的下法。
有一点意外的就是,AlphaGo那个下法损失并不大,整个下法是很low,损失并不大,相对于在右边破黑棋的空,它的次序下得很精准,加上李世石在右边角上的失误,AlphaGo一下就超出了。
况且它在左边拆二的下法,基本上是AlphaGo胜利宣言的下法。接下来一连串的下法,让人想起全盛期的李昌镐。李昌镐在形势领先的时候,经常有一些失误,但是倒过来看,他的那些失误都是很保险的,一点风险都不冒就会赢下来。
所以,我觉得AlphaGo很了不起。
卫鸿泰
知乎围棋专栏主持人、围棋业余5段
这一盘,李世石输给机器,意外的是,人类在大局观上输给了机器。
这盘棋开局稍显意外,印象中这样的开局是第一次见,感觉李世石有备而来,故意选择了不常见的下法。
之后作战很强硬,局部来看,黑棋稍有勉强。
之后黑棋逐渐占据上风,进行到76手的时候我觉得AlphaGo下的实在太机械,太僵硬,有点暴露“机器本性”。
进行到这里大家开始普遍看好黑棋了。接下来是本盘最有看点的一招:
102 是非常有个性的一步,也是柯洁(九段)指出的好棋,之后AlphaGo占到便宜以后连续两次脱先,逐渐扭转了局面。
之后右下角的悬念是AlphaGo右下没有跳一路是看到目数优势,简明处理还是没有看到手筋,当然我倾向于前者。
之后收官双方都很平稳,本局唯一一次打劫也简单结束,希望之后能看到AlphaGo对于复杂劫争的控制水平。
张峥
上海纽约大学计算机科学教授、前微软亚洲研究院副院长
刚刚仔细读过AlphaGo,没觉得有什么破绽。在自己左右手互搏中的计算价值那部分为了效率用了“快棋”策略,可能粗糙些,但下得多可以弥补。有网友提出的和李世石比赛会“偷招”这个倒不用担心,五局的样本对机器没用,它不靠这个,靠的是工程上高效率、策略上粗枝大叶但大方向正确。
AlphaGo胜利的概率是100%,只不过不见得是这次。“毛病”还是机器学习的老毛病。表现在:无法总结规律,或者说无法吐出一套规整自洽的规律;泛化能力差,无法在复盘中举一反三,即便告诉它哪步走错了,恐怕它也不知道为啥,只是一气儿死磕到撞了南墙才完事。
对谷歌如何复盘我很好奇。
如何实现不败呢?AlphaGo从大量的棋谱开始练,除非有它没见过的变化,而且远离它见过的和自己能演练到的。要下无理棋,把围棋当五子棋下……
但这种可能性太小。归根结底,和国际象棋变化少不一样,问题是围棋太古老了,以至于穷举了太多可能,而且还让AlphaGo看了!剩下的变化空间人是可以其乐无穷地去变化,对机器来说分分秒嗖嗖地就搜完了。这里围棋的长板变成短板,帮了AlphaGo:由于规则太简单,被机器抄了近道。
田渊栋
卡耐基梅隆大学机器人系博士、Facebook人工智能组研究员,Facebook人工智能围棋程序Darkforest负责人
我围棋水平很烂,但总的来说,可以对Alphago有所评论。第一点,如果你觉得AlphaGo的落子水平会波动,其实它可能判断胜率已经很高,有时候随便下;第二点,蒙特卡洛树搜索是遇强则强的,如果对手太弱的话也不会下出太强的手;第三点,AlphaGo下棋每一步最后都是算整体分数的,并非单纯局部,反倒是有时候局部弱,对杀会有问题;第四点,接下去的研究是进入程序的黑箱里去。人工智能研究者们虽然设计学习算法,但其实不知道电脑是怎么决策的,要打开黑箱了解内部机理,还有很长的路要走。
董飞
数据科学家、Coursera数据工程师
这次是太多意外,在大家一边倒的支持李九段的时候,也有李开复老师、余凯老师(前百度研究院副院长)力挺AlphaGo,认为机器会赢。
这盘棋大致是前半段,李世石占有很多先机,但后来不知道为何保守下棋,犯了一些失误,势力峰回路转,而AlphaGo中盘发力,180度转弯,把李世石逼着认输。
我想作为一次焦点比赛,关注的人太多,比赛的压力很大,李世石也似乎没有发挥最佳水平,今天这一盘还不能完全说明问题,如果明天他接着输了,那可以认定人工智能真的在围棋领域取得革命性突破。
其实在(类似围棋的)这些封闭系统中,(人工智能)战胜人类也不奇怪。我记得有些预言家说过未来20年,98%的人类工作将会被机器取代,那么我们现在要怎么做?怎么才能成为那2%的人,我觉得只有人类的创意思维,不断创新才是出路,所谓的灵感、灵气、灵光。
最后如果说我对明天的棋局有什么建议的话,那就是靠直觉判断,电脑目前还不会,对全局判断弄不大清楚,这可能是AlphaGo的弱点。
朱文章
香港科技公司首席架构师、香港大学计算机博士、围棋业余5段(弈城9段),前微软及谷歌软件工程师,iOS软件“围棋之眼”作者
开局李世石下得太勉强,也下得快。到中间缓过来优势,102点的时候,虽然长考,但没有发挥出计算力的优势,被翻盘。右下角又没有出强手,左上也让白棋稳稳围住。这些估计都是失败之处。
刘锋
著名互联网资深人士、计算机博士,《人工智能学家》主编、AIE实验室创始人,《互联网进化论》作者
震惊于AlphaGo战胜李世石九段,但若以科学实验流程规范来评价,我依然认为此次比赛不合格。谷歌应尽早展开线上多人(100人以上)同时在线对弈AlphaGo,以消除其实验不规范带来的质疑。在比赛公正的条件下,AlphaGo的此次胜利将意义非凡。甚至是人类发展史的一次巨大进步,可能的意义超过美国登月,但面对如此巨大的突破,我们是否应该持有更加谨慎和科学的态度?
何波
业余5段,中国科技大学物理博士,中泰证券股份有限公司信息技术部副总经理
卫鸿泰(左)、何波(右)
今天是个划时代的一天,AI在要点的把握上超过人类,不会有因为思维定势等缘故而跟着对手走棋,每一步坚定的走他觉得价值最大的点,这点我觉得很可怕。另外,我觉得现在说AI超越人类还早,现在AI在输入的信息上并没有产生更多的信息度,如果有一天AI会自己创造数学公式,或者总结物理规律,这才是奇点来临。
● ● ●
读者问答部分精选
“狗狗”的学习机制还是黑匣子
Q1:请介绍今天比赛的计时、计分(贴子)规则。
朱文章:比赛采用中国规则,黑棋贴7.5目,各两个小时,还加3次1分钟读秒
Q2:电脑下棋会不会也形成像中韩日围棋届一样的某种流?
朱文章:AlphaGo和机器人小图这个问题很大,你说它们能自学习吧,应该都有,但是不同系统,机器学习训练的方式,结构都有千差万别。我这方面还是不够深入了解。电脑的神经网络参数定了之后,应该有一定模式和风格。但是经过不断学习,它会改变。
Q3:遇到不同的水平的棋手,AlphaGo的表现是不是也不同?
田渊栋: 蒙特卡罗树搜索是遇强则强的,如果对手太弱的话不会下出太强的手。
朱文章:AlphaGo团队最强的棋手是台湾的Ajahuang,台湾业余6段。
Q4:作为训练数据的对局水平是否会影响围棋AI的水平?例如10000盘刚学会围棋的人的对局,和10000盘职业高段位棋手的对局,做训练数据,对同一个模型是否会有显著影响?
田渊栋:不同质量的对局对训练影响很大。
Q5:阿狗(AlphaGo)的策略也靠搜索来的吗?与之对弈,人落子拖时间长一点,和拖时间短一点,AI的结果会不会不一样?
田渊栋:是啊,如果AI开了pondering(编者注:即长考)的话,就是说在对手思考的时候也思考。软件下棋每一步最后都是算整体分数的,不同质量的对局对训练影响很大。
张峥:是,用少见的开局也许可以增加长距离蝴蝶效应的可能性。一进入局部就不好办了。
Q6:硬件当中会有GPU(图形处理器)和CPU(中央处理器)共同工作吗?
张峥:是的,用两种硬件协调工作是工程和资源的优化,不是本质。
田渊栋:一直是两者同时工作的,CPU搜索,GPU评估局面。
Q7:在过去的四个月中,AlphaGo的学习方式是复习历史棋局还是跟许多真人高手对決?AlphaGO是在局部算路更强的情况下,对整体势的把握是如何做的。
卫鸿泰:兼而有之。
Q8:我记得有人问Google作者,电脑是怎么下这一步的,他也不知道,不是靠背棋谱就可以知道的。为什么Google作者自己都不知道电脑怎么下棋的呀?不是他们设置学习机制的吗?
田渊栋:设置了机制,但是不知道这个机制如何学得棋谱模式。所以,AlphaGo可以走很好的棋,但是制作者不知道这个是通过什么推理方式算出来的。要是知道了,对AI来说是非常大的突破。
Q9:所以,机器思考的过程现在还是个黑匣子?
田渊栋:是的,在这点上人工智能还是有很长的路要走。
Q10:电脑的弱点之一是,算法可以解决局部的问题,但对整体局势的评估会弱一些。
田渊栋:不一定,深度神经网络往往是倒过来,整体强而局部弱,需要加上搜索,DarkForest是这样。所以有时候死活,对杀会有问题。
张峥:难说,狗狗的结构是从局部到全局的。
Q11:我们能否说AlphaGo现在已经能够判别局势,而不是只判断接下来的几步范围内,哪个位置最优?
田渊栋:Value Network和Playout都是用来判断局势的,判断哪步棋最优也要靠这两个,Policy Network给出候选的走子,然后由上面这两个判断哪步比较好。
“狗狗”早点去博物馆不好吗?
Q12:“阿狗”和对手下得越多,胜利的机会也就随之增加?
张峥:狗狗哪天的左手也很强,就不要你了!它左右手互搏是现在成长的环境一环。
Q13:如果AlphaGO在棋力水平超过了大部分用于训练的“高手棋局”,想进一步提升棋力,这时如果再用这些水平低于自身水平的棋局数据进行训练是否不利于自身棋力水平增长?更多的使用“左右互搏”棋局训练是否更好?
田渊栋:是的。
董飞:我之前思考过电脑如果只是学习网上的棋谱,这些大多都不是高手,超一流的棋局又那么少,跟三流学,怎么可能下过一流的选手呢?但它那种可以自我对弈,选择倾向赢棋的路径,这样想只要它不断电,有大量计算资源,这样就进化直到永生,想到这就是一部科幻片了。大家还记得那部片子叫《超验骇客》,主人翁要死了,委托他女友把大脑移植到电脑中,后来就入侵银行,去一个乡下造了一个巨大data center,一直进化,研究各种新技术,可以移植修复,copy他的思想,最后谁也没法阻挡,世界被他控制。我觉得那部电影还是挺有哲学意义的,本意是想那些人类都不如他,他要去拯救世界,给他们最好的东西,但这样就是独裁。
Q14:没有了人类的挑战,AlphaGo的能力很快就到顶,进步的空间就不大了?
张峥:让狗狗早点去博物馆不是好事吗?
Q15:为什么?
张峥:因为就去战下一个更好的问题了。
Q16:AlphaGo的算法已经公开发表,是否意味着别的团队同样可以做出AlphaGo?商业化公司发表公开论文的动力在哪里?
田渊栋:细节有很多还是不清楚的,当然大致的技术路线都很明确了。动力在于提高自己公司知名度,这个很重要的,而不只是为了赚钱。有知名度就对招人和公共形象都有好处。
机器还是真人,你分得清吗?
Q17:如果不告诉您黑白棋对应的是电脑还是真人,您能分辨出来谁是谁么?
刘锋一互联网进化论:不能。
朱文章:这盘可以。最新的这些招法,有点现出原形了。贴了那么多个白子,人不会那样下啊。
卫鸿泰:白棋这一串,机器的感觉太明显。
Q18:怎么看人工智能现在的阶段?围棋机器人有用到量子力学吗?
田渊栋:没有量子力学的成分,全都是基于经典物理的。
Q19:李世石大优的情况下长考,是要做坏事了么?像中盘那样。
朱文章:长考很重要,可以稳定一下情绪。
Q20:第一局输了的话,AlphaGo有可能像人类高手一样分析对手风格,从而在后面棋局中调整策略吗?
田渊栋:要调整也是人类去调整,机器目前看起来还没有这个能力,它要自我学习的话需要大量的样本。
卫鸿泰:白棋两次脱先收获非常大,大局观不错。职业普遍认为黑棋右下有心态问题,下得非常有问题。
Q21:阿狗的时间不够怎么办啊?
田渊栋:不会不够的,机器大不了用Policy Network,3毫秒一步,只要code没bug,肯定不会超时。Dark Forest上次一月份对Zen超时了,因为有个bug。
Q22:李世石输了?
主持人:终局,李世石输。
朱文章:输了部分人都挺难受的,特别是喜欢围棋的人。
张峥:我吭吭哧哧地写了那两篇,其实心里是很希望能再挺一会的。
知识分子,为更好的智趣生活。
关注请加微信号:the-intellectual或长按下方二维码。投稿、授权事宜请联系:[email protected]。