虎说八道AlphaGo Zero

前几天,人工智能领域又发生了一件大事,deepmind团队发布了AlphaGo的升级版本AlphaGo Zero,为什么说这是件大事?因为新版的AlphaGo是“自学成才”的,没有依靠大量的数据。PS:我个人认为这是个伪命题,准确来说应该是没有依靠大量的人类数据,而是运用了人类的智慧和计算能力自己产生了训练所需的数据。

DeepMind主要作者之一的黄士杰博士总结:AlphaGo Zero完全从零开始,初始阶段甚至会填真眼自杀。AlphaGo Zero自学而成的围棋知识,例如打劫、征子、棋形、布局先下在角等等,都与人类的围棋观念一致。个人认为:黄士杰博士所谓的从零开始,一定是在AlphaGo Zero掌握了围棋的基本规则的基础上。如果连基本规则都不知道,那么AlphaGo

Zero在自己和自己下棋的过程中如何判断自己到底是输还是赢?

AlphaGo zero以100:0的成绩打败了AlphaGo。

AlphaGo Zero得到这样的结果,是利用了一种新的强化学习方式,在这个过程中,AlphaGo Zero成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的最终赢家。

这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的AlphaGo Zero版本,再次重复这个过程。在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的AlphaGo Zero版本。

这几天看了很多关于AlphaGo Zero的评论,有些媒体夸大其词的说AlphaGo

Zero已经超越了人类的知识限度。这对于喜欢虎说八道的我来说,简直是莫大的侮辱,简直比我还能胡说八道。

AlphaGo Zero为什么可以获得如此能力?围棋是可以按照一定规则进行的游戏,在棋盘上只要是符合规则,围棋的随机性很高,对于人类和现在的计算机来说,这种随机性是遥不可及的。之前的AlphaGo是学习了很多高手的对局,在一定程度上,我们可以认为之前的AlphaGo是被我们灌输了一些特定了套路,技术上称之为“策略网络”。在通过“价值判断”函数进行判断获胜的概率,注意,这里的价值判断函数,是预测棋子落在每个位置游戏获胜的概率。

而AlphaGo Zero是将“策略网络”和“价值判断”是通过一种迭代方式进行完美的融合在一起了。它先自己跟自己下棋,不断优化属于自己的“策略网络”。这在技术上属于无监督学习,当然这个的前提是要教它围棋的规则或者称为标准,让它在标准里面随机产生对局棋盘,用于优化自己的“策略网络”及“价值判断”函数。

AlphaGo Zero这种完全不依赖于人类数据的创新是有其根本因素的,因为围棋的下法是有一定的规则的,只要是在规则之内AlphaGo Zero自己可以和自己模拟,创造新的下法。举例来说:一个学生学习了基础知识之后,可以利用这些基础知识解决一系列复杂的问题,但是这些复杂得多问题其实还是限制于这些基础知识不断组合上,一旦超出了基础知识的界限,那么学生就不会做题了,这也间接的解释了你曾经遇见的那些“特殊的学霸”——掌握了基础,不玩题海战术也比成绩好的原因。这也是当前版本的AlphaGo Zero的核心。但是,不得不承认的是,这种方式极大的释放了人工智能在围棋领域的创造性,人类可以从中获得更多。

AlphaGo Zero最大的特点也是有别于AlphaGo的是,它的策略网络是自主产生的,这样就可以不受人类下棋思维的限制,自己跟自己下棋,利用计算能力,尽可能的罗列出更多的可能,通过不断的学习,系统的性能才得以提高。对于一些模拟随机性要求很高的领域来说,AlphaGo

Zero的思想很重要。利用人工智能可以产生大量超出我们人类认知之外的可能,我个人觉得这才是AlphaGo

Zero最大的成功之处。

至于能不能成为人类新的智慧?

在某些具有一定可以结构化的领域,如蛋白质折叠,减少能源消耗或寻找革命性的新材料。AlphaGo Zero可以成为了一种解决问题的方式,因为人类自我认知的限制,在罗列随机性上一定比不上计算机。因为人类是有强烈的自我意志的,相比之下计算机没有,所以它的随机性更可靠。如果创造随机性属于智慧范畴,那么AlphaGo Zero绝对可以是人类的新智慧。我个人认为,随机性算得上智慧范畴,随机性就是不确定性,不确定性是上帝最好的创造,在一定意义上超越了智慧。

AlphaGo

Zero证明了在某些领域,人工智能可以不需要所谓大量数据(人的经验)就能实现智能化。这一点意义非凡,甚至会影响人工智能产业的发展方向。但是,如果深究其原理的话,人工智能还是需要大量数据来训练的,这并不矛盾,因为AlphaGo Zero训练所需的数据是自身产生的。

AlphaGo

Zero的技术核心纯强化学习,其实强化的是“基础”,有了坚定的基础,盖成一座大楼,只是时间的问题。这其实跟我们人类的思维是相通的,Deepmind团队也称,AlphaGo zero对结构化知识的领域更适用,其实与其说是结构化,不如说成是规则化。因为如果说结构化的话,那么文本翻译也属于结构化,但是在翻译领域没有标准化,它还是需要大量数据来支撑的。这也证明了AlphaGo Zero并非是完美的,它局限于某些领域。

后记:今天的AlphaGo Zero让我想起了,之前我想起了我以前的思考:物联网时代,每个物体都是智能的,它们可以数据,可以自我进化,然后为人类提供更好的服务。或许AlphaGo Zero让我这个想法更接近了现实。

����T�s���\

你可能感兴趣的:(虎说八道AlphaGo Zero)