Facebook智能围棋Darkforest负责人谈机器下围棋

本文作者田渊栋,已授权CSDN转载 。 责编:王艺
投稿请联系:[email protected]

我是Facebook的智能围棋darkforest的负责人和第一作者。现在我们最新的darkfmcts3 在KGS上有5d,和目前最好的软件相当,赢了一局Zen,输了一局给DolBaram,被让四子与一位韩国的职业六段一胜一负。收到的评论都是说“下得非常像人”,大局观强,屡见好手,当然偶尔也犯低级错误。相关文章见此,目前投稿于ICLR 2016。

我们用了DCNN(深度卷积神经网络)进行模式匹配再加MCTS(蒙特卡罗树)搜索的办法。DCNN其实要比简单的开局库或者搜索引擎要厉害得多,在看过十几万局棋之后,它会有比较强的泛化能力,或者通俗地说是举一反三的能力。围棋虽说是“千古无同局”,但在局部及开局还是有很多相似或者相同的模式会反复出现,DCNN能够抓住这些模式并且在实战中灵活运用。完全不用搜索的DCNN挂在KGS上就有3d的水平,这是非常让人吃惊的,甚至比我们通过搜索能达到5d更让人吃惊,我们只在这个项目上花了五个月的时间,若是用传统方法来做这个模式识别,估计耗时几年1k都不一定上得了(要是这样我也不会开这个项目了)。

单单拿游戏的状态个数去比较它们的难度,是不准确的。有很多状态空间广阔但是易解的例子。比如状态空间的估值函数很平滑,用一个简单的函数就容易拟合,在这种情况下即使状态数目是无穷大(比如说连续相空间),问题也不难。让计算机投篮,出手的方向,速度,篮球的旋转,每个变量都是连续因而有无限可能,但是计算机试几次之后很快就能找到最优解。又比如状态空间存在可以用数学表达的全局结构,这样用贪心法或者动态规划也可以很快地解决,其难度和状态个数就无关。比如说棋盘上放些黑子作障碍物,要求白子从左上角走到右下角,那哪怕是千路万路棋盘,尽管可能的路径有指数条,一个最短路径搜索也就可以搞定了。

围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法并且因此进展缓慢。但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的。这些规律远远不是几条简单公式所能概括,但所需的信息量还是要比状态空间本身的数目要少得多(得多)。现在的深度学习能在大量对局中找到这样的一些规律,但仍然没有人脑厉害。这一方面说明我们现在算法的局限性,另一方面它还有巨大的发展空间。

一句话,穷举状态并不是最终目标,就算以后超超级计算机能做到这一点,也不能说解决了人工智能。只有找到能学出规律的学习算法,才是解决问题的根本手段。像NP-hard的问题也是如此,不太可能会在多项式时间内被一个简单算法解决,也不太可能需要超级计算机穷举解决,而是会被过去的大量经验加上适当搜索解决。这个方向最近开始有一些文章了(比如说用深度学习解决旅行商问题),我觉得这是个有趣的方向。

另外,创造力并不是什么特别神秘的东西,除开少数天才之外,大部分的创造工作其实是对于事物高层抽象的理解,联系和搬运。大家都知道创造是需要素材的,艺术家只有体会大自然才有作品,小说家要去体验现实才有灵感,工程师要看过大量前人的轮子才能造出更好的轮子。从机器学习的角度来说,素材就是给自己大脑的训练样本,在从这些样本中抽取别人不曾抽取到的共同点,找到潜在的联系及局限性,创造力就会自然而然地产生。现在机器不如人的地方就是它抽取的效率太低,需要大量的样本,而人脑在过去经验加上更有效算法的基础上,(似乎)只要几个样本就可以做到。如何让计算机也做到这一点?我们还需要进一步的研究。

对于量子技术是否能帮助机器下围棋,最近去开NIPS和D-Wave的几个人聊过,大概知道量子计算现在的水平。量子计算现在主要有两个问题,其一是条件太苛刻,其二是只能解决特定问题。要让这个量子计算机工作,需要放在比绝对零度高零点零几度的超低温下,并且工作时间不能太长,不然一旦量子态退相干就没有用了。我觉得人脑应该不具备这个条件。然后D-Wave的系统只能解决特定优化问题(马尔可夫随机场,MRF)。谷歌前一阵子宣称,他们的量子计算机比现有的计算机快一亿倍,就是在D-Wave原型上开发的,也同样是解这个特定问题。如果细看他们发表的文章就会发现,他们比较的对象是最简单性能最差的模拟退火经典算法,这个算法用过的人都知道,经常等到猴年马月都没有动静的。如果他们和量子蒙特卡罗方法(注意这是个模拟多体薛定谔方程的经典算法,可以在现有计算机上跑,名字比较误导人 )比较,其实没差多少,没看出有什么特别大的进展,要真正能证明比传统的计算机好,需要制备更多的量子态,然而如何让它们不会退相干,又是个令人头疼的问题。而多用途的量子计算机,即用量子门搭出来的计算机,现在还处于比较早期的阶段。当然我对这个领域不太熟悉,所以也无法对此作非常细致的评判,但还是那句话,穷举并不是人脑采取的手段,也不应该是人工智能采取的手段,以后即便用量子计算机做人工智能,还是要以从数据中学出规律为目标的。


130+位讲师,16大分论坛,中国科学院院士陈润生,美国伊利诺伊大学香槟分校(UIUC)计算机系教授翟成祥,驭势科技联合创始人、CEO吴甘沙、上交所前总工程师白硕等专家将亲临2016中国大数据技术大会。票价折扣即将结束,预购从速。

图片描述

想要更多干货?请关注CSDN人工智能公众号AI_Thinker。

图片描述

你可能感兴趣的:(人工智能,深度学习,机器学习,围棋)