它100:0大胜阿法狗的学习法宝,你用不用?

2017年10月19日,《自然》杂志刊登了谷歌DeepMind团队的新成果——

它100:0大胜阿法狗的学习法宝,你用不用?_第1张图片
AlphaZero大胜AlphaGo

名为AlphaZero(暂译:阿法元)的机器系统仅训练3天就战胜了AlphaGo Lee,比分100:0,后者就是战败李世石的那套。

经过40天训练后,Alpha Zero又以89:11战胜了Alpha Master,即横扫柯洁的那套。

它100:0大胜阿法狗的学习法宝,你用不用?_第2张图片
轻松一刻的漫画

那么,我们可以从阿法元的胜利中获得哪些颠覆性的学习奥秘呢?

1、经验可能反而是束缚你的绊脚石!创造力来自于一张“白纸”!

阿法元完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习(reinforcement learning)和参悟。

这是最具颠覆性的一点:以前我们常常强调经验学习的重要性,所以必须从小学开始通识教育。

阿法元的探索或许能产生这点启示:

摒弃所有经验,人类或许天生就有超强的学习力和创造力!我们认为的通识教育,不是助力它们,反而是在扼杀它们!

由此,人类以前的学习常识或将被颠覆

2、左右手相搏,意味着左右脑同时开发。全脑开发促进学习可能是正确的!

阿法元只需要在4个TPU上,花三天时间,自己左右互搏490万棋局。

以前我看过不少文章说全脑开发是假的,如根本没有左右脑之分,右脑根本不需要开发之类的说法。

如今阿法元的训练方法,或许能证明全脑开发的正确性。

说起左右相搏,我一下子就想到了金庸《射雕英雄传》里的周伯通,他不正是左右互搏术的行家吗?原来今天的学习方法早就被金庸看透了,所以他能那么高产。

好像跑题远了点,拉回来!我其实就想告诉你,全脑开发可能是正确的。

3、掌握并训练科学的策略和价值流程同样重要!

阿法元将“策略网络”和“价值网络”的神经网络合二为一,从而让它能得到更高效的训练和评估。

其实,我们学了那么多的通识教育,却从未系统和科学的学习过策略和价值流程理论。

如果人类不学习那些远古传来的历史经验,而是一开始就学习科学的策略和价值流程,并且不断训练它,会不会也能变成阿法元一样的“神”呢?

我觉得这会是一个很有意思的学习探索。

让我感觉最要命的是:通过相关的文章介绍,我发现:阿法元(AlphaGo Zero)的计算过程更趋近于人类的思考过程!

它100:0大胜阿法狗的学习法宝,你用不用?_第3张图片
我只能泪躺了

难怪,柯洁称:“一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”

古力慨叹“20年不抵3天,我们的伤感,人类的进步”。

如果,有一天人工智能比人类更先进,根本不需要人类,你还能做什么?

你可能感兴趣的:(它100:0大胜阿法狗的学习法宝,你用不用?)