alphaGo的前世今生,并不那么玄乎

       David Silver 是AlphaGo的操刀者,一直从事Go的AI研究。

        http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html   

       从2007年David Silver与S.Gelly 合作写的《Combining Online and Offline Learningin UCT》,ICML2017 时间大浪淘沙奖(10年沉淀之精华)在UCT基础上增加了offline learning,提出了在将在线学习与离线棋谱的学习结合起来,RL里分为决策网络(Policy network,下一步棋子放到哪个点)、价值网络(value network,当前选择到最后是赢的记为1,输为0,反向传到到当前决策所得的值,因为都有一定的概率所有当前的值一般是0-1之间的概率值)。在这篇论文中Offline learning提到“MCTS + RAVE + Simple Value Function + Rollouts with custom play ”,主要创新点是将棋谱引入到离线学习得到下一步(尤其是在之前没有遇到过的情况下)应该下哪一步。

      在后续近10年间一直持续做Go相关的研究优化。

       http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html

       都在研究怎么充分利用离线知识(人工棋谱知识)。每隔一段时间都有一点进步,从9*9的棋盘到19*19的棋牌。

     《Mastering the Game of Go with Deep NeuralNetworks and Tree Search

        在2016年发表到nature,成功战胜世界冠军。从传统的RL,到引入深度学习的RL,将棋谱的特征巧妙的作为图片信息,19*19的棋谱就是19*19的像素,输入到cnn+dnn网络,策略网络、值网络都引入深度学习模型。

         2017年10月又在nature上发表了《Mastering the Game of Go without HumanKnowledge. 》

        返璞归真,不用离线知识学习了(感觉回到2007年之前了,虽然2017年8月刚因为引入离线学习得到ICML2017的 Test Of Time reward),而直接用增强学习搞定一切,并且将Policy Network、Value Network权值共享。

         这一篇引来朋友圈一大片热潮,欢呼人工智能时代的真正到来,但是这是在规则确定明确的场景,在很多需要标注的场景还是玩的不太开,需要外部给予反馈,而围棋场景最终反馈是确定了。不过从研究角度看出,如果要深耕一个领域真的要有十足的耐心、长久的坚持并且持续创新引领,并且时不时回过头来review下以前的方向是否在新时代下是否用新的方法是否可以更上一层楼!

你可能感兴趣的:(机器学习,ai,go,dnn,alphago,人工智能)