深度剖析 AlphaGo 的训练策略

 

AlphaGo的训练中,主要涉及三个核心网络、四个重要部分

三个核心网络:

1、有监督的CNN:学习大量高手棋谱,实现‘快速成长’

2、估值网络VL:实战中,value-learn会对系统的下一步落子的策略,做评估

3、强化学习网络 RL:计算机不断‘自我对弈’,并在整盘棋下完后,对胜败结果做反馈,从而对整盘棋落子的合理性打分,协助系统落子。

四个重要部分:

1、走棋网络:给定抢钱局面,采样当前棋局,预测下一步的走棋

2、快速走子:在每一步落子期间,在当前情况下,快速走完所有情况,修正估值网络的参数

3、估值网络:给定当前局,估计白棋胜还是黑棋胜

4、蒙特卡洛树搜索:连接以上环节

深度剖析 AlphaGo 的训练策略_第1张图片

AlphaGo的全过程:

深度剖析 AlphaGo 的训练策略_第2张图片

深度剖析各网络:

1、16万盘高手对弈棋谱的CNN训练,拟合效果达到57%。

      1)特征有专家设定为48种特征,即输入数据为19*19*48

      2)网络只卷基层就有13层,且无全连接层,以1*1的卷积层取代

深度剖析 AlphaGo 的训练策略_第3张图片深度剖析 AlphaGo 的训练策略_第4张图片

2、每种残局都让计算机‘自我对弈’直至结束,根据结果给策略打分(强化学习)

    需要说明的是:

    1)对弈前的‘敌我双方’都使用CNN训练过的网络参数,就是说前13层网络不变,强化学习只训练后面全连接层的参数,并得到胜的mse

    2)所谓的残局并不随意,它是有CNN网络先出棋U步后(原设为450),下一步随机落子,再‘自我对弈’至结束。

    3)强化学习网络在实际对弈中并未使用,其作用是帮助训练估值网络。

深度剖析 AlphaGo 的训练策略_第5张图片深度剖析 AlphaGo 的训练策略_第6张图片

3、蒙特卡洛树搜索

    作用是在父节点出选择落子方式,即保守落子还是其他方式落子

     深度剖析 AlphaGo 的训练策略_第7张图片

4、估值网络:评估当前棋局的好坏

    在对弈的每一步落子期间,在当前情况下,softmax网络快速走完蒙特卡洛树搜索选择的棋局,修正棋局的估值。估值决定对弈的下一步落子位置。

   深度剖析 AlphaGo 的训练策略_第8张图片深度剖析 AlphaGo 的训练策略_第9张图片

###欢迎加入全网音频视频课程共享群群,和各领域大佬一起讨论学习知识####

深度剖析 AlphaGo 的训练策略_第10张图片

 

 

你可能感兴趣的:(DeepLearn)