【AlphaGo】【论文阅读】

前后花了十个小时阅读这篇论文。

写得不正确的地方还请指教。

论文题目: Mastering the Game of Go with Deep Neural Networks and Tree Search

发表在 Nature, 2016, 上

作者 : (deepmind)  

【AlphaGo】【论文阅读】_第1张图片

首先整理一下这篇文章的主要方法:

【AlphaGo】【论文阅读】_第2张图片


网络架构采用了Pipeline的形式。

首先是通过学习人类专家棋手的棋谱,来学习落子的策略,即 P(a|s),于棋局状态s的情况下,预测该在何处落子,学习到的是一个策略分布。在这一过程中,学习到了两个网络,一个是策略网络,一个是快子网络,策略网络中输入的特征更加一般化,快子网络输入的特征会带有较强的围棋特征在里面,策略网络优先考虑的是预测P(a|s的准确度,快子网络在牺牲一定准确度的基础上,使得落子的时间变快。两个网络选择一个action的时间分别是 3ms 、2us。

第二部分采用的是强化学习的模型架构,首先以SL策略网络的权重对RL策略网络进行权重的初始化,以RL策略网络的选子决策做自我对弈,每一句对弈会有一个反馈得分,Rt = +-1,根据这些反馈来优化RL策略网络的权重。除了策略网络外,在强化学习的模型架构上,还训练了一个价值网络,价值网络的模型架构与策略网络基本类似,不同点是策略网络需要输出一个概率分布,而价值网络需要输出一个价值打分,用来评估当前棋局状态的胜率情况。采用的是如下的近似求解思路:

【AlphaGo】【论文阅读】_第3张图片

其中:  

自我对弈产生了大量的新数据,在这个数据的基础上可以对策略网络与价值网络进行训练。


仅仅通过SL  策略网络与 RL 策略网络进行落子的程式无法达到专业棋手的水准,必须要将价值评估的策略加进去,AlphaGo采用的是Monte-Carlo Tree Search的方式,价值评估是综合价值网络与快子网络进行的,主要的公式与图表如下所示:




【AlphaGo】【论文阅读】_第4张图片

【AlphaGo】【论文阅读】_第5张图片


最后选择从根节点访问最多的点作为下一步的action。


先写到这儿了。

你可能感兴趣的:(深度学习)