【ZJU-Machine Learning】AlphaGo介绍

AlphaGo原理

三个深度策略网络 (Policy Networks),一个深度估值网络 (Value Network)
【ZJU-Machine Learning】AlphaGo介绍_第1张图片

深度策略网络 Supervised Learning Policy Network

【ZJU-Machine Learning】AlphaGo介绍_第2张图片
【ZJU-Machine Learning】AlphaGo介绍_第3张图片
优化分析 :
【ZJU-Machine Learning】AlphaGo介绍_第4张图片
棋盘特征 :
【ZJU-Machine Learning】AlphaGo介绍_第5张图片

落子颜色 (Stone Color)
【ZJU-Machine Learning】AlphaGo介绍_第6张图片

轮次 (Turn Since):
【ZJU-Machine Learning】AlphaGo介绍_第7张图片
气(Liberty):
【ZJU-Machine Learning】AlphaGo介绍_第8张图片
打吃数量:
【ZJU-Machine Learning】AlphaGo介绍_第9张图片
征子(Ladder):
【ZJU-Machine Learning】AlphaGo介绍_第10张图片

合法性(Sensibility):
【ZJU-Machine Learning】AlphaGo介绍_第11张图片

深度策略网络Reinforcement Learning Policy Network

在这里插入图片描述

【ZJU-Machine Learning】AlphaGo介绍_第12张图片
【ZJU-Machine Learning】AlphaGo介绍_第13张图片
强化学习训练策略:
【ZJU-Machine Learning】AlphaGo介绍_第14张图片
训练细节和结果:
【ZJU-Machine Learning】AlphaGo介绍_第15张图片

深度估值网络 Rollout Policy Network

【ZJU-Machine Learning】AlphaGo介绍_第16张图片
【ZJU-Machine Learning】AlphaGo介绍_第17张图片
【ZJU-Machine Learning】AlphaGo介绍_第18张图片

下棋方法——蒙特卡洛树搜索 (Monte Carlo Tree Search)

多次模拟未来棋局,然后选择在模拟中选择次数最多的走法

【ZJU-Machine Learning】AlphaGo介绍_第19张图片
u增加选择多样性
【ZJU-Machine Learning】AlphaGo介绍_第20张图片
【ZJU-Machine Learning】AlphaGo介绍_第21张图片
【ZJU-Machine Learning】AlphaGo介绍_第22张图片
【ZJU-Machine Learning】AlphaGo介绍_第23张图片
【ZJU-Machine Learning】AlphaGo介绍_第24张图片
在这里插入图片描述

AlphaGo Zero 的改进

(1)完全不需要人类棋谱,采用自己和自己下棋的方式学习。

(2)将走棋网络和估值网络合并为一个网络:
在这里插入图片描述
自学习过程和神经网络训练过程

【ZJU-Machine Learning】AlphaGo介绍_第25张图片
【ZJU-Machine Learning】AlphaGo介绍_第26张图片
【ZJU-Machine Learning】AlphaGo介绍_第27张图片

你可能感兴趣的:(【ZJU】机器学习)