alpha zero说明

  1. 只有一个神经网络,采用最原始的棋盘信息,输出状态s的行棋概率p和价值v(就是胜利的概率)
  2. 使用了残差网络
  3. 每一步操作之后,都更新神经网络
  4. 每条edge代表一种状态下的一种操作。需要记录3个值,P(s,a)操作概率,N(s,a)访问次数,Q(s,a)操作价值(胜利概率)
  5. MCTS探索中,每次行棋都遵从最大化UCB(这个只是模拟中的探索策略,不是最终的行棋策略π)
  6. 碰到叶子结点s′,开始expand,根据神经网络得到s′的操作概率P和价值V,P保存在s′的后继操作的edge内。本次模拟结束,然后开始更新本次模拟经历过的edge的N(s,a)和Q(s,a)
  7. 多次MCTS后,获得最终策略π,可以简单的看为πa ∝ N(s,a)1/τ,即越是好的操作,尝试的次数越多
  8. 每次MCTS中,更新的是探索策略。多次MCTS后,根据树内的参数,获得新的行棋概率π和价值函数z。pπ交叉熵+vz方差=loss,据此loss获得梯度,更新神经网络参数

你可能感兴趣的:(强化学习)