博弈决策---蒙特卡洛搜索过程(一):原理

一、简介

蒙特卡洛树搜索(简称 MCTS)最早兴起于上个世纪五十年代左右,从统计实验中衍生而来,在博弈决策中发挥了巨大的作用。当博弈序列较长,动作空间大时,往往会使博弈树非常巨大,导致使用蒙特卡洛树搜索带来了较大的困难,近几年深度学习的兴起,尤其是AlphaGO,其使用了深度学习与蒙特卡洛树搜索相结合,借助MCTS的框架(就是实验统计的思想),利用深度网络来拟合,解决了空间规模较大的问题,在各类游戏中越来越突出MCTS的作用。

二、博弈树

先看博弈树,博弈树能够直观的体现出双方的决策行为,如下图所示,这种博弈适合异步博弈,如棋牌类,一方的决策需要等待另一方决策完成之后。从树中根节点开始,任一个状态,树中的每一个分支即为一种决策路径(双方的决策)。博弈树中常见的方法即为最大最小法(max-min),剪枝法等。MCTS就是用于解决这两种方法的不足。

博弈决策---蒙特卡洛搜索过程(一):原理_第1张图片

二、基本原理

MCTS核心部分包含四个步骤:选择(Selection)、扩展(Expansion)、仿真(Simluation)、回溯(Backpropagation)。

博弈决策---蒙特卡洛搜索过程(一):原理_第2张图片

核心思想:当遇到需要决策的状态点时,利用大量的仿真实验结果来评估该点每个动作的好坏,仿真实验可能会达到上万局,根据决策问题的复杂度来定,在AlphaGo中就是用快速走子网络来做实验。最终返回当前状态的一个决策结果。

节点信息

每一个节点代表一个状态,每一条边代表状态动作对,每一个节点处至少包含三种信息,一是节点访问次数,一是节点获胜次数,一是节点处的评估值。

选择(Selection)

扩展(Expansion)

仿真(Simluation)

回溯(Backpropagation)

参考论文

你可能感兴趣的:(智能机动决策,蒙特卡洛搜索)