围棋博弈程序的实现与思考(3)——UCT算法

        我们已经知道UCB算法能够更快地找到靠谱的着手点,续上一篇的问,能不能再优化?

        首先要知道的是,为什么UCB算法比盲目的蒙特卡罗局面评估收敛得更快?我的理解,是因为在算法执行的过程中,UCB算法能不断根据之前的结果调整策略,选择优先评估哪一个可下点。其实这是一种在线的机器学习策略。对于上一篇提到过的多臂匪徒问题,可以用UCB算法很好地解决。对于围棋博弈问题而言,UCB算法相比于朴素的蒙特卡罗局面评估方法,收敛速度有很大的提高,但确实存在可进一步优化的地方。

        上一篇中,把围棋棋盘上的可下点比作了角子机,但他们之间有什么不同呢?

        答案是——多臂匪徒问题只有一层角子机,围棋博弈问题则是多层角子机构成的博弈树!

        终于提到博弈树了,需知在绝大多数棋类博弈问题中,博弈树是必不可少的工具。这里简单介绍一下博弈树搜索中用到的最基本搜索方法——最大最小搜索(如果对博弈树毫无概念,请自行google)。在一个二人零和博弈游戏中,参与博弈的双方所作出的每一个决策都是为了己方利益的最大化(废话~)。假设我们把黑方获胜时的棋局形势设为一个正数值v,白方获胜则是-v(其他情况下局势介于v和-v之间),则黑棋的每一手棋都是为了使局势尽可能的大,白棋反之。表现在博弈树中,则黑棋层总是选择局势值最大的结点作为结果返回上一层,白棋层反之——这就是最大最小搜索。

        有了以上的科普,这里就给出上一篇的答案——更优化的算法,UCT算法(UCB for tree)。以下是算法描述:

给定一棵博弈树。

1)      从博弈树的根点开始向下搜索,执行2)。

2)     遇到节点a后,若a存在从未评估过的子节点,执行3),否则执行4)。

3)      通过MonteCarlo方法评估该子节点,得到收益值后更新该子节点至根节点路径上所有节点的平均收益值,执行1)。

4)      计算每个子节点的UCB值,将UCB值最高的子节点作为节点a,执行2)。

5)      算法可随时终止,通常达到给定时间或尝试次数后终止。

根节点下平均收益值最高的子节点作为算法的输出。


对于这个算法,有几点需要解释:

1)博弈树的根节点指的是当前的局面。

2)评估过的节点及其平均收益值将在程序运行过程中保存及更新。

3)收益值可自行设定合适的值。我知道MOGO的做法是将其设为1(胜)或0(负),我的程序Foolish Go的做法是,所得地域 / 总地域。

4)这个算法是现代围棋博弈程序的基石。


        个人对这个算法的理解是,本质上是一种迭代加深的DFS。

        为了更好地理解UCT算法的收敛性,不妨思考,这个算法会怎样“意识”到下一手棋应该征子?

        理论的东西差不多介绍完了,下一篇将进入实战。

你可能感兴趣的:(算法)