MCCFR算法总结

MCCFR算法/蒙特卡洛反事实最小化算法

MCCFR算法对于一棵博弈树进行多次迭代,每次迭代时会选择一位玩家作为遍历者,该玩家的策略会在本轮迭代更新(其他玩家的策略固定不变),一次迭代会从根节点开始,当遇到一个非玩家的节点,MCCFR会按照动作的概率分布随机选择一个动作执行;当遇到一个玩家行动的节点,MCCFR按深度优先的方式遍历所有可行动作。当搜索达到叶子节点时,向上返回收益值;当一个节点的所有动作都被遍历之后,MCCFR按照遗憾最小化(CFR)的方式更新该节点的策略,并把该节点的反事实值向上返回。

MCCFR示意图

例如,在上图中,玩家作为被遍历者,其策略在此次遍历中更新。首先遍历整个游戏过程直到得出游戏结果(左图)。对于每一个的决策点,考察可以选择的其他动作,并遍历到游戏结束(图中红线部分),采用CFR的方法更新在该决策点上的策略(例如在得出[-50,100,25]之后将的策略从[60%,0,40%]更新为[45%,20%,35%])

你可能感兴趣的:(MCCFR算法总结)