DeepCFR总结

DeepCFR

使用神经网络拟合虚拟遗憾最小化算法

两个神经网络:

虚拟遗憾估值网络:,输入一个状态,输出该状态采用不同动作之后的遗憾值

策略网络:输入一个状态,输出不同动作对应的概率

DeepCFR神经网络更新

神经网络更新方法:执行轮迭代,在每一轮迭代中,对每一个参与人,进行次【模拟】,在模拟结束后,用中的数据训练一个新的神经网络

在轮迭代之后,使用中的数据训练神经网络

损失函数中中的表示惩罚随着训练进行而增大,体现为要求越来越严格

MCCFR树搜索策略

MCCFR树搜索策略是一个迭代算法,接受输入【状态,遍历者,每个参与人的虚拟遗憾网络,和,迭代轮数】

如果状态是一个叶子节点,则向根节点返回该叶子节点的收益

如果状态是一个机会节点,则依照该机会节点的概率分布选择一个动作向下遍历

如果状态是遍历者行动的节点,则使用预测该节点的动作概率分布,然后依次遍历每一个动作,得到每个动作的价值,并计算每个动作的后悔值,把【状态,迭代轮数,每个动作的后悔值】存入,向根节点返回每个动作的价值的加权之和

如果状态h是其他玩家行动的节点,则使用预测该节点的动作概率分布,把【状态,迭代轮数,】存入,并依照该概率分布选择一个动作向下执行

你可能感兴趣的:(DeepCFR总结)