充值150日赚1000多,一篇AI打扑克的论文竟登上科学杂志

     最近由卡耐基梅隆大学的两位学者Noam Brown and Tuomas Sandholm提出的AI模型Pluribus,在无限制德州扑克(手牌总数超过10000张)的六人比赛中,成功战胜了五名专家级人类玩家。目前这篇论文已经刊发在最新一期《科学》杂志上了。https://science.sciencemag.org/content/sci/early/2019/07/10/science.aay2400.full.pdf

    Pluribus可谓开创了今年以来人工智能方面的两个新风。

     一是今年以来AI界的主要成果基本都是大力出奇迹的风格,无论是NLP方面的GPT-2、XLNET,还是生成模型方面的VP-VAE-2其最终模型的训练成本都动辙要耗费数十万人民币。而Pluribus训练成本只有150美元(后面笔者会说明其训练量较少的原因)。是平民也能玩得起的模型。

   二是这篇论文直接这被《科学》刊发,之前无论是横空出世的GPT-2,还是稳居自然语言处理方面C位的BERT,其论文都只发在了行业期刊上,而在我印象中这是《科学》杂志今年以来首次刊发人工智能方面的论文。

       多人德扑难在哪里

     多人德扑其实就是信息不完全情况下的多人博弈,在作者原文中以”柠檬水摊“游戏为例,这个游戏要求每位玩家同时在圆环形的柠檬水摊上选择一个点,并尽量远离其它玩家。在这种情况下几名玩家的联合纳什均衡是均匀的分布在摊位的周围,如下面的左图所示,相同颜色代表一组纳会均衡,不过在实在游戏过程中这几乎不可能完成,玩家独立做出的选择往往如下面的右图所示。

充值150日赚1000多,一篇AI打扑克的论文竟登上科学杂志_第1张图片

同时考虑到德扑是隐藏信息的博弈,如果考虑所有玩家隐藏信息中可能包括的全部情况,那么其计算量将是天文数字,绝不是150美元能解决的问题。

      Pluribus的开创性工作

  1.对于类似的策略进行压缩:其原文是这样描述的”For example, a ten-high straight and a nine-high straight are distinct hands, but are nevertheless strategically similar“虽然笔者不太了解德扑,但是可以肯定”ten-high straight and a nine-high straight“应该都是指非常好而且类似的两套手牌,这两种情况进行合并处理。

   其实这个思想有点类似于VP-VAE-2算法当中的VP压缩思想,其实就是通过kmeans聚类对于临近的点进行合并压缩再向后输出,以此在保证精度的情况下,降低计算量。

2.使用改进版的MCCFR代替蒙特卡洛(CFR)进行迭代

充值150日赚1000多,一篇AI打扑克的论文竟登上科学杂志_第2张图片

 Pluribus针对信息不对称博弈的特性改进了蒙特卡洛算法。上面的左图当中,使用玩家P1模拟进行游戏。中图则对于左图每一个P1决策点,都会探索P1可能采取的行动,选择具有更高收益和更高概率的行动。右图则是针对中间图中遇到的每一个决策点探索了P1可能采取的行动,然后选择更高收益的行动。这个过程不断重复,直到没有遇到新的P1决策点。所以这个过程可以看做是交互式的蒙特卡洛算法。

更加贴合不对称博弈的搜索方案

      AI在完美信息博弈中一般使用实时搜索,来决定下一步如何行动。这种搜索算法会会考虑以后的子叶上所有可能的方案,直到算法的前瞻到达叶节点或深度的上限。

   不过这不适用于不对称博弈,因为对手很多信息是隐藏的,所以在Pluribus之前AI不会假设对手会转移其策略到其它叶节点的情况。举个最简单的例子比如在石头、剪刀、布的游戏中如果你一直出剪子,那么AI就会假定你下面的行动还是出剪子。再比如在多人德扑的赛场上,如果一个参与者永远不会 bluff,那么AI总会在这个人加大注的情况下弃牌。这可能会导致一些弱点的出现,从而导致损失。

   而在Pluribus模型中,并不假设参与者会进行单个固定策略的博弈,在搜索已经到叶节点时,研究者假设每一个参与者会从四个不同的策略(跟进、弃牌、叫牌、加注)中选择,从而进行剩余的博弈。

   Pluribus的表现

在多人

      上面的上图表示Pluribus的胜率,下面表示Pluribus记得筹码的数量,如果按照一般职业选手的每天经手的筹码换算,Pluribus每天至少能赚上千美元。

      而考虑到其在算力上的各种精打细算,他们只用了一个064-core服务器512G的内存训练了12,400 CPU core hours,这总算也就需要不到150美元,绝对堪称赚钱神器,值得拥有。

你可能感兴趣的:(人工智能,Pluribus,德州扑克,人工智能,科学,博弈论)