Alpha-Beta减枝算法

算法:采取MinMax算法,利用Alpha-Beta算法减枝。
原理:首先,算法是用于计算出当前下棋所产生的最好价值。
那么,定义自己的价值越高数值越大(正),对手的价值越高数值越小(负)
下棋是你一手我一手的下,根据下棋的步骤,构建决策树
所谓决策树就是:每个节点是当前局面的评分,节点的基数层该自己下棋,偶数层该对手下棋
那么,在遍历决策树时,首先要计算第一层能获取的最大值Max
要想获得第一层,那就遍历第二层(第二层为根节点所能产生的所有走法的评分)
在第二层中找到最小的那个Min(为什么要找最小的?因为第二层是对手下棋,对手最好的走法,对你来说最坏)
要想找第二层的最小值,那就得遍历每个节点的第三层,找到第三层中最大的值(因为该你走),然后比较所有Max中Min的那一个
这一句可能不太清楚,是说对手会遍历你下一手的所有走法,然后找到最差的那个(对他最好)。所以是在Max中找Min
之后一直这样遍历


但是如果这样的话,节点数量会成指数倍增加。效率大大的下降了。
如果每次正常的走法有N个。
那么第一层节点的个数是1,第二层是N,第三层是NN,第四层是NN*N....第N层的节点数将会达到N的N次方。一辈子都算不完了

所以目前的做法有两个
1、限制搜索的层数,只搜索有限层(层数越高当然智能越高,速度也越慢)
2、采用减枝(上面说的思路是每次都会遍历所有子节点,但实际上可以通过一些计算,忽略点大部分节点)

而Alpha-Beta算法就是采用了以上方法的MinMax改进版
步骤如下:
1、如果要找某个节点(即为某个走法)的最优值(我们称为Alpha或者Max),那么需要首先找出第一个子节点的Alpha值
2、通过同样的函数,计算子节点(对手的走法)中最好的值(但对我们来说是最坏的),取反。然后和当前的Alpha和Beta值比较
3、如果大于当前的Beta值,说明如果选择这一步,那对手就会走出对我们更不利的局面,那么基于这个节点的所有子节点都抛弃掉(减枝)
4、如果大于当前的Alpha值,说明找到了更好的走法,把当前的Alpha设定为该值,然后继续找剩下的走法。
5、返回Alpha值,即为最好的走法。
6、重复寻找,一直达到最大深度。


考虑例子:
假设有N个袋子,每个袋子有N个物品(用于模拟下棋,袋子即为走法,物品即为走法的价值)
规则是你可以看所有的物品,然后选择你想要的袋子,然后从袋子中拿走价值最低的那一个。

很显然,最简单的做法是查看所有的袋子,找出每个袋子中,价值最低的物品(Min)
然后在这些物品中选择相对来说最好的(Max)物品所在的袋子。这就是MinMax算法
规则很简单,算法也很简单。但如果袋子和物品很多,需要很多时间才能全部看完并且比较完价值。
如果有时间限制:比如需要在10分钟之内做出决定,那显然目前是办不到的。
其实可以换种办法。
首先查看第一个袋子中全部的物品,找出其中价值最小的物品(设Max和Min都为它)
然后从第二个袋子拿出一个物品,如果这个物品的价值比Min还小,那根据规则(所得物品为袋子中价值最少的物品)
你从这个袋子中获得的物品的价值肯定是小于或者等于这个物品,也就是说肯定小于Min
那就没有必要继续查看这个袋子中的物品了,直接舍弃。
如果比Min大,那就继续查找剩余的物品,直到找到一个比Min还小的物品,那就舍弃这个袋子,或者找完所有物品。
找出其中价值最小的,与Max比较,如果大于Max,则表示选中这个袋子,价值更高。把Max设置为这个物品的价值
重复找之后的袋子,直到找完。这时候,Max物品所在的袋子就是你要选择的袋子

当然,这个例子只是简单的描述Alpha-Beta算法,而且只是Depth为1的情况。

以下是模拟算法:
难点在于Alpha和Beta的位置不断的互相转变,值也在取反。
需要理解了这个函数的参数意义,以及该博弈树是由自己和对手轮流走,参数的算法树
而且对手走的价值高的棋,对于我们来说是最低的
depth:当前层深度
max:当前能找到的最好值(也叫Alpha)
min:当前能找到的最坏值(也叫Beta)
(之所以取相反数,是因为正值表示对一方有利,负值表示对另一方有利)

// 计算对于当前走法的最佳价值
int Alpha(int depth, int max, int min)
{
  if ( depth == 0 )
  {
      return GetCurrentValue(); // 返回当前走法的价值
  }

  MakeAllPass(); // 产生所有走法

  foreach ( Pass p in allPass ) // 遍历所有的走法
  {
    DoPass(p); // 走棋
    // 计算该对手走时,对手会走的最好值(对自己来说最坏)
    // 参数,-min表示对自己最坏值取反(当然对于对手来说最好)
    // 参数,-max表示对自己最好值取反(当然对于对手来说最坏)
    // 返回值,对手能找到的最好值,取反后自然是对自己来说最坏的
    int v = -Alpha(depth - 1, -min, -max);
    UndoPass(p); // 悔棋
    // 如果这个最坏值(v),比现在的min还要坏,那就舍弃当前的v
    // 这一句话翻译的意思是,对手下一步走后产生的价值比上一手还差,那就选上一手的
    // 下面也是同样的道理
    if ( v >= min )
    {
      return min;
    }

    // 如果这个最坏值,比现在的max还要好,那就取这个值为max
    if ( v > max )
    {
     max = v;
    }
  }
  return max;
}

算法用于五子棋游戏:
算法框架其实已经搭建好了,需要实现的函数有
GetCurrentValue():用于计算当前走法的价值
MakeAllPass():用于产生所有有效的走法
DoPass(Pass):下一步棋
UndoPass(Pass):悔一步棋

你可能感兴趣的:(Alpha-Beta减枝算法)