算法学习(一)——Minimax算法

作者:还想养只小短腿
链接:https://www.zhihu.com/question/27221568/answer/140874499
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

先来说极小极大算法主要应用于什么样的游戏:
1. 零和游戏(Zero-sum Game):意思就是你死我活,一方的胜利代表另一方的失败,比如,象棋,五子棋等。
2. 完全信息(Perfect Information):玩家知道之前所有的步骤。象棋就是完全信息,因为玩家是交替着落子,且之前的步骤都能在棋盘上体现,但是石头剪子布就不是。
这样的游戏通常可以把他们看作一个树状图,把每一种可能性列出来。比如下面这个井字棋游戏,Max代表你自己,Min代表你的对手。

算法学习(一)——Minimax算法_第1张图片

这个时候我们需要给每一种结果一个分数,就是这里的Utility。这个分数是站在我自己(也就是Max)的角度评估的,比如上图中我赢了就是+1,输了是-1,平局时0。所以,我希望最大化这个分数,而我的对手希望最小化这个分数。(在游戏中,这个分数被称为static value。)这里要说一下,井字棋是个比较简单的游戏,所以可以列出所有可能的结果。但是,大部分游戏是不太可能把所有结果都列出来的。根据计算机运算量,我们可能只能往前推7,8步,所以这个时候分数就不只-1,1,0这么简单了,会有专门的算法来根据当前结果给不同的分数。
假设我们有如下图的游戏,我是先手,我应该如何利用Minmax算法来选出第一步怎么走呢?

算法学习(一)——Minimax算法_第2张图片

这个时候我们就要从结果看起,也就是第4步。图中标注第四步是我的对手下的,所以他要做的是最小化这个分数,于是对手根据结果可以反推出如下选择

算法学习(一)——Minimax算法_第3张图片

继续从后往前看到第3步,当我们知道了对手的选择以后,我们可以根据对手的结果反推出自己的选择,我们要做的是最大化这个分数,如图

算法学习(一)——Minimax算法_第4张图片

重复这个步骤,我们最终可以发现第一步的最优选择,如图

算法学习(一)——Minimax算法_第5张图片

以上就是极小极大算法(Minimax)。

 

当然对于一个复杂的游戏来说,比如象棋,肯定是需要非常多步才能完成的。这就导致结果的数量是成几何增长的,也就是说,如果这个游戏每一步都有n个选择,那么在x步以后,将会有n^x个选择。这个时候,我们就需要采取剪枝算法(Alpha-Beta)来减少运算量。从剪枝算法这个名字我们就能看出,这个算法能让我们剪掉树状图中的一些分支,从而减少运算量。在这里也说一下剪枝算法,因为这并不是个不同于极小极大的算法,而是极小极大算法的升级版。
我们将游戏简化成如下图,使用Minimax算法,我们可以得出这样的结果

算法学习(一)——Minimax算法_第6张图片

但是,最后一步的分数其实也需要计算机来算(static evaluation),所以我们并不会一开始就有所有的数据,其实我们一开始是这样的

算法学习(一)——Minimax算法_第7张图片

然后,计算机给出了第一个分数

算法学习(一)——Minimax算法_第8张图片

当给出了这个分数的时候,我们站在步骤1看,无论另一分支的数字是多少,步骤1左边方框的数字不会超过2。因为第2步是我的对手下的,他希望分数尽可能的小,也就是这样的

算法学习(一)——Minimax算法_第9张图片

这个时候,电脑再计算另一分支的分数,也就是7。知道另一分数是7以后,也就知道步骤1的左边方框分数为2。这时,我们往前看一步(步骤0)。步骤0的分数是大于等于2,因为我要最大化分数。如图

算法学习(一)——Minimax算法_第10张图片

现在,再来计算右边分支的分数,得到了1。同理,我们站在步骤1来看,右边方框中的数不会超过1,如图

算法学习(一)——Minimax算法_第11张图片

在这个情况下,即使我不算最后一个数字,我也能知道在步骤0的结果为2,因为已知步骤1中的右边方框,数值不会超过1。所以我们就能直接知道结果,也就是

算法学习(一)——Minimax算法_第12张图片


我们可以看到,加上剪枝算法,我们不仅得到了相同的结果,而且减少了计算量。在实际应用中,加上剪枝算法,计算机大约需要算2*n^(x/2)个结果,如果n为分支数,x为步数。相比于之前仅用极小极大算法的n^x,效率提高了很多。这也就意味着,如果在象棋比赛中,假设使用极小极大的算法,计算机能往前评估7步,加上剪枝算法,计算机能往前评估14步。极小极大和剪枝算法曾在IBM开发的国际象棋超级电脑,深蓝(Deep Blue)中被应用,并且两次打败当时的世界国际象棋冠军。

python代码实现:

def minimax(state, depth, player):
    """
    AI function that choice the best move
    :param state: current state of the board
    :param depth: node index in the tree (0 <= depth <= 9),
    but never nine in this case (see iaturn() function)
    :param player: an human or a computer
    :return: a list with [the best row, best col, best score]
    """
    if player == COMP:
        best = [-1, -1, -infinity]
    else:
        best = [-1, -1, +infinity]

    if depth == 0 or game_over(state):
        score = evaluate(state)
        return [-1, -1, score]

    for cell in empty_cells(state):
        x, y = cell[0], cell[1]
        state[x][y] = player
        score = minimax(state, depth - 1, -player)
        state[x][y] = 0
        score[0], score[1] = x, y

        if player == COMP:
            if score[2] > best[2]:
                best = score  # max value
        else:
            if score[2] < best[2]:
                best = score  # min value

    return best

 

 

你可能感兴趣的:(强化学习,算法,剪枝,python)