AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)

对抗搜索

对抗搜索也称为博弈搜索

主要有三种搜索方法

  • 最小最大搜索(Minimax Search)
  • Alpha-Beta剪枝搜索(Pruning Search)
  • 蒙特卡洛树搜索(Monte-Carlo Tree Search)

 

最小最大搜索和α-β剪枝搜索,这些方法在IBM的深蓝中曾大量应用

 

最小最大搜索(Minimax Search)

双人对战,博弈树,

双方所希望的目标是相对的,A希望B输,B希望A输,A希望某个利益最大化,B就希望某个利益最小化(因为最大化对A有利)

 

Alpha-Beta剪枝搜索(Pruning Search)

在最小最大搜索的基础上,剪掉一些不必要的搜索节点

Alpha-Beta搜索和最小最大搜索所得的结论相同,但剪去了不影响最终结果的搜索分支

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第1张图片

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第2张图片

 

 

蒙特卡洛树搜索(Monte-Carlo Tree Search)

Alphago采用的搜索策略

 

单一状态蒙特卡洛规划:多臂赌博机(multi-armed bandits)

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第3张图片

多臂赌博机问题是一种序列决策问题,这种问题需要在利用(exploitation)和探索(exploration)之间保持平衡。

      利用就是保证在过去决策中得到最佳回报

      探索就是寄希望在未来能够得到更大回报

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第4张图片

 

上限置信区间策略(Upper Confidence Bound Strategies,UCB)

       在多臂赌博机的研究过程中,上限置信区间(UCB)成为一种较为成功的策略学习方法,因为其在探索-利用(exploration-exploitation)之间取得平衡

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第5张图片

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第6张图片

 

蒙特卡洛树搜索(Monte-Carlo Tree Search)

      蒙特卡洛树搜索基于采样来得到结果,而非穷尽式枚举

 

包括选择、拓展、模拟和反向传播四个步骤

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第7张图片

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第8张图片

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第9张图片

 

蒙特卡洛树搜索例子

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第10张图片

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第11张图片

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第12张图片

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第13张图片

AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索)_第14张图片

 

 

你可能感兴趣的:(AI中的搜索(二)——对抗搜索(最小最大搜索、Alpha-Beta剪枝搜索、蒙特卡洛树搜索))