本节课的主要内容是讲解混合策略,以及混合策略中纳什均衡的求解。
上节课最后简单介绍了一个混合策略的例子“石头剪刀布”,这节课首先严格定义了混合策略。混合策略的期望收益是纯策略期望收益的加权平均,即处于他们之间。有了这一点非常重要,对于我们后面寻找纳什均衡可以得到一个重要的结论,那就是:若一混合策略是最佳对策,那么它的每个纯策略也是最佳对策,且期望收益相等。一个很简单的例子是,我有三个助教,现要任选几个使得平均身高最大。若大家身高不等,为了使得平均身高最大,我肯定会只选择最高的那个助教。
有了这些理论知识点后,我们就可以把它运用到实际的例子网球比赛中去。
假设Venus和Serena进行网球比赛,假设她们相互认识,她们之间的收益矩阵如下:
V/S l r
L 50,50 80,20
R 90,10 20,80
我们可以看到这里Venus的进攻优势为R,而Serena的防守软肋是L,那么Venus在比赛的时候究竟该如何选择呢?
跟石头剪刀布的例子类似,我们根本找不到纯策略下的纳什均衡,那么对于混合策略如何寻找纳什均衡呢?这里有一个小trick。
为了寻找S的纳什均衡最佳混合对策,不妨设为(q, 1-1),我们需要关注V的收益:
若V选择L,收益为50q+80(1-q);
若V选择R,收益为90q+20(1-q)。
根据最开始得到的结论,达到纳什均衡肯定有50q+80(1-q) = 90q+20(1-q),可求得q=0.6。
同样利用S的收益可以找到S的最佳混合策略为(0.7, 0.3),即纳什均衡为[S(0.7, 0.3), V(0.6, 0.4)]。若S选择L的概率大于0.7,则V的最佳对策是选择纯策略r;若V选择l的概率大于0.6,则S的最佳对策是选择纯策略R。
如果S的教练教会她反手截击,使得上述的收益矩阵中(L, l)变为(30,70),两者的博弈会发生什么变化呢?
对于S,有两点影响:
1) 直接影响,S的反手截击比较厉害,选择左边收益会更大,使得她更倾向于选择l,即q会增加。
2) 间接影响 (strategiceffect),由于V知道S的反手截击技术,V就会减少选择L,这又使得S会减少选择l,即q会减少。
一个是直接影响,一个是间接影响,究竟结果会偏向哪边呢?我们再用上面的方法计算一遍,得到的结果是q = 0.5,与原来的0.6相比减少了,即间接影响占上风。
而V的最佳混合策略会怎么变化呢?计算结果是p=7/12,与原来的7/10相比减少了。
现在撇开这些计算结果,我们来简要分析一下。当(L, l)变为(30,70)后,若V的策略不改变,则S选择纯策略l会更好,达不到均衡。若S的策略不改变,则V选择纯策略R会更好,也达不到均衡。若S的策略朝l倾向,则V会朝R倾向,V一旦向R倾向,S的对策肯定要向r倾向,直至达到上述计算出的纳什均衡。