接着上节课讲到的纳什均衡,这节课一直围绕这一点展开,其实这也是整个课程的重点。
首先,一个很简单的双人博弈的例子,各自的收益如下:
p1\p2 | l | c | r |
U | 0,4 | 4,0 | 5,3 |
M | 4,0 | 0,4 | 5,3 |
D | 3,5 | 3,5 | 6,6 |
从表中我们可以看到当p2选择l 时,p1最好的对策是BR1(l) = M (收益为4),同理,BR1(c) = U,BR1(r) = D(标红部分);BR2(U) = l,BR2(M) = c,BR2(D) = r(标蓝部分)。
如果1知道2选择l,则他会选择M,而若2知道1选择M,则他会选择c,若1知道2选择c,则他又会选择U,若2知道1选择U,则他又会选择l,如此一来这种竞争就成了死循环,而在点(D, r)处则不一样,一旦1选择D,则2最好的对策就是r,而当2选择r时,1最好的对策还是D,因此他们两人会在此点达到纳什均衡,即他们都会满足于该点(self-fulfilling belief or no regrets)。
然后,老师又举了一个类似的例子,只是稍微换了换上表中两个参与者的收益,我们会发现有时候当1采取某种策略时,2最佳的应对策略不止一个,即可能存在两个或者多个策略都是最佳策略。至此纳什均衡都不存在什么问题,可是他又列举了一个非常简单的例子,发现其中有两个纳什均衡点,下图中的(U, l)和(D, r),虽然两个都是纳什均衡点,但是很显然选择(U, l)的话,两个人的收益都可以达到最大,大家可能都会毫不犹豫地选择该点。
1\2 | l | r |
U | 1,1 | 0,0 |
D | 0,0 | 0,0 |
下面就是一个比较有意思的投资小游戏(Investment Game)了,题目大意是现在大家有一个投资对象,你有两个策略:1、不投资(既没有收益也没有损失);2、投资10美元(当参与游戏的所有人中投资的同学超过90%,则选择投资的同学可以获得5美元的收益,否则,损失10美元)。
第一次全班对是否投资进行投票,结果大约为1:1,即有一半的人将损失掉10美元。
如果再进行一次该游戏,选择投资的人会更少,约10%,继续下去的话,第三次游戏只有一个捣蛋的同学依然选择投资。
为什么会出现这种情况呢?老师开始和大家讨论,对大家的选择原因进行访谈。后来提到了该游戏其实也有两个纳什均衡(至于该怎么找纳什均衡点,对于这个例子估计只能用guess and check了),如果大家都投资的话,那么大家将都获得5美元的收益,这是一个均衡点;而若大家都不投资的话,所有人都既没有收益也没有损失,这是另外一个均衡点。很明显前一个均衡点更好,可是为什么经过三次游戏之后大家都趋向后者呢?
这里老师又和同学们一起列举了很多类似的社会问题,最后得到的结论是经过博弈后大家的选择会自然地趋向于一个均衡点,但是对于这种存在两个均衡点的情况,往往会趋向于劣势均衡而非优势。不同的初始结果可能会得到不同的的均衡点,例如这个小游戏,如果一开始就有超过90%的人选择投资,再一次游戏的时候那剩余的10%肯定会也选择投资。
很多类似的问题都说明往往博弈结果会自然地趋向劣势均衡,是不是有点悲观呢!?好在老师又举了《美丽人生》中银行挤兑的例子,幸运的是电影中银行最终并没有倒闭,因为Jimmy Stewart站出来做了个演讲,引导大家都朝着优势均衡发展。经过此番讲解,老师也请了一位班上的同学说服大家选择投资,结果在第四次进行该游戏的时候,几乎所有人都选择了投资!
这节课的基本内容就是这样了,期间其实还提到了两点,在这里稍微列举一下:
1. 纳什均衡与劣势策略有什么关系?劣势策略一定不能成为纳什均衡吗?因为纳什均衡是两条最优应对策略的交点,即纳什均衡是所有参与者的最优应对策略,该点不可能是严格劣势策略或者非最优应对策略。
2. 如果像投资游戏中最后的引导那样去处理,囚徒困境最终的结果会改变吗?不会,跟上一点一样,囚徒困境中选择不认罪的策略是严格劣势的。