我们先来思考一个小问题:
Rex和Hulk两人猜拳,规定连续两局不能出的一样,在我们都十分理智的情况下(一般也是如此),第一把是剪刀平局,最后会如何?
说起博弈论(game theory),我就会想到各种各样的“智力游戏“,它们往往能让我一番推理之后恍然大悟,感觉以后或许可以用上(并不)。
这里提到的博弈论,是现代数学的一个分支,它和我们日常面对的,今晚吃啥这类选择题完全不同。博弈论总是以参与者绝对理性为前提,它可能看起来很贴近生活,有很多细节和可能性,但问题里的骨架却是封闭的,这是一门十分严谨的科学。
纳什均衡
纳什均衡(Nash equilibrium)由美国数学家纳什提出,在多人博弈的时候,如果其他人不改变策略,不论我怎么改变也不能增加收益,所有人都是这样,也就达到了纳什均衡。换句话说,纳什均衡实现了整体利益的最大化。
想要达到纳什均衡,找到整体最优的方案,最重要的一点就是共享信息。
我们拿出最为著名的囚徒困境举例:
警察抓了两个嫌疑犯,在他们没有事先串口供的情况下,分开审问。如果两个罪犯都沉默,各判1年;互相揭发,各判8年;如果一个揭发一个沉默,那么揭发的那个释放,沉默的那个判10年。AB怎么选择才对自己最有利?
直接看表:
A沉默A揭发B
B沉默A、B各1年A释放,B判10年
B揭发AA判10年,B释放A、B各8年
细细品味这个表,不难发现:
对于A来说,B如果沉默,A应该选择揭发B(A会被释放),B如果揭发A,A还是应该揭发B(A会被判8年而不是10年),所以A应该揭发B。对于B来说也是一样。
由于A,B事先没有沟通预谋,在不知道对方怎么选择的情况下,显然最优方案就是互相揭发,于是警方成功判了两个犯人8年。这就是囚徒困境的正常形式。
到这里事情好像就结束了,然而,如果审问并不是分开进行,而是二人一起,结果又会如何呢?
我们也来看一看。
开始时A,B两人互不吭声,马上,在明确了对方暂未交待的情况下,A有两种选择:
1. 揭发B,如果沉默B会被判10年,所以B也会揭发A,结果两人都判8年;
2. 保持沉默,这时B如果揭发A,会形成1里的结果,所以B应该选择更好的方案,也就是同样保持沉默。这样一来,两人各判1年。
稍作思考,A选择了沉默,B当然也做出同样的分析。最后两人只被各判1年,整体的纳什均衡达成。
由此可见,纳什均衡的达成需要足够的信息,如果信息不足,人往往就会做出损人利己的次优选择,而错过利于大局的最优方案。
多阶信息
我们已经知道,掌握更多信息才能知己知彼,百战不殆,但不是所有信息都那么直白,有时候看似无用的信息背后还有我们需要的东西。
为了更直白的感受到这一点,让我们回到文章开头的猜拳问题:
第一把我和Hulk都出了剪刀,这是我知道的第一条信息,好像没有什么卵用;
然后呢?根据规则,我知道下把我只能出锤子或者布,这是其二;
同样,我知道Hulk下一把也只能出锤子或者布,这是第三条。
由于我和Hulk都只能出锤子或者布,出哪一个更好呢?答案是绝对的,布赢锤子,出布!终于理顺了,但这还不是最终答案。
同样地,Hulk也想到了这一点。按理来说,下一把我和Hulk都应该出布。聪明的我俩在出完剪刀之后就立即推理出了这一点。
现在,我知道Hulk得到了这个结论,Hulk也知道我得到了相同的结论。更进一步,我也知道Hulk知道我得到了这一结论。之后,我们就像两台运行着一模一样程序的超级电脑,陷入了一种“知道”的循环,那就是我知道Hulk知道我知道…Hulk知道下一把我俩都应该出布,这是横向推理。
竖向推理,我可以推出第三把我们都应该出石头(Hulk也会这样推理,他也知道我知道),第四把出剪刀,第五把出布,第六把石头…
好了!既然这样,游戏的整个走势在第一把出完剪刀之后就已经完全确定了,不仅因为我俩各自推出了结论,还因为我们知道对方也知道了这个结论。
所以谁也不能获胜,第一把是平局的话游戏就没有进行的必要了,聪明的我俩压根不会进行第二轮划拳。这个决定,仅凭前三条信息是得不出来的,也就是说,我知道这些还不够,我还得知道“他知道”。
在这个小问题里,前三条信息我们看作是一阶信息(我直接知道的事),而“我知道Hulk知道xxx”,是一个二阶信息。以此类推,“我知道他知道我知道xxx”是三阶信息,但是游戏一共只有两人参加,所以大于二阶的信息和二阶是等效的。
当然,你也可以试着分析不同情况下,囚徒困境里的信息阶数。
共识
如果你已经完全理解了多阶信息的意思,那我们就可以开始最后一个问题的推理了(难)。
蓝眼人问题:
有一个岛上住着1000个岛民。其中900个是红眼,100个是蓝眼。岛上的人无法知道自己眼睛的颜色,也不准谈论眼睛的颜色。出于宗教原因,岛民一旦知道自己眼睛的颜色,就会在第二天自杀。一天,岛上来了一个蓝眼睛游客,由于不知道岛上的规矩,他在一次全岛民的聚会中说:“很高兴看到这里有和我一样是蓝眼睛的人。“
假设岛民足够聪明, 具有完全理性,游客的话会产生什么后果?
有了前面的基础,我们直接跳到逻辑里去。
假如我是其中一个蓝眼人1号,通过互相观察,我可以知道2号是蓝眼,2号也可以知道3号是,3号知道4号…这些是一阶信息;接着我也知道2号知道3号是蓝眼,这是二阶;一直往后,我能知道2号知道3号知道…知道100号是蓝眼,这是99阶信息。
怎么少了一阶?因为“100号知道我是蓝眼“是我无法确定的事,毕竟我不知道自己眼睛的颜色。但是我能肯定其他99个人都能看到至少98个蓝眼人,只是他们暂时不知道自己也是蓝眼人。
这时推理就开始了。
假如岛上只有1个蓝眼人(与事实不符),游客说完话之后他也就知道了自己眼睛的颜色,那么他会在之后一天自杀,自杀由一阶信息导致。
如果有2个(与事实不符),一天后他们会观察对方是否自杀,如果对方自杀,那么他是唯一的蓝眼人,理由同上;如果不是,说明对方还看到了一个我没看到的蓝眼人,那这个蓝眼人只可能是我自己!于是“我知道了他知道我是蓝眼人“这个二阶信息,两人可以做出同样的推理,于是第二天两人一起自杀。
我杀我自己 。我们用的是蓝眼~ credit: B站up主 薛定饿了吗
如果有99个蓝眼人(与我看到的相符),99天后还是无事发生,这时我获得了一个一百阶信息,那就是“2号知道3号知道…知道100号知道我(1号)是蓝眼人“!其他99人可以做出同样的推理,这时100个蓝眼人都确定了自己眼睛的颜色,于是在第100天一起自杀,这也就是问题的答案。
到这里,我们终于做完了所有的思考题,兴奋之余,我们把不同阶数的信息做一个分类。
如果有 n 个人,每个人都知道的 n 阶信息被叫做 Common knowledge(袁岚峰博士译作强共识),少于 n 阶的信息被叫做 Mutual knowledge,译作弱共识。
在蓝眼人问题里,游客说话之前,“岛上有蓝眼人“在100个蓝眼人圈子里还是一个弱共识,只有99阶,即大家都知道,但不确定别人知不知道自己;游客说话之后第99天,这句话变成了强共识,这时大家都知道所有人的眼睛颜色。所以游客带来的信息是一个99天后才能获得的,高达100阶的信息。
这个故事也告诉我们,只要善于挖掘信息背后的信息,就可以准确推算出自己去世的时……好像不太对?
##阅读原文,看看袁岚峰博士是怎么解释蓝眼人问题的
参考资料
https://en.wikipedia.org/wiki/Game_theory
https://www.youtube.com/watch?v=27GIGEygzyo
https://en.wikipedia.org/wiki/Mutual_knowledge
https://en.wikipedia.org/wiki/Nash_equilibrium
https://www.bilibili.com/video/av30113899/