我们先来思考一个小问题:
纳什均衡
纳什均衡(Nash equilibrium)由美国数学家纳什提出,在多人博弈的时候,如果其他人不改变策略,不论我怎么改变也不能增加收益,所有人都是这样,也就达到了纳什均衡。换句话说,纳什均衡实现了整体利益的最大化。
想要达到纳什均衡,找到整体最优的方案,最重要的一点就是共享信息。
我们拿出最为著名的囚徒困境举例:
警察抓了两个嫌疑犯,在他们没有事先串口供的情况下,分开审问。如果两个罪犯都沉默,各判1年;互相揭发,各判8年;如果一个揭发一个沉默,那么揭发的那个释放,沉默的那个判10年。AB怎么选择才对自己最有利?
如果审问并不是分开进行,而是二人一起,结果又会如何呢?
开始时A,B两人互不吭声,马上,在明确了对方暂未交待的情况下,A有两种选择:
揭发B,如果沉默B会被判10年,所以B也会揭发A,结果两人都判8年;
保持沉默,这时B如果揭发A,会形成1里的结果,所以B应该选择更好的方案,也就是同样保持沉默。这样一来,两人各判1年。
稍作思考,A选择了沉默,B当然也做出同样的分析。最后两人只被各判1年,整体的纳什均衡达成。
由此可见,纳什均衡的达成需要足够的信息,如果信息不足,人往往就会做出损人利己的次优选择,而错过利于大局的最优方案。
近期中美贸易战囚徒困境分析:
两个国家,在关税上可以有以两个选择:
提高关税,以保护自己的商品。(背叛)
与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定(重复博弈的结果是将发现共同合作利益最大)。
多阶信息
我们已经知道,掌握更多信息才能知己知彼,百战不殆,但不是所有信息都那么直白,有时候看似无用的信息背后还有我们需要的东西。
为了更直白的感受到这一点,让我们回到文章开头的猜拳问题:
第一把我和Hulk都出了剪刀,这是我知道的第一条信息,好像没有什么卵用;
然后呢?根据规则,我知道下把我只能出锤子或者布,这是其二;
同样,我知道Hulk下一把也只能出锤子或者布,这是第三条。
由于我和Hulk都只能出锤子或者布,出哪一个更好呢?答案是绝对的,布赢锤子,出布!终于理顺了,但这还不是最终答案。
同样地,Hulk也想到了这一点。按理来说,下一把我和Hulk都应该出布。聪明的我俩在出完剪刀之后就立即推理出了这一点。
现在,我知道Hulk得到了这个结论,Hulk也知道我得到了相同的结论。更进一步,我也知道Hulk知道我得到了这一结论。之后,我们就像两台运行着一模一样程序的超级电脑,陷入了一种“知道”的循环,那就是我知道Hulk知道我知道…Hulk知道下一把我俩都应该出布,这是横向推理。
竖向推理,我可以推出第三把我们都应该出石头(Hulk也会这样推理,他也知道我知道),第四把出剪刀,第五把出布,第六把石头…
好了!既然这样,游戏的整个走势在第一把出完剪刀之后就已经完全确定了,不仅因为我俩各自推出了结论,还因为我们知道对方也知道了这个结论。
所以谁也不能获胜,第一把是平局的话游戏就没有进行的必要了,聪明的我俩压根不会进行第二轮划拳。这个决定,仅凭前三条信息是得不出来的,也就是说,我知道这些还不够,我还得知道“他知道”。
在这个小问题里,前三条信息我们看作是一阶信息(我直接知道的事),而“我知道Hulk知道xxx”,是一个二阶信息。以此类推,“我知道他知道我知道xxx”是三阶信息,但是游戏一共只有两人参加,所以大于二阶的信息和二阶是等效的。
当然,你也可以试着分析不同情况下,囚徒困境里的信息阶数。
共识
如果你已经完全理解了多阶信息的意思,那我们就可以开始最后一个问题的推理了(难)。
蓝眼人问题:
有一个岛上住着1000个岛民。其中900个是红眼,100个是蓝眼。岛上的人无法知道自己眼睛的颜色,也不准谈论眼睛的颜色。出于宗教原因,岛民一旦知道自己眼睛的颜色,就会在第二天自杀。一天,岛上来了一个蓝眼睛游客,由于不知道岛上的规矩,他在一次全岛民的聚会中说:“很高兴看到这里有和我一样是蓝眼睛的人。“
假设岛民足够聪明, 具有完全理性,游客的话会产生什么后果?
好了,你已经知道答案了
有了前面的基础,我们直接跳到逻辑里去。
假如我是其中一个蓝眼人1号,通过互相观察,我可以知道2号是蓝眼,2号也可以知道3号是,3号知道4号…这些是一阶信息;接着我也知道2号知道3号是蓝眼,这是二阶;一直往后,我能知道2号知道3号知道…知道100号是蓝眼,这是99阶信息。
怎么少了一阶?因为“100号知道我是蓝眼“是我无法确定的事,毕竟我不知道自己眼睛的颜色。但是我能肯定其他99个人都能看到至少98个蓝眼人,只是他们暂时不知道自己也是蓝眼人。
这时推理就开始了。
假如岛上只有1个蓝眼人(与事实不符),游客说完话之后他也就知道了自己眼睛的颜色,那么他会在之后一天自杀,自杀由一阶信息导致。
如果有2个(与事实不符),一天后他们会观察对方是否自杀,如果对方自杀,那么他是唯一的蓝眼人,理由同上;如果不是,说明对方还看到了一个我没看到的蓝眼人,那这个蓝眼人只可能是我自己!于是“我知道了他知道我是蓝眼人“这个二阶信息,两人可以做出同样的推理,于是第二天两人一起自杀。
我杀我自己 。我们用的是蓝眼~ credit: B站up主 薛定饿了吗
如果有99个蓝眼人(与我看到的相符),99天后还是无事发生,这时我获得了一个一百阶信息,那就是“2号知道3号知道…知道100号知道我(1号)是蓝眼人“!其他99人可以做出同样的推理,这时100个蓝眼人都确定了自己眼睛的颜色,于是在第100天一起自杀,这也就是问题的答案。
到这里,我们终于做完了所有的思考题,兴奋之余,我们把不同阶数的信息做一个分类。
如果有 n 个人,每个人都知道的 n 阶信息被叫做 Common knowledge(袁岚峰博士译作强共识),少于 n 阶的信息被叫做 Mutual knowledge,译作弱共识。
在蓝眼人问题里,游客说话之前,“岛上有蓝眼人“在100个蓝眼人圈子里还是一个弱共识,只有99阶,即大家都知道,但不确定别人知不知道自己;游客说话之后第99天,这句话变成了强共识,这时大家都知道所有人的眼睛颜色。所以游客带来的信息是一个99天后才能获得的,高达100阶的信息。
帽子问题
有一群人围坐在一起,为了便于分析,假定只有4人(这与人数多少无关,可作同样分析)。每个人头戴一顶帽子,帽子为红色的还是白色的红色和白色两种,每个人看不到自己帽子的颜色,但能看到别人帽子的颜色。因此此时他不能判定出自己头上的帽子的颜色。
为了分析的方便,我们假定这4个人均戴的是红色的帽子。这时候,一个局外人来到他们的群体当中,对他们说:“你们其中至少一位头戴的是红色的帽子。”当他说了这句话后,他问:“你们知道你们头上的帽子的颜色吗?”4个人都说“不知道”;这个局外人第二次问:“你们知道你们头上的帽子的颜色吗?”4个人又都说“不知道”。局外人第三次问:“你们知道你们头上的帽子的颜色吗?”4个人又说“不知道”。局外人又问第四次:“你们知道你们头上的帽子的颜色吗?”这时4个人均说:“知道了!”
你能知道为什么吗?
当局外人未宣布“至少一个人戴的是红帽子”时,这个事实其实每个人都知道了,因为每个人看到其他3个人的帽子都是红色的,但每个人不知道其他人是否知道这个事实,即这个事实没有成为公共知识。而当这个局外人宣布了之后,“至少一个人帽子是红色的”便成了公共知识。此时不仅每个人知道“至少一个人的帽子是红色的”,每个人还知道其他人知道他知道这个事实……
局外人第一次问时,由于每个人面对的其他3个人都是红色的帽子,每个人当然不能肯定自己头上的帽子是什么颜色,于是均回答“不知道”。此时,如果只有1个人戴红色的帽子,那么这个人因面对3个戴白色的帽子,他肯定知道自己的帽子颜色。因此,当4个人均回答“不知道”时意味着“至少有2人戴的是红色的帽子”,而且这也是公共知识。
当局外人第二次问时,如果只有2人戴的是红色的帽子,这2人就会回答说“知道”——因为他们各自面对的是1个戴红色帽子的人。由于每个人面对的是不止一个戴红色帽子的人,因此当局外人第二次问时,他们只能回答“不知道”。——此时的“不知道”,意味着“至少3个人戴红色的帽子”,并且它成为公共知识。
同样,局外人第三次问时,他们均回答“不知道”,意味着4个人均戴的是红色的帽子。因此,当局外人第四次问时,他们就知道宣布每个人头上均戴的是红色的帽子,于是,他们回答“知道”。
在这个过程中,当局外人首先宣布“其中至少一个人的帽子是红色的”,以及第二、第三、第四次回答的时候,无论是回答“知道”还是“不知道”——它们构成公共知识——构成所有人推理的前提,在这个过程中,每个人均在推理。
这就是“帽子的颜色问题”。本人将这个问题简化了。原来的问题比较复杂。它是这样的:
有一个游戏,有一个主持人和一群人(假定有n人),戴了两种颜色的帽子,每个人的帽子的颜色或者是红色或者是白色,但每个人不能看到自己的帽子的颜色却看得到其他人的帽子的颜色。游戏的主持人说:“你们中至少一个人的帽子是红色的。”主持人开始一次次地问:“你们知道不知道自己的帽子的颜色?”现在的问题是:当主持人问到第几次时,才有人说“知道”?并且多少人说“知道”?
据说,这个问题在20世纪曾风靡欧美。