帕累托最优与纳什均衡

博弈论(Game Theory)

博弈论研究的是"理性人"之间的博弈

现在流行“行为经济学”,人们爱说人是非理性的,连有的学经济学的人都不敢理直气壮地说经济学假设人是理性的了。但是地道的经济学必须得假设人是理性的,如果人不是理性的,所有数学模型、包括供求关系之类的基本结论就都灰飞烟灭了。

人的确经常表现得不理性,但经济学的理性人假设并不算错。这是因为人在做熟悉的事情、重要的事情、涉及到钱的事情的时候,通常是相当理性的[1]。而这些事情恰恰是经济学、也是博弈论的研究对象。博弈论假设人是理性的,表现为三个要求。

第一,你得知道你想要什么,并且对你想要的东西有一个明确的排序。

第二,你的行动是在一定的规则之下,争取得到你想要的东西。

第三,你知道对手也是这么想的,而且对手也知道这些规则。

这三个要求都很简单,但是我们得承认,有些人在有些时候真做不到。比如说前段新闻中的“高铁霸座男”,他是个博士,我觉得你要是问他是个人的形象和声誉重要还是一个座位重要,他会更想要形象和声誉 —— 可是在高铁上那一刻,他的情绪战胜了理智。人有时候会被某种情绪劫持,这种情况不是博弈论的研究内容。

但如果一个人长期这么做事,其中可能就有理性的成分。比如现在一个热门话题是老年人容易上当受骗,买一些不靠谱的保健品。这些老人都是非理性的吗?不一定。那些推销保健品的人卖的并不仅仅保健品,同时也是一种情感服务,比如认干爹干妈之类。老人未必不知道保健品没啥用,但是老人可能认为反正吃保健品也没什么坏处,他花点钱满足一下情感需求未尝不可。

如果一个现象长期存在,那就有可能是博弈论的研究内容 —— 博弈论称之为“均衡”。再比如说,像百度、莆田系医院、拼多多APP这些东西,充斥着假货和骗局,为什么能长期存在呢?也许这就是当今中国的博弈格局所决定的,这个结果可能是各方的理性选择。

博弈论的用处

因为要求各方是充分理性的,有时候博弈论会得出一些非常怪的结论。

比如你可能听说过这个故事。老师让全班所有同学都想一个数字,说谁想的数字最接近全班平均值的2/3,谁就获胜。那如果我们假定所有同学都足够聪明的话,正确答案应该是0。这是因为不管你猜测全班人的共识是多少,你都会把这个共识乘以2/3 —— 但别人也能想到这一点,他们也会把你的数字再乘以2/3……你们的每一步推理都会让共识变得越来越小。而事实上哪个大学的学生都不会得出这么极端的答案来。

生活中绝大多数人不会聪明到那个程度,去做那种极端的推理。那难道说博弈论真的没用吗?博弈论的实际应用,并不是这种数学谜题

博弈论能帮助我们理解长期存在的各种现象。如果你观察到社会上有很多不合理的现象,而这些现象还长期存在,你会认为这是因为社会上的人都太愚蠢了吗?博弈论会让你考察现象背后的博弈规则。

当然,这绝对不是说可以理解的现象就"应该"长期存在。博弈论更重要的作用,是告诉我们如何改变不好的局面。可能这个坏局面是因为博弈是单次的,可能其中有信息不完全的问题,可能是因为那个许诺不可信。现在博弈论已经能够提供各种工具,帮我们达成更好的局面。

我认为人们之所以用不上博弈论,是因为缺少识别博弈格局的眼光和改变博弈规则的意识。

对个人来说,最起码的一点,你应该时刻提醒自己要理性。研究博弈论就好像下棋一样,你要考虑你的每一个行动都是有后果的,你要事先想好对方会有什么反应,然后你再怎么应对,然后对方再反应……一直到最后是个什么结果。

而我觉得一个更深层的意识是,你应该首先做一个“Player”。Player,在游戏中叫玩家,在体育比赛中叫选手,在博弈论中叫参与者 —— 其实都是一个意思,博弈论(Game Theory)说的都是 game。有一点参与游戏的精神,你就有权在规则范围内采取对自己最有利的行动,你就是积极主动的,你就会平等对待对手 —— 你就既不是一个浑浑噩噩整天根据别人设定做事的人,也不会有整个世界绕着自己转的幻觉。

帕累托最优(Pareto Optimality)

为什么商家总扎堆?

你注意到没有,同一类商家总爱聚集在一起。偏一点的地方什么都没有,热门地段却有好多同样的店,一个十字路口竟然会有两家加油站。新闻媒体也是这样,一有什么重大事件或者热门电视剧,你打开电视所有频道都是这个内容。从消费者的角度,我们希望加油站更分散一点,让所有人都能就近使用。我们希望产品有更多的差异化。那为什么商家非得扎堆呢?

用博弈论思考,这并不是商家都盲从、只知道互相模仿,而是他们不得不这样。博弈论要求你必须考虑竞争对手会怎么做。

咱们把问题简化一下[2]。设想有一个比较长海滩,你要在海滩上摆个摊卖冰激凌。你应该把摊放在哪里呢?如果整个海滩只有你一家冰激凌摊,那你摆哪里都可以。但是考虑到可能将来会有竞争对手,你就应该把冰激凌摊摆在中间!这是因为如果你摆的位置比如说偏右,对手来了只要往中间区域一摆,他辐射的势力范围就绝对大于你。


帕累托最优与纳什均衡_第1张图片

严格地说,如果你的位置在 k,竞争对手在 -k 和 k 之间任选一点都比你好。好,现在作为先来者你已经把摊位摆在了中间。那如果新来了一个竞争者,他应该把冰激凌摊摆哪儿呢?如果他的位置靠右,的确能够独占他右边的市场,但是那也就等于把从你俩中间开始算,左边超过一半的海滩都拱手让给你了。所以没办法,他也只能把摊位放在中间,只有这样才能跟你平等竞争。

这就是为什么要扎堆。可是我们想想,如果两家事先商量好,分散开,在海滩上1/4和3/4这两个位置分别摆摊,其实还是两家平等赚钱,而且还能确保消费者买冰激凌的走动距离最短。这样多好呢?


帕累托最优与纳什均衡_第2张图片

从扎堆到分散的这个改进,两个商家的利益都没有受损,而消费者的境遇更好了,所以可以称得上是“帕累托改进”。帕累托是一位意大利经济学家,帕累托改进的意思是这个改进能在不伤害任何一个人利益的同时,使得至少一个人的境遇变得更好。如果一个局面已经好到没有帕累托改进的余地了,这个局面就叫“帕累托最优”

一个理想的、令人快意的世界应该是帕累托最优的。扎堆显然不是帕累托最优,分散才是帕累托最优。那为什么博弈的结果不是帕累托最优的呢?因为在这场博弈中,帕累托最优是个*不稳定*的局面。就算一开始两家商量好了分散摆摊,将来也会有一家偷偷地转移到中间去!他这么做不是帕累托改进,因为会伤害对手和消费者的利益 —— 但是这么做对他自己很有利。

理想青年喜欢帕累托最优,但是博弈论告诉我们只有稳定的局面才能长久存在。


纳什均衡(Nash Equilibrium)

囚徒困境

你可能已经非常熟悉“囚徒困境”的故事了,但是因为从这个故事里能得出特别重要的概念,这里值得专门讲一遍。

有两个小偷被警察抓住了,但是警察手里并没有过硬的证据,只能指望口供。警察开出的条件是如果两个人都招供,那就都判刑3年;如果有一个人招供,另一个人不招供,那么招供的人就算立功,可以无罪释放,而不招供的人就要严惩,判刑5年;如果两个人都不招供,因为证据有限,所有两个人都判刑1年。警察不准两人通气,都是单独审讯。

咱们别管什么正义和邪恶,咱们帮这两个囚徒分析一下博弈策略。首先我们要把不同策略和结果画在下面这张矩阵图里。这种画法是美国经济学家托马斯·谢林发明的,谢林曾经开玩笑说发明矩阵图是他对博弈论所做最大的贡献 ——


帕累托最优与纳什均衡_第3张图片

矩阵边上是两个人采取的策略,中间是各种策略组合带给两人的回报。你一眼就能看出来,最好的结果是两个人都不招供,然后都被判一年。

但是博弈论要求我们每次做判断都要考虑对方 —— 不是考虑怎么对对方好,而是考虑对方会怎么做,然后你怎么做。对囚徒1来说,如果对方招供了,他就只能招供,因为不招供判5年招供判3年。可是如果对方不招供,他还是应该招供 —— 因为他招供就是立功,可以直接走人。也就是说,不管对方是招供还是不招供,囚徒1最好的策略都是招供。

这就引出了我们要说的第二个概念,叫做“压倒性策略(Dominant Strategy)”。这个策略压倒其他一切策略,不管对手怎么做,这个策略对你来说都是最好的。反过来说,不招供,对囚徒1来说则是一个“被压倒性策略(Dominated Strategy)”,也就是不管别人怎么做,你这么做对你都是不好的。

作为理性的人,如果博弈中有压倒性策略,你就一定要选择这个策略。任何情况下都不要选择被压倒性策略。囚徒1的压倒性策略是招供,囚徒2当然也是如此。结果就是两个人都被判刑3年。这个结果可不是帕累托最优。但这个结果是*稳定*的。这表现在任何一方都绝对不会单方面改变策略。这就引出了我们要说的最重要概念:纳什均衡。换句话说就是不管我们喜不喜欢,这个局面我们认了。关键词是“单方面”。是,如果咱俩都不招供会更好,可是要变必须得一起变,我自己不可能*先*变。因为人人都不愿意先变,结果这个局面就变不了。

诺贝尔经济学奖得主罗杰·梅尔森有句话说,纳什均衡对经济学的意义,就如同发现DNA双螺旋结构对生物学的意义那么重大!我理解这就是因为纳什均衡给了我们一个观察世界的眼光。

前面说的扎堆摆摊就是一个纳什均衡。如果一个现象能够在社会中长期稳定地存在,它对参与的各方来说就一定是个纳什均衡。纳什均衡告诉我们评价一个局面不能只看它是不是对整体最好,它必须得让每个参与者都不愿意单方面改变才行。

比如你要跟人签个协议,如果你希望这个协议能被各方遵守,那它就必须得是一个纳什均衡。一个制度哪怕再好,如果不是纳什均衡就不会被遵守。一个制度哪怕再不好,如果是纳什均衡就会长久存在。

小结

不知道看到这里会不会让你感到有点悲观。帕累托最优常常不是纳什均衡

理想青年喜欢帕累托最优,理性青年寻找纳什均衡。理想青年对应试教育义愤填膺,理性青年知道只要高校还在看高考、教育就只能应试下去;理想青年对黄牛票贩咬牙切齿,理性青年明白只要价格还在被管制、人们就只能用非价格的方式竞争下去;理想青年对学区房表示不解,理性青年表示只要入学还在划片区、再想付学费也只能以买房的方式付出去;理想青年对大组织政治摊手摇头,理性青年懂得只要遵章守纪还能继续混下去、人们就不会有所忌惮更不会有革新的动力;

所以你指望理想青年的摊手摇头、疑惑不解、咬牙切齿、义愤填膺能改变什么?他们甚至连真正要改变的是什么,都没弄明白,便急着感慨。理想青年为帕累托最优振臂高呼、声嘶力竭、表演完毕愤然离席,理性青年却在为改变纳什均衡而“没有原则”地辗转腾挪、日拱一卒、改变规则。


参考文献

[1] 关于理性和行为经济学,David Levine 的 Is Behavioral Economics Doomed? The Ordinary versus the Extraordinary(2012)

[2] 这个例子来自 Presh Talwalkar, The Joy of Game Theory: An Introduction to Strategic Thinking (2014).

[3]全文整理至万维钢精英日课第三季

你可能感兴趣的:(帕累托最优与纳什均衡)