博弈论（Game Theory）

博弈论研究的是"理性人"之间的博弈

现在流行“行为经济学”，人们爱说人是非理性的，连有的学经济学的人都不敢理直气壮地说经济学假设人是理性的了。但是地道的经济学必须得假设人是理性的，如果人不是理性的，所有数学模型、包括供求关系之类的基本结论就都灰飞烟灭了。

人的确经常表现得不理性，但经济学的理性人假设并不算错。这是因为人在做熟悉的事情、重要的事情、涉及到钱的事情的时候，通常是相当理性的[1]。而这些事情恰恰是经济学、也是博弈论的研究对象。博弈论假设人是理性的，表现为三个要求。

第一，你得知道你想要什么，并且对你想要的东西有一个明确的排序。

第二，你的行动是在一定的规则之下，争取得到你想要的东西。

第三，你知道对手也是这么想的，而且对手也知道这些规则。

这三个要求都很简单，但是我们得承认，有些人在有些时候真做不到。比如说前段新闻中的“高铁霸座男”，他是个博士，我觉得你要是问他是个人的形象和声誉重要还是一个座位重要，他会更想要形象和声誉 —— 可是在高铁上那一刻，他的情绪战胜了理智。人有时候会被某种情绪劫持，这种情况不是博弈论的研究内容。

但如果一个人长期这么做事，其中可能就有理性的成分。比如现在一个热门话题是老年人容易上当受骗，买一些不靠谱的保健品。这些老人都是非理性的吗？不一定。那些推销保健品的人卖的并不仅仅保健品，同时也是一种情感服务，比如认干爹干妈之类。老人未必不知道保健品没啥用，但是老人可能认为反正吃保健品也没什么坏处，他花点钱满足一下情感需求未尝不可。

如果一个现象长期存在，那就有可能是博弈论的研究内容 —— 博弈论称之为“均衡”。再比如说，像百度、莆田系医院、拼多多APP这些东西，充斥着假货和骗局，为什么能长期存在呢？也许这就是当今中国的博弈格局所决定的，这个结果可能是各方的理性选择。

博弈论的用处

因为要求各方是充分理性的，有时候博弈论会得出一些非常怪的结论。

比如你可能听说过这个故事。老师让全班所有同学都想一个数字，说谁想的数字最接近全班平均值的2/3，谁就获胜。那如果我们假定所有同学都足够聪明的话，正确答案应该是0。这是因为不管你猜测全班人的共识是多少，你都会把这个共识乘以2/3 —— 但别人也能想到这一点，他们也会把你的数字再乘以2/3……你们的每一步推理都会让共识变得越来越小。而事实上哪个大学的学生都不会得出这么极端的答案来。

生活中绝大多数人不会聪明到那个程度，去做那种极端的推理。那难道说博弈论真的没用吗？博弈论的实际应用，并不是这种数学谜题。

博弈论能帮助我们理解长期存在的各种现象。如果你观察到社会上有很多不合理的现象，而这些现象还长期存在，你会认为这是因为社会上的人都太愚蠢了吗？博弈论会让你考察现象背后的博弈规则。

当然，这绝对不是说可以理解的现象就"应该"长期存在。博弈论更重要的作用，是告诉我们如何改变不好的局面。可能这个坏局面是因为博弈是单次的，可能其中有信息不完全的问题，可能是因为那个许诺不可信。现在博弈论已经能够提供各种工具，帮我们达成更好的局面。

我认为人们之所以用不上博弈论，是因为缺少识别博弈格局的眼光和改变博弈规则的意识。

对个人来说，最起码的一点，你应该时刻提醒自己要理性。研究博弈论就好像下棋一样，你要考虑你的每一个行动都是有后果的，你要事先想好对方会有什么反应，然后你再怎么应对，然后对方再反应……一直到最后是个什么结果。

而我觉得一个更深层的意识是，你应该首先做一个“Player”。Player，在游戏中叫玩家，在体育比赛中叫选手，在博弈论中叫参与者 —— 其实都是一个意思，博弈论（Game Theory）说的都是 game。有一点参与游戏的精神，你就有权在规则范围内采取对自己最有利的行动，你就是积极主动的，你就会平等对待对手 —— 你就既不是一个浑浑噩噩整天根据别人设定做事的人，也不会有整个世界绕着自己转的幻觉。

帕累托最优（Pareto Optimality）

为什么商家总扎堆？

你注意到没有，同一类商家总爱聚集在一起。偏一点的地方什么都没有，热门地段却有好多同样的店，一个十字路口竟然会有两家加油站。新闻媒体也是这样，一有什么重大事件或者热门电视剧，你打开电视所有频道都是这个内容。从消费者的角度，我们希望加油站更分散一点，让所有人都能就近使用。我们希望产品有更多的差异化。那为什么商家非得扎堆呢？

用博弈论思考，这并不是商家都盲从、只知道互相模仿，而是他们不得不这样。博弈论要求你必须考虑竞争对手会怎么做。

咱们把问题简化一下[2]。设想有一个比较长海滩，你要在海滩上摆个摊卖冰激凌。你应该把摊放在哪里呢？如果整个海滩只有你一家冰激凌摊，那你摆哪里都可以。但是考虑到可能将来会有竞争对手，你就应该把冰激凌摊摆在中间！这是因为如果你摆的位置比如说偏右，对手来了只要往中间区域一摆，他辐射的势力范围就绝对大于你。

严格地说，如果你的位置在 k，竞争对手在 -k 和 k 之间任选一点都比你好。好，现在作为先来者你已经把摊位摆在了中间。那如果新来了一个竞争者，他应该把冰激凌摊摆哪儿呢？如果他的位置靠右，的确能够独占他右边的市场，但是那也就等于把从你俩中间开始算，左边超过一半的海滩都拱手让给你了。所以没办法，他也只能把摊位放在中间，只有这样才能跟你平等竞争。

这就是为什么要扎堆。可是我们想想，如果两家事先商量好，分散开，在海滩上1/4和3/4这两个位置分别摆摊，其实还是两家平等赚钱，而且还能确保消费者买冰激凌的走动距离最短。这样多好呢？

从扎堆到分散的这个改进，两个商家的利益都没有受损，而消费者的境遇更好了，所以可以称得上是“帕累托改进”。帕累托是一位意大利经济学家，帕累托改进的意思是这个改进能在不伤害任何一个人利益的同时，使得至少一个人的境遇变得更好。如果一个局面已经好到没有帕累托改进的余地了，这个局面就叫“帕累托最优”。

一个理想的、令人快意的世界应该是帕累托最优的。扎堆显然不是帕累托最优，分散才是帕累托最优。那为什么博弈的结果不是帕累托最优的呢？因为在这场博弈中，帕累托最优是个*不稳定*的局面。就算一开始两家商量好了分散摆摊，将来也会有一家偷偷地转移到中间去！他这么做不是帕累托改进，因为会伤害对手和消费者的利益 —— 但是这么做对他自己很有利。

理想青年喜欢帕累托最优，但是博弈论告诉我们只有稳定的局面才能长久存在。

纳什均衡（Nash Equilibrium）

囚徒困境

你可能已经非常熟悉“囚徒困境”的故事了，但是因为从这个故事里能得出特别重要的概念，这里值得专门讲一遍。

有两个小偷被警察抓住了，但是警察手里并没有过硬的证据，只能指望口供。警察开出的条件是如果两个人都招供，那就都判刑3年；如果有一个人招供，另一个人不招供，那么招供的人就算立功，可以无罪释放，而不招供的人就要严惩，判刑5年；如果两个人都不招供，因为证据有限，所有两个人都判刑1年。警察不准两人通气，都是单独审讯。

咱们别管什么正义和邪恶，咱们帮这两个囚徒分析一下博弈策略。首先我们要把不同策略和结果画在下面这张矩阵图里。这种画法是美国经济学家托马斯·谢林发明的，谢林曾经开玩笑说发明矩阵图是他对博弈论所做最大的贡献 ——

矩阵边上是两个人采取的策略，中间是各种策略组合带给两人的回报。你一眼就能看出来，最好的结果是两个人都不招供，然后都被判一年。

但是博弈论要求我们每次做判断都要考虑对方 —— 不是考虑怎么对对方好，而是考虑对方会怎么做，然后你怎么做。对囚徒1来说，如果对方招供了，他就只能招供，因为不招供判5年招供判3年。可是如果对方不招供，他还是应该招供 —— 因为他招供就是立功，可以直接走人。也就是说，不管对方是招供还是不招供，囚徒1最好的策略都是招供。

这就引出了我们要说的第二个概念，叫做“压倒性策略（Dominant Strategy）”。这个策略压倒其他一切策略，不管对手怎么做，这个策略对你来说都是最好的。反过来说，不招供，对囚徒1来说则是一个“被压倒性策略（Dominated Strategy）”，也就是不管别人怎么做，你这么做对你都是不好的。

作为理性的人，如果博弈中有压倒性策略，你就一定要选择这个策略。任何情况下都不要选择被压倒性策略。囚徒1的压倒性策略是招供，囚徒2当然也是如此。结果就是两个人都被判刑3年。这个结果可不是帕累托最优。但这个结果是*稳定*的。这表现在任何一方都绝对不会单方面改变策略。这就引出了我们要说的最重要概念：纳什均衡。换句话说就是不管我们喜不喜欢，这个局面我们认了。关键词是“单方面”。是，如果咱俩都不招供会更好，可是要变必须得一起变，我自己不可能*先*变。因为人人都不愿意先变，结果这个局面就变不了。

诺贝尔经济学奖得主罗杰·梅尔森有句话说，纳什均衡对经济学的意义，就如同发现DNA双螺旋结构对生物学的意义那么重大！我理解这就是因为纳什均衡给了我们一个观察世界的眼光。

前面说的扎堆摆摊就是一个纳什均衡。如果一个现象能够在社会中长期稳定地存在，它对参与的各方来说就一定是个纳什均衡。纳什均衡告诉我们评价一个局面不能只看它是不是对整体最好，它必须得让每个参与者都不愿意单方面改变才行。

比如你要跟人签个协议，如果你希望这个协议能被各方遵守，那它就必须得是一个纳什均衡。一个制度哪怕再好，如果不是纳什均衡就不会被遵守。一个制度哪怕再不好，如果是纳什均衡就会长久存在。

小结

不知道看到这里会不会让你感到有点悲观。帕累托最优常常不是纳什均衡。

理想青年喜欢帕累托最优，理性青年寻找纳什均衡。理想青年对应试教育义愤填膺，理性青年知道只要高校还在看高考、教育就只能应试下去；理想青年对黄牛票贩咬牙切齿，理性青年明白只要价格还在被管制、人们就只能用非价格的方式竞争下去；理想青年对学区房表示不解，理性青年表示只要入学还在划片区、再想付学费也只能以买房的方式付出去；理想青年对大组织政治摊手摇头，理性青年懂得只要遵章守纪还能继续混下去、人们就不会有所忌惮更不会有革新的动力；

所以你指望理想青年的摊手摇头、疑惑不解、咬牙切齿、义愤填膺能改变什么？他们甚至连真正要改变的是什么，都没弄明白，便急着感慨。理想青年为帕累托最优振臂高呼、声嘶力竭、表演完毕愤然离席，理性青年却在为改变纳什均衡而“没有原则”地辗转腾挪、日拱一卒、改变规则。

参考文献

[1] 关于理性和行为经济学，David Levine 的 Is Behavioral Economics Doomed? The Ordinary versus the Extraordinary（2012）

[2] 这个例子来自 Presh Talwalkar, The Joy of Game Theory: An Introduction to Strategic Thinking (2014).

[3]全文整理至万维钢精英日课第三季

帕累托最优与纳什均衡