博弈论的几个简单概念

最近学习了得到万维刚老师的精英日课，发现很有意思，有点风陵渡口一见杨过误终身的感觉，原来看世界的视角有这么多种。

1.纳什均衡

如果博弈各方都足够聪明，大家最终的策略选择一定是这么一个局面：在这个局面里大家都认命了，谁也无法单方面改变策略去谋求一个对自己更好的结局。

如果一个现象能够在社会中长期稳定地存在，它对参与的各方来说就一定是个纳什均衡。纳什均衡告诉我们，评价一个局面不能只看它是不是对整体最好，它必须得让每个参与者都不愿意单方面改变才行。

我们生活中的交通规则就是纳什均衡，如果有人改变了这个规则就会增加受伤的几率。

在双方有强烈的合作意愿，而博弈不止一个钠什均衡时，可以寻找“聚焦点”。聚焦点就是在众多可能的纳什均衡中最显眼的那一个，人们会自动在这一点上达成合作。聚焦点的作用是协调。

聚焦点可以是生活习惯，可以是历史传承，可以是传统文化，可以是先下手为强，可以是政府指导，可以是随便找到的什么借口，实在不行还可以抽签。

2.帕累托最优

帕累托是一位意大利经济学家，帕累托改进了纳什均衡，在不伤害任何一个人利益的同时，使得至少一个人的境遇变得更好。如果一个局面已经好到没有帕累托改进的余地了，这个局面就叫“帕累托最优”。

理想青年喜欢纳什均衡，理想青年喜欢帕累托最优。帕累托原则也叫“二八原则”，也很出名。

3.囚徒困境

合作则两利、背叛则两伤。经济学中的“负的外部性”、“公地悲剧”、价格战，国际政治中的军备竞赛，动物世界中的互助行为，体育比赛中的使用禁药，医学中的抗生素滥用，包括心理学中的上瘾现象，其实都是囚徒困境。

囚徒困境中合作利益不大，背叛对自己有很大好处是当然选择背叛，也企图先发制人，这也称为压倒性策略。

采取策略：如果博弈是可重复的，应该寻求对背叛者进行惩罚。防止背叛，最直观的办法就是把单次博弈变成重复博弈。重复博弈之所以有效，是因为背叛者会受到惩罚。以牙还牙是最经典的做法，但适当的宽容更能促成合作。

有效的惩罚必须得满足3个条件：
你得能发现背叛行为；
惩罚必须得是可信的，对方知道他一定会受到惩罚；
惩罚的力度得足够。

威胁和承诺都是在博弈双方都没有采取实质性行动之前，一方通知另一方的声明。所谓威胁，就是我要求你不要去做某件事——我说如果你做了，我就会对你进行惩罚。所谓承诺，就是我要求你去做某件事——如果你做了，我就会给你一个奖励。

只有可信的威胁和承诺才有意义。

可信=别无选择。发出可信的威胁或者承诺有三个办法：给别人惩罚你的权力；主动取消自己的选项；建立声望。

像网上买东西，7天无理由退款，这是给出承诺，无理由退款就是卖家给出的惩罚自己的权利，以此建立良好的声望，赢得更多的顾客。

我觉得在教育孩子时也是个囚徒困境，悉心教导，则对双方又有利，如果放任自流，那么最终会害人害己。在教育过程中家长要有威信，也就是可信度，让孩子知道做错事会受到惩罚，但也要注意适用边界，不能太过严厉，不近人情。

4.压倒性策略

在博弈局面中，你有一个策略压倒其他一切策略，不管对手怎么做，这个策略对你来说都是最好的。反之，“被压倒性策略（Dominated Strategy）”，就是不管别人怎么做，你这么做对你都是不好的。

5.KMRW定理

用四个经济学家名字的首字母命名。在不完全信息博弈中，参与者不知道对方是好人还是理性人，那么只要博弈重复的次数足够多，合作能带来足够的好处，双方都会愿意维护自己是好人的这样一个声誉，前期尽可能地保持合作，到最后才选择背叛。

6.先发制人与后发的优势

小鸡博弈：西方世界的一个游戏，双方开车相向，谁先打方向盘谁就输，就是小鸡。先发制人的做法就是卸掉方向盘，那么对方就只能选择做小鸡。

只要你能确定对手的底线，那么先发制人，造成既成事实，就能逼迫对手就范。

悬崖策略是动态进行的小鸡游戏。虽然对方卸掉方向盘，但是你可以选择加速，那么对方必须采取措施。双方每一步都在推动危机升级，这是一个危险的边缘游戏。

最好的办法给对方一个威慑，让他根本不敢出手。美国国务卿基辛格说威慑有三个要素：实力、决心和让对手知道。

虽说先发制人，但是先发者暴露信息，后发者利用信息。

后发优势=先发者的信息+后发者的出手权。信息是模仿机会，出手权是创新机会。
创新的都是落后的，因为不创新就没有机会突围，如果创新成功就会后来居上。

博弈论不是数学游戏，我们不需要掌握复杂的公式，这只是给了我们看世界的又一视角，会发现生活中更多的乐趣。