这期为你解读的是《策略思维》,这是一本博弈论的经典著作。
博弈论这个词听起来好像有点抽象,我先给你举个例子。
比如,你的公司推出了一款新产品,要进入一个新市场,但是这个市场已经被另一家公司垄断了,这时候你该怎么办?你可能会说,我的产品质量好,价格便宜,优势很明显,我强行进入这个市场行不行?答案是,不行。在竞争中,你不能只管自己,还必须考虑对手会采取什么策略。如果对手跟你打价格战,比着降价,要把你的公司拖垮,那你在进入市场前就得充分考虑各种情况,做好应对的方案。那怎么才能知道对手是怎么想的呢?这就要用到博弈论了。
博弈论就是研究互动决策的学问。也就是说,在博弈过程中,你在做自己的决策的时候,一定要考虑到别人的决策。博弈论在政治学、经济学、军备竞赛甚至进化生物学里都有很广泛的应用。著名经济学家何帆评论说,这门学问虽然需要用到很复杂的数学,但是核心观点却简单清澈。这期音频为你分享的这本《策略思维》,就是一本关于博弈论的经典入门书。别的研究博弈论的书有很多专业术语和数学计算,但这本书没有这些,而是通过大量有趣的案例帮我们理解博弈论。同时,这本书还为我们提供了几种非常有用的决策思维,这些思维能帮你在日常生活中做出更好的选择。
本书的作者是两位大学教授,都在美国著名大学开设博弈论的课程。其中一位叫迪克西特,这位教授最近几年一直在诺贝尔经济学奖的候选人名单里,这本书的主要内容就来源于他在普林斯顿大学开的一门课“策略博弈”。另一位教授奈尔伯夫,也在耶鲁大学教过类似课程。
接下来,我会从四个方面给你讲述这本书的内容。首先,我来给你介绍策略思维最基本的分析方法,“向前展望,倒后推理”。在轮流出招的博弈中,这个方法非常适用。其次,如果双方同时出招,又该采取什么样的策略。再次,我们要介绍更复杂的情况,如果我们和对手的决策会互相影响,那怎么防止对手预测我们,我们又应该怎么去影响对手。最后,怎样跳出囚徒困境,用策略思维来维护共同利益。
第一部分
咱们先进入第一部分,策略思维最基本的分析方法,叫“向前展望,倒后推理”,这是这本书中两位作者反复强调的一种分析方法。我来给你解释一下。
向前展望,意思就是在做决策之前,要预测对方可能会采取什么行为,以及这种行为会带来什么样的结果。这种思路就像咱们下棋的时候,每下一步,都要不断去猜对方下一步会怎么走。那些下棋的高手,都是能看到好多步以后的人。比如人工智能 AlphaGo,它能通过强大的计算能力,列举出对方可能做出的所有选择,然后根据对方的下一步,决定自己该怎么走。这种计算会一直持续下去,计算量非常大。不过 AlphaGo 能通过深度学习,减少这种列举的可能性,能很快地根据当前的局势来判断最后的结果。这就是向前展望的过程。
如果只是向前展望,还不能帮我们做出最后的决策,还需要倒后推理。这就是说,我们先得明确最后想达到一个什么样的目标,然后从这个目标倒着往后推,一步一步地确定策略。比如前边咱们举的新产品要进入市场的例子,如果你的最终目标是不希望对手打价格战,那么你的定价就得让对手觉得不打价格战能有更多的收益;如果你的最终目标是要通过价格战打败对手,那你就要判断对手能容忍的最大亏损,根据这个极限定出一个一招致命的价格。这就是倒后推理的过程。
“向前展望,倒后推理”这个方法能帮我们理解和分析很多复杂的问题。比如,在很多国家,工人会通过罢工来争取更多的利益,这时候就需要工会和企业管理层来谈判。一般情况下,工会希望用罢工给企业施加压力,让企业提高工资,增加福利,企业管理层呢,更希望维持现在的工资水平。所以,如果向前展望,每当工会提出要增加工资的时候,企业都可以选择同意或者不同意,然后工会再根据企业的决策做出自己的判断,决定要继续罢工还是开始工作。
理论上来说,这个博弈过程可以一直持续下去,但实际上,如果工人一直罢工,就失去了收入,同时企业也要承担很大的经济损失,所以罢工对双方都会产生伤害,罢工持续时间越长,造成的损失可能就越大。这时候就需要倒后推理。工人和企业都是理性的,他们对自己的损失会有一个估计,会在恰当的时候达成妥协,结束罢工。什么是恰当的时候呢?对企业来说,只要罢工还在持续,损失就在增加。如果企业的目标是尽可能减少损失,那就应该把握住第一次谈判的机会,尽可能跟工会谈成一个合适的工资水平;对于工人们来说,在理想的情况下,为了减少损失,也希望尽早妥协。
这就是“向前展望,倒后推理”的方法。向前展望,能帮我们列举未来所有的可能性;倒后推理,能帮我们从目标出发,找到博弈过程里最好的方案。
第二部分
刚才我们介绍过,“向前展望,倒后推理”这个方法适用于轮流出招的博弈,就像下棋,我先走一步,你再走下一步。在罢工的谈判例子中,也是工会先提条件,企业再去应对。不过,在真实世界中,很多时候博弈双方需要同时出招,这时候我们该采取什么策略呢?这是第二部分要讲的内容。
同时出招的过程,比较像我们平时玩的石头剪刀布游戏。在出招之前,我们不知道对方会出什么,必须设想如果自己处在对方的位置会出什么,然后再推算这么出会带来什么结果。也就是说,既要站在自己的角度考虑,还要站在对方的角度考虑。书里说,在这种博弈里,我们可以使用这样三个策略:一是选择你的优势策略;二是避免你的劣势策略;三是寻找这个博弈的均衡,也就是均衡策略。分别来解释一下。
优势策略好理解,就是在一系列策略中,这个策略比你的其他策略都要好。比如要考试了,临时抱佛脚、抓紧时间好好复习就是一个优势策略,比放弃考试或者作弊要好;再比如,要维持身体健康,优势策略就是经常锻炼、多吃水果蔬菜,比生病后去医院看病要好。
劣势策略也好理解,就是对你最不利的那个策略。假如你是一支篮球队的教练,你的球队正在打一场比赛,现在距离比赛结束只剩下3秒钟,你的球队领先两分,可是你的对手却手握球权,这时你怎么安排防守策略呢?我们一起来分析一下。你的对手这时有两个策略:一是打两分,如果球进了,比分打平,双方进入加时赛;二是打三分,如果球进了,比分反超,你的球队将被绝杀。这时,你也有两个策略:一个是防止对方打两分,一个是防止对方打三分。这时,防守两分就是一个劣势策略,因为一旦对手三分球进了,你的球队就会被绝杀,所以,你的最佳选择是防守对方的三分球。
接下来是寻找这个博弈的均衡,也就是均衡策略。这个意思是,参与博弈的每一方都找到了针对另一方的最佳对策。这个理论是著名数学家、博弈论创始人约翰·纳什提出来的,所以均衡策略也叫做纳什均衡。
纳什均衡有一个很形象的应用场景,出现在一部奥斯卡获奖电影《美丽心灵》里。这个场景是这样的,说纳什在普林斯顿大学上学的时候,和几个同学在学校酒吧里讨论怎么追女生。一个同学分析,亚当·斯密说个人利益会推动集体利益,咱们先去追求最漂亮的女生,如果被拒绝,然后再去追求其他女生。但是纳什认为,这事儿不能光考虑自己,还要考虑男生、女生和所有同学整体。纳什分析说:每个人都想追求最漂亮的那个女生,这是人之常情,不过如果大家都去追求她的话,肯定会有人遭到拒绝;如果遭到拒绝后,再去追求其他女生,会有很大的概率再次被拒绝,因为没有人喜欢当备胎;所以,对大家来说,最好的策略就是都不去追求最漂亮的那个女生,而是直接各自追求其他女生,这样对所有人都有利。
你看,在这个均衡策略中,每个人的行为都是针对其他人行为的最佳对策,男生不会因为追同一个女生而成为情敌,其他女生也不会被当作备胎而受到冒犯,这样男生追到女生的概率就会大大增加。你看,同时出招的博弈就是一个循环推理的过程,首先要找出自己的优势策略,尽量选择它;然后找出自己的劣势策略,尽量避免;最后不断简化博弈过程,找到博弈的均衡,也就是每个人的策略都是回应对方的最佳策略。
再给你举个书里的例子。美国有两大橄榄球联盟,一个强势,一个弱势,下边咱们就用强势联盟和弱势联盟来代替这两个组织。这两个联盟分别组织自己的比赛,强势联盟在秋季比赛,因为秋季市场最大,但是弱势联盟也想在秋季办比赛,把对手挤到春季去,那么,弱势联盟究竟该不该这么做呢?
为了更精确地说明这个例子,我们假定秋季有1亿人观看橄榄球比赛,而春季只有5000万人看比赛。如果两大联盟同时选择一个季节,强势联盟将得到70%的收视率,弱势联盟只有30%的收视率。也就是说,如果两大联盟同时在秋季比赛,只有3000万人会观看弱势联盟的比赛;而如果弱势联盟继续选择在春季比赛,他们还会有5000万观众。那么,有没有可能让强势联盟转到市场不大的春季去呢?人家也不傻,他们当然要遵循自己的优势策略,这个优势策略就是永远选择观众最多的秋季进行比赛。这么分析下来,面对强势联盟,弱势联盟没有一个优势策略,它只有一个均衡选择,就是永远在强势联盟停赛期间比赛。所以,这个策略的均衡就是,强势联盟在秋季比赛,弱势联盟依旧在春季比赛。在很多竞争的场合,我们甚至可以预言,竞争双方最后必然会走向这样一个均衡点。在这个均衡点上,每一方的行动都是自己的优势策略,都是对对方行动的最佳回应。
总结一下这一部分。在同时出招的博弈中,我们要尽可能选择自己的优势策略,避免劣势策略,在这个过程中找到均衡。
第三部分
接下来我们要介绍更复杂的情况:如果我们和对手的决策会互相影响,那怎么防止对手预测我们,我们又应该怎么去影响对手?这是第三部分。
先说怎么防止对手预测我们。作者给我们支了一招,就是随机策略。也就是说,用一种不可预测的方法做出你的决策,这时对手就很难预测你的行为。体育比赛中经常会用到随机策略。比如,在篮球比赛中,如果一个球员的左右手都可以投篮,那么防守他就会很困难,因为每一次都要考虑他是会用左手投还是右手投。再比如,航空公司一般会向最后一分钟买票的乘客提供优惠机票,不过,他们不会告诉你还剩下多少座位。这时,如果你想买到优惠机票,就要猜剩下的座位数量。如果最后一分钟所剩机票的数量变得容易预测,那么乘客利用这一点占便宜的可能性就会大很多,大家都去抢优惠机票了,航空公司肯定就亏大了。
再看一个例子。二战期间,盟军计划在欧洲开辟第二战场,有两个地方可以登陆,一个是诺曼底,一个是加来港。诺曼底海滩相对平坦,加来港地形易守难攻,对于盟军指挥官来说,优势策略很明显,就是聚集所有兵力登陆诺曼底。但是问题在于,盟军将在诺曼底登陆这事,德军也很容易想到,所以德军的优势策略就是,重兵驻守诺曼底,分兵驻守加来港。这时,盟军就使用了随机策略,把德军给弄糊涂了。
我们来看看盟军是怎么套路德军的。首先,盟军派一支部队在加来港附近驻扎,假装进攻加来,当然,去的都不是精锐部队;然后,盟军策反了一个德军间谍,还把间谍叛变的消息透露给德军;然后,盟军让这个间谍给德军发了一条特别容易破解的加密信息,内容是盟军将在诺曼底登陆;最后,从医院借了具死尸,给死尸编了一个盟军上校军官的身世,并给死尸包里装上诺曼底登陆作战计划的小本子,扔到德军控制区域的海滩上,然后登报说上校失踪了。现在,如果你是德军指挥官,你肯定也一脸懵圈,从哪儿一下冒出来这么多信息,得小心有诈啊。德军指挥部这时会仔细分析:首先,盟军都在加来附近囤积兵力了,很可能是要进攻加来了;第二,咱们的间谍叛变了,而且发过来的信息特别容易破解,所以这话得反着理解,诺曼底登陆大概率是假的;这时又突然冒出来一个上校的死尸,包里的诺曼底作战计划不知是真是假。于是,德军指挥部整体瘫痪,谁都不知道盟军将会在哪里登陆。结局大家都知道了,德军最终选择重兵驻守加来港,盟军以优势兵力成功登陆诺曼底。
这个随机策略理解起来并不难,这就是防止对手预测我们的方法。那我们又该怎么去影响对手呢?书里介绍了两个很管用的方法,一个是威胁,另一个是许诺。
威胁说的是对不肯跟你合作的人进行惩罚。比如,你想让你的客户提前支付货款,那你可以说“如果您无法提前支付货款的话,那我们的到货时间可能就没办法保障”。这就是一个威胁。许诺呢,就是给愿意跟你合作的人提供回报。比如,你想让部门员工努力工作,那你可以说“大家辛苦辛苦,等这个项目忙完了,给大家好好放个假”。这两个方法也不难理解,即便是在国际竞争的场合也能用得上。
我们来看书中的一个例子。假设美国和日本都想发展高清电视,美国有技术优势,但是政府相关预算不够;日本政府钱多,但是技术一般。这时,日本最愿意看到的结果是,自己加大资金投入,而美国减少资金投入,这样日本就可以充分发挥自己的资金优势;但是在美国看来,最理想的结果是,双方同时降低资金投入,这样,美国就可以充分利用自己的技术优势。简单来讲,降低资金投入就是美国的优势策略,加大资金投入就是日本的优势策略。这时候,美国做出了一个许诺,抢先宣布自己将会在高清电视产业加大资金投入。美国的这个策略行动就改变了日本的预期,日本就不敢加大资金投入。当然,一旦日本拿定了主意,美国最好也不要真的投入太多资金,只要改变对方的行动,让条件变得对自己有利就可以了。
说到这儿你可能会问,要是日本不相信美国宣布的事儿呢?作者强调说,我们还需要让许诺变得可信。如果你的威胁和许诺只停留在口头上,别人就有可能通过“向前展望”预测到你的威胁和许诺不过是一种欺骗,那你的策略可能就没用了。说回高清电视的例子,如果日本不相信美国要加大资金投入的话,美国的策略就不起作用了。为了让自己的话可信,美国使用了另一个策略,划拨专项资金,专门提供给想要参与开发计划的公司,这就让自己加大资金投入的行为显得更加可信。
前边我们讲的是许诺的例子,现在我们来看看威胁的例子。威胁说的是,对不肯跟你合作的人进行惩罚。
比如,冷战期间,美国想要阻止苏联介入欧洲。如果美国直接威胁说“如果苏联入侵欧洲,美国就将苏联夷为平地”,虽然这个威胁足够恐吓对方,但是要考虑到一种可能性:如果苏联入侵了欧洲,美国为了维护自己的信誉,就需要真的去进攻苏联,这样一来,这个威胁也会给自己造成很大的损失。这时,为了让威胁变得缓和一点,办法是创造一种风险,表明可怕的事情有可能发生,而不是一种确定性。这时,美国可以说“如果苏联入侵欧洲,那么不排除美国使用核战略的可能”。这时,这种威胁就从一种确定性变成了可能的风险,因为核战争造成的损害特别大,所以即使这个可能性只有10%,也足够恐吓对方了。
这一部分我们讲了怎么防止对手预测我们的行为,办法是采取随机策略,让对方猜不着。我们还讲了可以通过威胁和许诺影响对方的行为,让条件变得对自己更有利。
第四部分
前边我们讲的大都是怎么在博弈中战胜对方,那博弈能不能维护共同利益呢?答案是,能。这就是我们第四部分的内容。
先来讲一个概念,囚徒困境,你可能也听说过,这是博弈论里的经典案例。说的是警察抓住了两个罪犯,为了防止串供,把他们分别关在不同的房间里。警察告诉他们,如果两个人都坦白,各判两年;如果两个人都抵赖,各判一年;如果一个人坦白,一个人抵赖,坦白的放出去,抵赖的判五年。如果开启上帝视角,最好的策略是两个人都抵赖。但任何一个人在选择抵赖的时候,都要冒很大的风险,因为一旦自己抵赖,而对方坦白了,自己可就惨了。由于两个人都无法信任对方,所以他们都倾向于坦白,而不是同时抵赖,最终,两个人都被判刑两年。囚徒的困境在于,两个人都做出了看上去对自己最有利的选择,实际上却陷入了一个对双方都不利的困境中。
经济学家何帆在得到订阅专栏《何帆的北大读书俱乐部》里,专门分析了囚徒困境。他说,囚徒困境跟三个因素有关,一个是博弈各方在不同策略下的成本和收益,一个是博弈的次数,还有一个是参与人数。
我们先来看博弈各方的成本和收益。要是把囚徒困境里的成本和收益改一下,囚徒困境就不存在了。比如,被审讯的是一对真心相爱的夫妻,宁可一起坐牢,也不愿意背叛对方。或者,被审讯的两个人都是黑帮成员,如果有人坦白交代了,即使被放出来,也会被黑帮杀死,也就是说,背叛的成本无穷大。在这些情况下,都不会出现囚徒困境。
再来看博弈次数。如果被审讯的这两个人谁也不认识谁,对方要坐几年牢跟自己没关系,那互相背叛的概率就很高;如果他们是熟人,以后还会再见,还有合作的可能,那背叛对方的概率就会很低。
接下来看参与人数。经典的囚徒困境里接受审讯的只有两个人,他们串供的概率比较高,如果是100个人接受审讯,串供的概率就会大大降低,而且,想浑水摸鱼的人也更多。
如果囚徒困境已经形成了,怎样才能跳出这个困境,维护共同利益呢?作者给出的答案是:对背叛进行严格的惩罚。
来看一个书里的例子。伊朗和伊拉克两个国家都想通过扩大石油生产量,来提升自己国家的收入,但是最终结果是,由于扩大了生产量,石油价格下跌了。当然,这对消费者来说是好事,大家巴不得可以从低价中受益,但是从生产国的角度考虑,他们的利益都受到了损失。为了避免这样的囚徒困境,这时就需要有一个企业联合组织来惩罚作弊行为。比如在这个例子中,石油输出国组织欧佩克就设置了惩罚的触发价格,也就是,当石油价格低于每桶25美元的时候,他们就会觉察到,如果需求没减少,那就是有成员国作弊,加大了开采量,从而导致了石油价格下跌,然后,他们会对作弊的国家进行经济制裁。这样一来,石油生产国就不敢再盲目扩大产量,而是控制产量,维护共同利益。
经济学家何帆说,囚徒困境不仅仅是一个模型,也是一个思想实验,它跟收益、成本、博弈次数和参与人数都有关。这本书建议走出囚徒困境的一个有效方法,就是严格惩罚背叛行为,让博弈各方不敢背叛,这样来维护共同利益。
总结
这本书的主要内容就说到这里,我们来简单总结一下。
我们首先分享了策略思维最基本的分析方法,“向前展望,倒后推理”。也就是在做决策之前,要预测对方可能会采取什么行为,以及这种行为会带来什么样的结果;要明确最后想达到一个什么样的目标,然后从这个目标倒着往后推,一步一步地确定策略。这个方法适用于轮流出招的博弈。如果双方同时出招,就要选择自己的优势策略,避免劣势策略,在这个过程中达到均衡。在博弈过程中,我们既可以采用随机策略,防止对手预测我们的行为,又可以采取威胁和许诺的方法影响对手的行为,让形式变得对我们更有利。当然,掌握博弈论,不仅仅是为了战胜对手,还要想办法维护共同利益。这个方法,就是严格惩罚背叛行为,来跳出囚徒困境。
除了我们说到的这些内容,这本书还讲了博弈论在很多领域的应用,收纳了很多案例,比如投票、谈判、员工激励等等。如果你对博弈论感兴趣,建议你找这本书来阅读。
经济学家何帆认为,博弈论持一种悲观现实主义的世界观,它不承认人会大公无私地奉献,人与人之间充满了欺诈和背叛,但是这样一种悲观的思想,却能推导出非常乐观的结论。博弈论告诉我们,即使这个世界很灰暗,但乐于合作的好人最终是会胜出的。
有一位博弈论专家做过一个实验,把代表各种游戏规则的程序输入计算机,让这些策略相互博弈,最后胜出的策略叫做“一报还一报”。这个策略一共就三条:第一,不主动背叛别人;第二,以牙还牙;第三,如果你背叛我之后,又回心转意,又愿意合作,那我不计前嫌,继续跟你合作。这个策略在最开始会吃亏,但是只要有一小部分人一直坚持这个策略,就能生存下来,还能吸引越来越多的人加入他们。也就是说,即便这个世界已经沉沦,只要有一小批人愿意跟你坚持道德底线,你还能过得很好,没人能强迫你堕落。
关于这个理论,有一本书叫《合作的进化》,讲得非常详细……