博弈论中有这样一个故事,两个人同时碰到了一只非常凶悍的狮子(即两人就算联手也无法战胜这只狮子),其中一人撒腿就跑。没跑的那个人奇怪的问跑的人,“你跑的再快能快过狮子吗?”。而跑的人回答说:“我没必要跑赢狮子呀,只要跑的比你快就行了”。这个故事说明了一个问题,就是要认清你的对手到底是谁。而这次谈论的囚徒困境则是双方互猜对方(可以是敌人或者是盟友)心理的博弈。
“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终导致纳什均衡仅落在非合作点上的博弈模型。【1】
囚徒困境(prisoner's dilemma):两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。【1】
看完这个问题后,很多人的第一反应肯定是互不揭发,原因很简单嘛,都只用坐一年牢,你好我好大家好。但是仔细想想,这里面的问题很有意思,两人隔离在不同的牢房,没办法信息交流,说白了对方的选择你只能猜测。再说的直接一点,在我看来其实对方做的选择,你可以直接看成一个既定事实,这就造成两种结果:
1.对方心地善良并且相信你,他不揭发你。倘若你揭发他,你免受牢狱之灾;不揭发他,你坐牢1年。
2.对方心狠手辣并且不相信你,接发了你。倘若你揭发他,你坐牢8年;不揭发他,你坐牢10年。
显然在两种情况下,揭发都是最好的选择。但这个帕累托改进(如果一个经济体不是帕累托最优,则存在一些人在不使其他人的境况变坏的情况下而使自己的境况变好的情形。普遍认为这样低效的产出的情况是需要避免的,因此帕累托最优是评价一个经济体和政治方针的非常重要的标准。)办不到,因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。(这里如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益,这也就是经典经济学中的“理性人假设”。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。)。
可见在一次囚徒问题中,毫无疑问,出现互相举报的几率是最大的,对个人来说,举报其实也是最好的选择,但其实最后得到的结果却对任何人来说都不是最佳结果。这是一个很骨感,很现实的事情,如果喜欢思考的人可能已经开始想了,如果是多次囚徒问题呢?
多次囚徒问题也分为两种,一是确定次数(即次数n为一确定常数),这时我觉得用囚徒模型有点怪异。用一个相关模型来解释较为合理(霍夫施塔特曾提出的“封闭袋子交易”),
两人面对面互相交换封闭的袋子,共同了解其中一方放钱,另一方放商品。双方可以诚实的依照承诺,把东西放到袋子里交换;又或者交空袋子给对方,选择背叛。这里我们最好的办法是反推,选择最后一次,可想而知大家如果到了最后一回合,肯定双方都会选择交空袋子。于是在此之前的一个回合,双方会推测下一次对方肯定会交空袋子,于是自己会提前交空袋子,依次类推。最后到第一回合,其实跟只进行一次的结果相同。
第二种,不确定n的具体次数。
罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。
阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。
最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%~5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。【1】
通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。
友善
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
报复
但是,成功的策略必须不是一个盲目乐观的,要适时报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为始终选择不合作的策略将残酷地剥削这样的傻瓜。
宽恕
成功策略的另一个品质是必须要宽恕。如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行以导致的得分低的问题。
不嫉妒
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(“友善”的策略必然不嫉妒,也就是说“友善”的策略永远无法得到高于对手的分数)。
因此,阿克塞尔罗德认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。
我们据此,来分析一些商业上的案例。
1.两个垄断公司的广告竞争(我觉得这里得主要强调两个和垄断)
两个公司各分行业的半壁江山,而为了让自己的产品更具影响力。两家公司不断在广告上下功夫,以增强自己的影响力。众所周知,广告上的投资通常消耗很大,而两公司为了竞争更是花大价钱去提高广告质量。这时有两种选择:
(1)合作,达成协议一起减少广告上的投资
(2)背叛,设法通过广告质量来压垮对手,去增加广告投入
若两个公司互相不信任对方,无法合作,二公司将陷入广告战,而广告成本的增加其实使两个公司利益都受到了损害,这就是陷入囚徒困境。在现实中,要两个互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。
其实这其中还涉及到“斯塔克伯格模型”问题,在双寡头厂商的竞争中,两个厂商并不总是同时做出它们的产量决策的,斯塔克伯格研究了两厂商之一如果先决定自己的产量,然后是另一个厂商看到对方的产量后才做出它的产量决策的情况。他的研究结果表明,首先行动的厂商会获得一种利益。理由就是先宣布就造成了一种既成事实——不管你的竞争者怎么做,你的产量都是大的。为了使利润最大化,你的竞争者就必须将你的高产量水平作为给定的,并为它自己定一个低产量水平。如果你的竞争者生产一个大的产量水平,这就会将价格压低,你们双方都会亏损。所以除非你的竞争者把“争取平等”看得比赚钱还重要,否则他生产一个大的数量是不合乎理性的。这其中其实也极容易产生囚徒问题。
2.公共用品问题
比如捕鱼,每个渔民心里都想着如果我不捕捞,其他的渔民也一定会捕捞,此时就非常容易产生过度捕捞,而造成海洋生态环境的破坏,导致渔民自己的收益下降(共同背叛的结果)。
其实上述的两个例子,在长期下都可能有一天会转向合作,这其中可能会有双方协调或者像政府干预等来打破这种囚徒问题。这之间的聪明人和愚蠢者很难判断,很大程度上取决于对方,或者说取决于信任。博弈全输,合作双赢,怀疑或不信任导致失败。
真正的聪明人可能是那些能相互拿出信任筹码者吧。