博弈论1:重新审视“囚徒困境”的最优解

博弈论

知识线索

"囚徒困境"不仅仅是个模型,它也是一个"思想实验",甚至成了一个"隐喻"或"框架"。什么时候会出现"囚徒困境"?如果合作的收益较小,背叛的代价较小,博弈的次数较少,参加博弈的人数较多,"囚徒困境"就更容易出现。博弈论也持一种悲观现实主义的世界观,它不承认人会大公无私地奉献,人与人之间充满了欺诈和背叛,但这样一种悲观的思想,却能推导出非常乐观的结论。博弈论告诉我们,即使这个世界很灰暗,但乐于合作的好人最终是会胜出的。为什么会是这样呢?

知识内容

1. 精读书介绍:《策略思维》

我先讲讲为什么博弈论可以成为我们的行动指南。我们之前讲过人性。人性只在幽明之间。从幽的角度来看,我们是无法预测他人的行为的。从明的角度来看,"他人有心,予忖度之",我们可以在一定程度上猜测别人的心思。博弈论就是在幽明之间观察人类行为的。博弈论的基本观点是,你在作出自己的决策时,必须把别人的决策考虑进来。博弈论在经济学、政治学、军备竞赛,甚至进化生物学里都有广泛的应用。这门学问需要用到的数学很复杂,但核心观点却简单清澈。

本周的精读书是迪克西特和奈尔伯夫的《策略思维》。《策略思维》的英文书名是Thinking Strategically。这是我读过的最有意思的博弈论普及读物,翻译得也不错。

2. 囚徒困境:柴诃夫斯基已经招了

有一个苏联音乐家在各个城市间巡回演出。他在一个城市结束了演出,坐上火车,赶往另外一个城市。在旅途中,他闲得无聊,就掏出乐谱来看。这个奇怪的举动引起了克格勃的注意。克格勃以为他在看密码本。

于是,克格勃把他抓进一个小黑屋审问。克格勃问他:"老实交代,你是不是间谍?"音乐家莫名其妙,他说,我不是啊。克格勃说:"那你看的是啥?那个密码不是你写的?"音乐家叫苦不迭:"冤枉啊,那明明是柴诃夫斯基写的。"克格勃若有所思地点点头,走出了审讯室。过了没一会儿,这个克格勃又回来了。他得意地跟音乐家说:"我看你还是老老实实招了吧,柴诃夫斯基都已经招了。"

这就是博弈论里最有名的"囚徒困境"。假设克格勃真的把柴诃夫斯基也抓了起来,关在另一个审讯室里,那么,音乐家和柴诃夫斯基会不会招呢?我们先来看第一种情况,柴诃夫斯基和音乐家都不招。如果他们两个都不招,那么克格勃就只能判他们两年刑。

哎,不对啊?你可能会问:既然找不到证据,为什么要判他们两年刑?这是根据另一个苏联笑话。在苏联的集中营里来了一个新犯人。老犯人问他:你为什么被逮进来了?他说,我什么也没干啊。老犯人又问:那你被判了几年啊?他说我被判了五年。老犯人说,那肯定弄错了,你要是什么都没干,应该判两年。

这是插播一个笑话。讲完笑话,我们再回来看第二种情况。如果音乐家招了,还陷害柴诃夫斯基,说他是个里通外国的间谍,那么,音乐家告密有功,宽大处理,马上释放,可怜的柴诃夫斯基就会被判十年--谁叫他不先揭发别人呢。

这是第二种情况,那我们再来看第三种情况。如果他们俩都招了,那么克格勃就有他们的供词:既然你们都认罪,那就判你们五年徒刑吧。

于是,问题来了。如果你是音乐家,或者你是柴可夫斯基,你会怎么做?假如你不招,别人招,你判十年,别人无罪释放,你最倒霉。假如你招,别人不招,你无罪释放,别人判十年,你靠出卖朋友逃过一劫。如果你招,别人也招,你们两个都判五年。了解博弈论的朋友都知道,最后的均衡解是音乐家和柴诃夫斯基都会招供。为什么呢?假定你招,不管别人招不招,你的处境都比不招要好。这在博弈论里被称为占优策略,就是比别的策略都好。

图片发自App

你现在看一下文稿,里面有一张是对"囚徒悖论"的图示。我们来根据这个案例,分析一下为什么柴诃夫斯基和音乐家最后都会进了监狱。

R是双方合作时的收益,T是别人垫背你背叛时你的收益,P是双方都背叛时的收益,S是人家背叛你垫背时你的收益。比较这四种情况,你会发现,收益的大小依次是T、R、P、S。也就是说,最好的结果是你先背叛,其次是大家都合作,再次是大家都背叛,最倒霉的是人家把你出卖了,你还在帮人家数钱。

3. 博弈论的三个要素

你看,之所以会有"囚徒困境",跟各方在不同策略下的成本和收益有关。在博弈论里,我们把这个叫做支付结构。支付结构是影响博弈结果的第一个要素。除了支付结构,还有博弈的次数、参与的人数,都会对博弈结果有影响。

我们先来看第一个要素,也就是支付结构。要是我们把"囚徒困境"的成本和收益改一下呢?比如说,我们假设,被审讯的是一对真心相爱的夫妻,他们宁肯一起坐牢,也不肯背叛对方,也就是R的收益比T大,那就不会出现"囚徒困境"了。或者,我们假设被审讯的两个人都是黑帮的成员,如果其中一个人背叛,即使他会被放出来,但出来之后就会被别的黑帮成员杀死,也就是说,背叛的成本为无穷大,那么,也不会出现"囚徒困境"。

第二个要素是博弈次数。如果这两个被审讯的人是萍水相逢的,彼此都是陌生人,那么,互相背叛的概率就会更高,但如果他们都是一个村子里的,抬头不见低头见,早晚还会再见面的,那互相背叛的概率就会降低。这就是为什么在火车站容易出现更多的骗子,但在小区里却不太会有骗子的原因。

第三个要素是参与人数。如果只有两个人接受审讯,他们达成串谋的概率相对较高,但是,如果是派出所严打,一次抓进来100个人呢,这100个人想要一起串供的概率就会大大降低。人上一百,形形色色,人数多了,监督起来就困难,想混水摸鱼的人也就会多。

你可能感兴趣的:(博弈论1:重新审视“囚徒困境”的最优解)