一切都是囚徒困境

从2017年5月7日开始,我开始阅读一本从罗胖子那边买来的书《囚徒困境——冯诺依曼、博弈论和原子弹之谜》如果说,活了25年,让我排一下至今对我影响最大的前几本书

这本书,我可以排到前三位

至于为什么,就是我今晚码字的原因

容我细细道来

关于占了整本书三分之二篇幅的有关冯诺依曼、原子弹和博弈论的历史,我毫无兴趣,就此略过

我会分四个大部分,简要介绍在我眼中,这本书带给我如醍醐灌顶般的启发


“囚徒的困境”的描述

关于这个经典的博弈情景,包括我在内的很多人都听过,大学里的公共课程也都做过类似的介绍或者是实验

我这里与诸君一同回忆一下

这个博弈第一次被在公共场合提出来,是1950年普林斯顿大学的数学家塔克在斯坦福大学为心理学系做的讲座:

两个被指共同犯法的人被警察分别关押。两人都被告之:

1、如果一个人招供而另一个人不招供,前者将获得奖励,后者将受到惩罚

2、如果两个人都招供,那两个都要受到惩罚,但程度要比1的程度轻

3、如果两个人都不招供,两个人都会无罪释放

作为一个理科生,阅读文字永远都不如图表和量化来的清晰:

一切都是囚徒困境_第1张图片

虽然量化了,但是似乎奖励越好对应的数字越小,不直观!

所以将以上图表再做优化,从“判刑”模式变成“得分”模式

一切都是囚徒困境_第2张图片

即:1、甲乙都合作,各得2分;

       2、甲乙都背叛,各得1分;

       3、甲背叛,乙合作,甲得3分,乙得0分

       4、甲合作,乙背叛,甲得0分,乙得3分;

这里把0分称为“傻瓜回报”,1分称为“惩罚回报”,2分称为“奖励回报”,3分称为“引诱性回报”


“囚徒的困境”的“理性”结果

书中有提到过“纳什均衡”这个概念,不过书中并没有将从数学角度去证明,而是用了一个通俗的解释,对于这种形式我很喜欢。

简而言之,数学家约翰纳什对博弈的分析方法是类似于“马后炮”式的事后分析:

“ 

在博弈之后,对每个参与者进行事后分析

轮流询问每个参与者

在对手玩法确定的前提下

你是否要对自己的抉择进行改动 

直到每个人都乐于接受自己的结果

则该结果就是平衡点

用此方式对上述囚徒困境进行分析:

一切都是囚徒困境_第3张图片


1、对甲而言,如果乙选择合作(乙C):自己选择合作(甲C),得2分;自己选择背叛(甲B),得3分。所以对于甲,在乙选择合作的情况下,甲不后悔的均衡点是“背叛”(B)

2、对甲而言,如果乙选择背叛(乙B):自己选择合作(甲C),得0分;自己选择背叛(甲B),得1分。所以对于甲,在乙选择背叛的情况下,甲不后悔的均衡点是“背叛”(B)

对于乙来说,结果也是一样。

通过事后的“马后炮”分析,甲、乙双方都不后悔的“均衡点”都是背叛(Betray)

但是回过头来想一想,似乎哪里不对

为什么双方都不后悔的决定,最后的结果是“两败俱伤”?

明明从上帝视角来看,双方都合作才是最好的结果

这里“集体利益”与“个人利益”产生了明显的冲突

“理性”的人会陷入困境——囚徒的困境

那到底是因为什么,才会导致这种囚徒困境呢?

即,当“傻瓜回报”(0分)<“惩罚回报”(1分)<“奖励回报”(2分)<“引诱回报”(3分) 时就会出现囚徒困境

所以,如果一种博弈或者说一种选择

“互相合作(CC)”的共同利益还比“祈祷对方是个傻子”(BC或CB)时要低

这种情况下就会出现囚徒困境

(生活中,人都希望别人都是傻子,只有自己是聪明人)

这种情况下的唯一的“理性”结果,就是双方都受到惩罚(BB)

两败俱伤!

单次的囚徒困境有解吗?

目前没有,看上去永远也不会有

解决囚徒困境的唯一方法,就是避免囚徒困境

所以一个好的社会、好的公司、好的团体,就是要标榜道德、公司文化和价值观去促进合作(CC)

另一方面去立法、立规去惩罚背叛(BC、CB、BB)

否则,由理性带来的BB会对集体利益造成伤害


关于多次的囚徒困境

第二部分讲的理性结果是基于囚徒困境只进行一次的情况下

书中还提到了多次囚徒困境

即,由多人、多次进行囚徒困境的博弈

如何在个人利益和集体利益之间获得平衡?

当然,从上帝视角来看

   CC的集体得分是(2+2=4分)

   BC和CB的集体得分是(3+0=3分)

   BB的集体得分是(1+1=2分)

无疑,如果双方一直合作CC下去,集体得分最高,个人得分也相对可以接受

但是第二部分双方均不后悔的“理性”结果告诉我们

只进行一次的囚徒困境博弈,互相背叛BB似乎是唯一解

但在多次博弈的背景下,采用什么策略才更加“理性”?


这里,书中提到了一种实验方法

先建立不同种的策略,每种策略用一段脚本表示

然后让所有的策略两两博弈,经过足够多的博弈后,看每种策略的得分:

这里选取了几个比较有特点的策略:

    1、永远合作的好人派(ALL C)

    2、永远背叛的理性派(ALL B)

    3、神经兮兮的随机派  (Random)

    4、一报还一报(TT)

注释:

一报还一报是指,如果对方本回合背叛,则自己则会在下一回合报复;如果对方本回合合作,则自己会在下一回合合作。

TT:书中把一报还一报称为“TIT FOR TAT”,我也不知道啥意思

囚徒困境的分值设置和上面一样:

1、甲乙都合作(CC),各得2分;

2、甲乙都背叛(BB),各得1分;

3、甲背叛,乙合作(BC),甲得3分,乙得0分

4、甲合作,乙背叛(CB),甲得0分,乙得3分;

然后让两两进行博弈测试,类似于下图:


一切都是囚徒困境_第4张图片
一切都是囚徒困境_第5张图片
一切都是囚徒困境_第6张图片
一切都是囚徒困境_第7张图片
一切都是囚徒困境_第8张图片

因为书中提到的策略有很多种,有一些是基于上述几个策略的改良:

1、一报还两报:对方背叛一次,下两回合都会背叛,之后才恢复合作

2、两报还一报:对方连续背叛两次,下一回合才背叛,否则一直合作

3、90%一报还一报:对方背叛一次,下一回合90%几率会背叛,之后才恢复合作

.............

据说最长的一个策略,用代码语言表示,写了几百行

有兴趣的人,可以用python或JS把上面的策略都列出来,大家都捉对厮杀,看最后得分

书中直接给出了结论:

“一报还一报”策略在多人多次的囚徒困境中胜出,是最优策略

虽然ALL B的策略符合单次囚徒困境的理性结果,但是在多种策略的竞争下

因为背叛带来的系统性分值降低而在整体得分上输给了“一报还一报”

因为在很多回合的博弈中,ALL B策略一直在逼迫合作者背叛,最后的结果往往是怀揣善意想合作的人被迫背叛而两败俱伤

而ALL C策略则相反,一直在引诱对方背叛,最后往往被ALL B这种凶狠的策略所剥削,得分比ALL B还要惨

而一报还一报TT策略则相对有原则

“一报还一报”从不“剥削”任何策略,也不向任何凶恶的策略低头

这个策略没能打败任何人,但是它最终赢得了比赛

书中还提到了一个很“有趣”的现象——一报还一报策略之间博弈的回声现象

一切都是囚徒困境_第9张图片

如表展示,如果两个TT策略中某一个进行中途叛变,之后双方仍然坚守自己“一报还一报”的策略,就会陷入一个互相背叛的过程,永不停止。

而互相背叛的平均得分则低于双方共赢时的平均得分。

这个回声现象给我的启示:两个互相信任且要强人,如果一方在合作中途丢了初心(选择背叛),那么双方将陷入无止尽的相互背叛当中,再难以回到双赢的局面


囚徒困境给我的震撼与启示


1、一切都是囚徒困境

第一次听到一个博弈的时候,我觉得就是一帮闲的蛋疼的逻辑怪想了个题来消遣,心里不断repeat一句话

“研究这个有什么用?能改善生活吗?”

后来这本书里的一句话让我醍醐灌顶

“只要有利益冲突的地方,就会有囚徒的困境”

而在利益纠缠的生活中

工作上一起合作做一件事,外卖来了谁去拿一下外卖,吃完饭了谁来买一下单

甚至恋爱阶段男女双方的相处

经常在新闻上看到两国关系的新闻,美国对俄罗斯在AAA方面进行制裁,第二天,俄罗斯对美国在BBB方面进行制裁。那时候觉得好幼稚,好无聊。现在想一想,这不就是“一报还一报”吗?

“一切都是囚徒困境”

而如果基于所谓

理性、不后悔的博弈选择

所有的结果都会是

背叛背叛背叛

也许并不是因为人品很差劲,而是陷入了这种困境

如果将“奖励性回报”提高,同时降低“引诱性回报”,将双方从困境中解救出来

(公司完善绩效考核机制、惩罚不作为的员工、拿外卖的人少付一份钱,不拿的人多付一份钱、吃完饭第一个买单的朋友可以和餐厅里漂亮小姐姐跳一支舞)

或许这样,合作、忠诚、友情、爱都将回归

2、我应当做一个什么样人?我应当如何教育我的子女?

一切都是囚徒困境

那么人与人之间的关系就是

一次性囚徒困境博弈与重复性囚徒困境博弈组合

每个人都有一个自己的策略,与社会上形形色色的人进行博弈

每个人在每次博弈之后的总分,就是代表自己的生活质量与地位

遇到不顺心的背叛者(ALL B)或者其他侵略性较强的人

我们可能会选择“背叛”来保证自己的单次利益

或者在社会的逼迫或者所谓良心的谴责下选择“合作”而得到“傻子回报(0分)”

为了得到更多的分数,以后只会与这种人进行少量甚至只有一次的接触(单次囚徒困境博弈)

如果与一个一生只会见一面,做一次囚徒困境博弈的人进行博弈,最好还是选择背叛

但是很多情况下,我们被迫与一些人不得不进行多次博弈:

同一部门的员工,自己的亲人,自己的同学朋友

有些亲密关系(父母、兄弟)带来强烈的信任感,我们可以选择永远合作(ALL C)来保证得分最大化

有些缺乏信任感但又不得不进行多次博弈,那我们该怎么办?

“一报还一报”的策略是所有重复囚徒困境博弈的最优解

所以,我应该做一个“一报还一报”的人,用人的语言来讲:

我应当以合作为先,去拥抱世界,但是要爱憎分明,睚眦必报!

爱憎分明是为了让自己的行为具有“可预测性”,让ALL C的人放心大胆合作,也让心里有着“背叛”念想的人知道背叛的后果将是下一回合毫无余地的报复

睚眦必报并不是没有胸怀,胸怀是在你背叛后再次来合作,我仍然以合作的态度与你进行更下一个回合的博弈。

不翻旧账,但是旧账必须要算完

我爸爸妈妈从小都是老实人,爷爷奶奶外公外婆都是辛勤劳作的农民

中华民族优良的传统品质流淌在他们的血液里

他们教育我,要相信他人的好,原谅他人的错,得饶人处且饶人

其实就是告诉我,要做一个(ALL C)策略的人

但是在这个处处都是囚徒困境博弈的社会上

ALL C的唯一结局只能是被凶狠的背叛为主的策略们无情剥削、欺骗

以前,我一直都很迷茫,到底是听妈妈的话,做一个温和、善良的老实人

还是彻底堕入囚徒的“理性”圈套,做一个ALL B?

这里我终于找到了支持“一报还一报(TT)”世界观为最优解的理论数学基础!

以后我也会教育我的子女,一定要做一个一报还一报(TT)的人

不因为别的,而是让信任你的人更信任,让背叛你的人不好过,让有背叛之心的人知道下场!

3、我应当多和什么样的人在一起?

试想一下这个重复囚徒困境实验:


在一个“ALL C”的策略池中,放入几个“ALL B”,然后每轮博弈的后得分最低的几位被淘汰,很显然,ALL C 的策略们在与自己交手时会得到奖励回报(2分),而在与ALL B策略交手时会得到傻瓜回报(0分),对方得到引诱回报(3分)。如果所有的策略可以像细菌一样进行自我繁殖,这个ALL C的群落就会慢慢被ALL B策略所取代。但是整个群落最后会从互相合作的高得分群落(2+2)变成一个互相背叛的低得分群落(1+1),灭绝的原因就是引来了几个凶狠ALL B。

任何高尚群体都要远离以背叛、剥削为主的个体,因为一两个就会彻底腐化整个系统

另一个实验:

在一个“ALL B”的策略池中,放入几个“ALL C”,不用过多分析,在规定必须与所有群落成员进行博弈得分的条件下,几个ALL C分分钟被淘汰

ALL C进入到不明的凶狠群体,如果不能学会抱团取暖,就永远是别人眼中的肉


第三个实验:


在一个“ALL B”的策略池中,放入几个“TT(一报还一报)”,TT与ALL B博弈时,TT在第一轮遭受背叛后的行为与ALL B保持一致;TT与TT自己博弈时,行为则与ALL C保持一致;所以每轮,ALL B成员每次博弈的平均得分为1分,而TT成员每次博弈的平均得分将高于1分;最终,TT将在ALL B的群落中胜出!

即使在恶劣、充满背叛的ALL B环境中,一报还一报者(TT)在面对ALL B时保持凶狠,在面对自己人时抱团取暖。即使一开始人数占比在整个群落中很低,但是只要保持初心,守住原则,最终还是会胜出。

这里TT与ALL B对阵时,行为与ALL B无异。这个现象让我想到一个现象,很多人的策略一开始是好的,但是在恶劣的环境中为了保护自己,只能也变得凶狠,有些人直接就忘记了自己是TT,彻底沦落成了ALL B那种Loser,最终只能被淘汰。

所以,我应当多和什么人在一起?

在无情的社会中,有太多凶狠的掠夺者,他们有时候一下子攫取了很多利益(3分),但是他们不是这个自然界最终的胜者。作为一个一报还一报TT者,只要守住初心和原则,不和ALL B们同流合污。找到自己的战友们TT,未来始终是我们的。

4、其他的一些碎碎念与呢喃

社会的问题很复杂,很多事情不是简单的囚徒困境就能解释的,毕竟囚徒困境只有合作和背叛两种选择,但是我相信爱憎分明、守住初心的世界观是正确的,世界不会是ALL B的世界,将会是TT的美好明天。

上文提到过,恋爱中男女的关系似乎也是某种囚徒困境

是,也不是

TT的策略在这里似乎很不适用了

因为一报还一报策略中,突发状况造成的回声效应(上文有提过)会让双方进行轮流的背叛与合作

而降低最终的整体得分

也许在之后的某一次博弈中

一方认为ta处在多次重复性博弈中

而另一方则认为这一次其实是最后一次博弈了


书中有一句话

如果你所爱的那个人不愿意做出牺牲,那么你最好成全她,记住,你是真心爱着那个人的。

是的吧

给对方引诱性回报的3分

总比为了惩罚性回报的1分而最终闹的不可开交要好吧

I love you,so I choose ALL C for you,though you still leave me in the end.

你可能感兴趣的:(一切都是囚徒困境)