从2017年5月7日开始,我开始阅读一本从罗胖子那边买来的书《囚徒困境——冯诺依曼、博弈论和原子弹之谜》如果说,活了25年,让我排一下至今对我影响最大的前几本书
这本书,我可以排到前三位
至于为什么,就是我今晚码字的原因
容我细细道来
关于占了整本书三分之二篇幅的有关冯诺依曼、原子弹和博弈论的历史,我毫无兴趣,就此略过
我会分四个大部分,简要介绍在我眼中,这本书带给我如醍醐灌顶般的启发
“囚徒的困境”的描述
关于这个经典的博弈情景,包括我在内的很多人都听过,大学里的公共课程也都做过类似的介绍或者是实验
我这里与诸君一同回忆一下
这个博弈第一次被在公共场合提出来,是1950年普林斯顿大学的数学家塔克在斯坦福大学为心理学系做的讲座:
“
两个被指共同犯法的人被警察分别关押。两人都被告之:
1、如果一个人招供而另一个人不招供,前者将获得奖励,后者将受到惩罚
2、如果两个人都招供,那两个都要受到惩罚,但程度要比1的程度轻
3、如果两个人都不招供,两个人都会无罪释放
”
作为一个理科生,阅读文字永远都不如图表和量化来的清晰:
虽然量化了,但是似乎奖励越好对应的数字越小,不直观!
所以将以上图表再做优化,从“判刑”模式变成“得分”模式
即:1、甲乙都合作,各得2分;
2、甲乙都背叛,各得1分;
3、甲背叛,乙合作,甲得3分,乙得0分
4、甲合作,乙背叛,甲得0分,乙得3分;
这里把0分称为“傻瓜回报”,1分称为“惩罚回报”,2分称为“奖励回报”,3分称为“引诱性回报”
“囚徒的困境”的“理性”结果
书中有提到过“纳什均衡”这个概念,不过书中并没有将从数学角度去证明,而是用了一个通俗的解释,对于这种形式我很喜欢。
简而言之,数学家约翰纳什对博弈的分析方法是类似于“马后炮”式的事后分析:
“
在博弈之后,对每个参与者进行事后分析
轮流询问每个参与者
在对手玩法确定的前提下
你是否要对自己的抉择进行改动
直到每个人都乐于接受自己的结果
则该结果就是平衡点
”
用此方式对上述囚徒困境进行分析:
1、对甲而言,如果乙选择合作(乙C):自己选择合作(甲C),得2分;自己选择背叛(甲B),得3分。所以对于甲,在乙选择合作的情况下,甲不后悔的均衡点是“背叛”(B)
2、对甲而言,如果乙选择背叛(乙B):自己选择合作(甲C),得0分;自己选择背叛(甲B),得1分。所以对于甲,在乙选择背叛的情况下,甲不后悔的均衡点是“背叛”(B)
对于乙来说,结果也是一样。
通过事后的“马后炮”分析,甲、乙双方都不后悔的“均衡点”都是背叛(Betray)
但是回过头来想一想,似乎哪里不对
为什么双方都不后悔的决定,最后的结果是“两败俱伤”?
明明从上帝视角来看,双方都合作才是最好的结果
这里“集体利益”与“个人利益”产生了明显的冲突
“理性”的人会陷入困境——囚徒的困境
那到底是因为什么,才会导致这种囚徒困境呢?
即,当“傻瓜回报”(0分)<“惩罚回报”(1分)<“奖励回报”(2分)<“引诱回报”(3分) 时就会出现囚徒困境
所以,如果一种博弈或者说一种选择
“互相合作(CC)”的共同利益还比“祈祷对方是个傻子”(BC或CB)时要低
这种情况下就会出现囚徒困境
(生活中,人都希望别人都是傻子,只有自己是聪明人)
这种情况下的唯一的“理性”结果,就是双方都受到惩罚(BB)
两败俱伤!
单次的囚徒困境有解吗?
目前没有,看上去永远也不会有
解决囚徒困境的唯一方法,就是避免囚徒困境
所以一个好的社会、好的公司、好的团体,就是要标榜道德、公司文化和价值观去促进合作(CC)
另一方面去立法、立规去惩罚背叛(BC、CB、BB)
否则,由理性带来的BB会对集体利益造成伤害
关于多次的囚徒困境
第二部分讲的理性结果是基于囚徒困境只进行一次的情况下
书中还提到了多次囚徒困境
即,由多人、多次进行囚徒困境的博弈
如何在个人利益和集体利益之间获得平衡?
当然,从上帝视角来看
“
CC的集体得分是(2+2=4分)
BC和CB的集体得分是(3+0=3分)
BB的集体得分是(1+1=2分)
”
无疑,如果双方一直合作CC下去,集体得分最高,个人得分也相对可以接受
但是第二部分双方均不后悔的“理性”结果告诉我们
只进行一次的囚徒困境博弈,互相背叛BB似乎是唯一解
但在多次博弈的背景下,采用什么策略才更加“理性”?
这里,书中提到了一种实验方法
先建立不同种的策略,每种策略用一段脚本表示
然后让所有的策略两两博弈,经过足够多的博弈后,看每种策略的得分:
这里选取了几个比较有特点的策略:
1、永远合作的好人派(ALL C)
2、永远背叛的理性派(ALL B)
3、神经兮兮的随机派 (Random)
4、一报还一报(TT)
注释:
一报还一报是指,如果对方本回合背叛,则自己则会在下一回合报复;如果对方本回合合作,则自己会在下一回合合作。
TT:书中把一报还一报称为“TIT FOR TAT”,我也不知道啥意思
囚徒困境的分值设置和上面一样:
1、甲乙都合作(CC),各得2分;
2、甲乙都背叛(BB),各得1分;
3、甲背叛,乙合作(BC),甲得3分,乙得0分
4、甲合作,乙背叛(CB),甲得0分,乙得3分;
然后让两两进行博弈测试,类似于下图:
因为书中提到的策略有很多种,有一些是基于上述几个策略的改良:
1、一报还两报:对方背叛一次,下两回合都会背叛,之后才恢复合作
2、两报还一报:对方连续背叛两次,下一回合才背叛,否则一直合作
3、90%一报还一报:对方背叛一次,下一回合90%几率会背叛,之后才恢复合作
.............
据说最长的一个策略,用代码语言表示,写了几百行
有兴趣的人,可以用python或JS把上面的策略都列出来,大家都捉对厮杀,看最后得分
书中直接给出了结论:
“一报还一报”策略在多人多次的囚徒困境中胜出,是最优策略
虽然ALL B的策略符合单次囚徒困境的理性结果,但是在多种策略的竞争下
因为背叛带来的系统性分值降低而在整体得分上输给了“一报还一报”
因为在很多回合的博弈中,ALL B策略一直在逼迫合作者背叛,最后的结果往往是怀揣善意想合作的人被迫背叛而两败俱伤
而ALL C策略则相反,一直在引诱对方背叛,最后往往被ALL B这种凶狠的策略所剥削,得分比ALL B还要惨
而一报还一报TT策略则相对有原则
“一报还一报”从不“剥削”任何策略,也不向任何凶恶的策略低头
这个策略没能打败任何人,但是它最终赢得了比赛
书中还提到了一个很“有趣”的现象——一报还一报策略之间博弈的回声现象
如表展示,如果两个TT策略中某一个进行中途叛变,之后双方仍然坚守自己“一报还一报”的策略,就会陷入一个互相背叛的过程,永不停止。
而互相背叛的平均得分则低于双方共赢时的平均得分。
这个回声现象给我的启示:两个互相信任且要强人,如果一方在合作中途丢了初心(选择背叛),那么双方将陷入无止尽的相互背叛当中,再难以回到双赢的局面
囚徒困境给我的震撼与启示
1、一切都是囚徒困境
第一次听到一个博弈的时候,我觉得就是一帮闲的蛋疼的逻辑怪想了个题来消遣,心里不断repeat一句话
“研究这个有什么用?能改善生活吗?”
后来这本书里的一句话让我醍醐灌顶
“只要有利益冲突的地方,就会有囚徒的困境”
而在利益纠缠的生活中
工作上一起合作做一件事,外卖来了谁去拿一下外卖,吃完饭了谁来买一下单
甚至恋爱阶段男女双方的相处
经常在新闻上看到两国关系的新闻,美国对俄罗斯在AAA方面进行制裁,第二天,俄罗斯对美国在BBB方面进行制裁。那时候觉得好幼稚,好无聊。现在想一想,这不就是“一报还一报”吗?
“一切都是囚徒困境”
而如果基于所谓
理性、不后悔的博弈选择
所有的结果都会是
背叛背叛背叛
也许并不是因为人品很差劲,而是陷入了这种困境
如果将“奖励性回报”提高,同时降低“引诱性回报”,将双方从困境中解救出来
(公司完善绩效考核机制、惩罚不作为的员工、拿外卖的人少付一份钱,不拿的人多付一份钱、吃完饭第一个买单的朋友可以和餐厅里漂亮小姐姐跳一支舞)
或许这样,合作、忠诚、友情、爱都将回归
2、我应当做一个什么样人?我应当如何教育我的子女?
一切都是囚徒困境
那么人与人之间的关系就是
一次性囚徒困境博弈与重复性囚徒困境博弈组合
每个人都有一个自己的策略,与社会上形形色色的人进行博弈
每个人在每次博弈之后的总分,就是代表自己的生活质量与地位
遇到不顺心的背叛者(ALL B)或者其他侵略性较强的人
我们可能会选择“背叛”来保证自己的单次利益
或者在社会的逼迫或者所谓良心的谴责下选择“合作”而得到“傻子回报(0分)”
为了得到更多的分数,以后只会与这种人进行少量甚至只有一次的接触(单次囚徒困境博弈)
如果与一个一生只会见一面,做一次囚徒困境博弈的人进行博弈,最好还是选择背叛
但是很多情况下,我们被迫与一些人不得不进行多次博弈:
同一部门的员工,自己的亲人,自己的同学朋友
有些亲密关系(父母、兄弟)带来强烈的信任感,我们可以选择永远合作(ALL C)来保证得分最大化
有些缺乏信任感但又不得不进行多次博弈,那我们该怎么办?
“一报还一报”的策略是所有重复囚徒困境博弈的最优解
所以,我应该做一个“一报还一报”的人,用人的语言来讲:
我应当以合作为先,去拥抱世界,但是要爱憎分明,睚眦必报!
爱憎分明是为了让自己的行为具有“可预测性”,让ALL C的人放心大胆合作,也让心里有着“背叛”念想的人知道背叛的后果将是下一回合毫无余地的报复
睚眦必报并不是没有胸怀,胸怀是在你背叛后再次来合作,我仍然以合作的态度与你进行更下一个回合的博弈。
不翻旧账,但是旧账必须要算完
我爸爸妈妈从小都是老实人,爷爷奶奶外公外婆都是辛勤劳作的农民
中华民族优良的传统品质流淌在他们的血液里
他们教育我,要相信他人的好,原谅他人的错,得饶人处且饶人
其实就是告诉我,要做一个(ALL C)策略的人
但是在这个处处都是囚徒困境博弈的社会上
ALL C的唯一结局只能是被凶狠的背叛为主的策略们无情剥削、欺骗
以前,我一直都很迷茫,到底是听妈妈的话,做一个温和、善良的老实人
还是彻底堕入囚徒的“理性”圈套,做一个ALL B?
这里我终于找到了支持“一报还一报(TT)”世界观为最优解的理论数学基础!
以后我也会教育我的子女,一定要做一个一报还一报(TT)的人
不因为别的,而是让信任你的人更信任,让背叛你的人不好过,让有背叛之心的人知道下场!
3、我应当多和什么样的人在一起?
试想一下这个重复囚徒困境实验:
“
在一个“ALL C”的策略池中,放入几个“ALL B”,然后每轮博弈的后得分最低的几位被淘汰,很显然,ALL C 的策略们在与自己交手时会得到奖励回报(2分),而在与ALL B策略交手时会得到傻瓜回报(0分),对方得到引诱回报(3分)。如果所有的策略可以像细菌一样进行自我繁殖,这个ALL C的群落就会慢慢被ALL B策略所取代。但是整个群落最后会从互相合作的高得分群落(2+2)变成一个互相背叛的低得分群落(1+1),灭绝的原因就是引来了几个凶狠ALL B。
”
任何高尚群体都要远离以背叛、剥削为主的个体,因为一两个就会彻底腐化整个系统
另一个实验:
“
在一个“ALL B”的策略池中,放入几个“ALL C”,不用过多分析,在规定必须与所有群落成员进行博弈得分的条件下,几个ALL C分分钟被淘汰
”
ALL C进入到不明的凶狠群体,如果不能学会抱团取暖,就永远是别人眼中的肉
第三个实验:
“
在一个“ALL B”的策略池中,放入几个“TT(一报还一报)”,TT与ALL B博弈时,TT在第一轮遭受背叛后的行为与ALL B保持一致;TT与TT自己博弈时,行为则与ALL C保持一致;所以每轮,ALL B成员每次博弈的平均得分为1分,而TT成员每次博弈的平均得分将高于1分;最终,TT将在ALL B的群落中胜出!
”
即使在恶劣、充满背叛的ALL B环境中,一报还一报者(TT)在面对ALL B时保持凶狠,在面对自己人时抱团取暖。即使一开始人数占比在整个群落中很低,但是只要保持初心,守住原则,最终还是会胜出。
这里TT与ALL B对阵时,行为与ALL B无异。这个现象让我想到一个现象,很多人的策略一开始是好的,但是在恶劣的环境中为了保护自己,只能也变得凶狠,有些人直接就忘记了自己是TT,彻底沦落成了ALL B那种Loser,最终只能被淘汰。
所以,我应当多和什么人在一起?
在无情的社会中,有太多凶狠的掠夺者,他们有时候一下子攫取了很多利益(3分),但是他们不是这个自然界最终的胜者。作为一个一报还一报TT者,只要守住初心和原则,不和ALL B们同流合污。找到自己的战友们TT,未来始终是我们的。
4、其他的一些碎碎念与呢喃
社会的问题很复杂,很多事情不是简单的囚徒困境就能解释的,毕竟囚徒困境只有合作和背叛两种选择,但是我相信爱憎分明、守住初心的世界观是正确的,世界不会是ALL B的世界,将会是TT的美好明天。
上文提到过,恋爱中男女的关系似乎也是某种囚徒困境
是,也不是
TT的策略在这里似乎很不适用了
因为一报还一报策略中,突发状况造成的回声效应(上文有提过)会让双方进行轮流的背叛与合作
而降低最终的整体得分
也许在之后的某一次博弈中
一方认为ta处在多次重复性博弈中
而另一方则认为这一次其实是最后一次博弈了
书中有一句话
如果你所爱的那个人不愿意做出牺牲,那么你最好成全她,记住,你是真心爱着那个人的。
是的吧
给对方引诱性回报的3分
总比为了惩罚性回报的1分而最终闹的不可开交要好吧
I love you,so I choose ALL C for you,though you still leave me in the end.