囚徒困境:善良终归是好的

囚徒困境的故事,恐怕大家都知道。


囚徒困境

两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯,警察告诉ta们:

如果两人都沉默,关24小时后,都无罪释放

如果两人都揭发对方,各判3年

如果一个揭发对方,另一个沉默,揭发的释放,沉默的判5年

此时,每个囚徒都面临两种选择:沉默或揭发。

然而,不管同伙选择什么,自己选择揭发对方,似乎都是更优的策略:

如果同伙选择“揭发”:自己选揭发则判3年,自己选沉默则判5年

如果同伙选择“沉默”:自己选揭发则立刻释放,自己选沉默则关24小时后释放

最终的结果,两个嫌疑犯都选择揭发,各判3年。

在囚徒困境中,如果两人选择合作,即两人都沉默,显然是最好的结果。但由于大家都优先考虑自己的最优选择,导致了最终整体选择并不是最好的。

囚徒困境所反映出的问题是:

有时候,个人利益的最大化并不能保证集体利益的最大化

有时候,在合作对双方都有利时,合作也可能是困难的

艾克斯罗德博弈论实验,恐怕就不是所有人都知道了。

囚徒困境是一次性的博弈实验,如果增加博弈的次数,让每个参与者都有机会去“惩罚”对方前一个回合的行为,此时每个参与者的决策可能会发生变化。

艾克斯罗德组织了一场竞赛,参赛的人都扮演“囚徒困境”案例中一个囚犯的角色,然后随机的与其他人进行囚徒困境博弈,每次博弈完毕后会获得一定的分数,并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况。

如果是一次性博弈,不管对方选择沉默还是揭发,自己选择揭发都是最优的,都将赢得相对高的分数。

但由于这不是一次性博弈,如果每次都选择沉默来合作,双方都将获得更高的分数。而且,每个人都能够看到对方历史的博弈情况,对于“揭发”型的对手,则很难被信任,ta们很难再加到高分。

实验的最终结果,采取什么策略会赢得最高的分数呢?

一报还一报(TIT FOR TAT),这是多伦多大学心理学家阿纳托拉帕波特提交上来的最佳策略:

(1)它总是以合作开局;

(2)开局之后,总采取以其人之道还治其人之身的策略;

这个策略的特点是:

(1)善意,永远不先背叛对方;

(2)强硬,采取背叛的行动来惩罚背叛的人;

(3)简单,对手对自己的合作策略一目了然;

人的一生中会有非常多次的选择,有时候吃亏,有时候占了便宜。善意的决策可能吃亏,又或者恶意的背叛可能占便宜,但所有的过往,都会成为别人今后和你合作时进行决策的依据。

所有人都是聪明人,你自以为占了便宜的“小聪明”,其实都被别人看在眼里。

人生很长,善良的人,将成为最终的赢家。

你可能感兴趣的:(囚徒困境:善良终归是好的)