囚徒困境：善良终归是好的

囚徒困境的故事，恐怕大家都知道。

囚徒困境

两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯，警察告诉ta们：

如果两人都沉默，关24小时后，都无罪释放

如果两人都揭发对方，各判3年

如果一个揭发对方，另一个沉默，揭发的释放，沉默的判5年

此时，每个囚徒都面临两种选择：沉默或揭发。

然而，不管同伙选择什么，自己选择揭发对方，似乎都是更优的策略：

如果同伙选择“揭发”：自己选揭发则判3年，自己选沉默则判5年

如果同伙选择“沉默”：自己选揭发则立刻释放，自己选沉默则关24小时后释放

最终的结果，两个嫌疑犯都选择揭发，各判3年。

在囚徒困境中，如果两人选择合作，即两人都沉默，显然是最好的结果。但由于大家都优先考虑自己的最优选择，导致了最终整体选择并不是最好的。

囚徒困境所反映出的问题是：

有时候，个人利益的最大化并不能保证集体利益的最大化

有时候，在合作对双方都有利时，合作也可能是困难的

艾克斯罗德博弈论实验，恐怕就不是所有人都知道了。

囚徒困境是一次性的博弈实验，如果增加博弈的次数，让每个参与者都有机会去“惩罚”对方前一个回合的行为，此时每个参与者的决策可能会发生变化。

艾克斯罗德组织了一场竞赛，参赛的人都扮演“囚徒困境”案例中一个囚犯的角色，然后随机的与其他人进行囚徒困境博弈，每次博弈完毕后会获得一定的分数，并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况。

如果是一次性博弈，不管对方选择沉默还是揭发，自己选择揭发都是最优的，都将赢得相对高的分数。

但由于这不是一次性博弈，如果每次都选择沉默来合作，双方都将获得更高的分数。而且，每个人都能够看到对方历史的博弈情况，对于“揭发”型的对手，则很难被信任，ta们很难再加到高分。

实验的最终结果，采取什么策略会赢得最高的分数呢？

一报还一报（TIT FOR TAT），这是多伦多大学心理学家阿纳托拉帕波特提交上来的最佳策略：

（1）它总是以合作开局；

（2）开局之后，总采取以其人之道还治其人之身的策略；

这个策略的特点是：

（1）善意，永远不先背叛对方；

（2）强硬，采取背叛的行动来惩罚背叛的人；

（3）简单，对手对自己的合作策略一目了然；

人的一生中会有非常多次的选择，有时候吃亏，有时候占了便宜。善意的决策可能吃亏，又或者恶意的背叛可能占便宜，但所有的过往，都会成为别人今后和你合作时进行决策的依据。

所有人都是聪明人，你自以为占了便宜的“小聪明”，其实都被别人看在眼里。

人生很长，善良的人，将成为最终的赢家。