2018-11-12 囚徒困境

博弈论中最经典的案例,是“好的不均衡,坏的却稳定”的囚徒困境,可以通过提高合作报酬和背叛惩罚,破解这个问题。


1950年,美国数学家阿尔伯特.塔克为了向一群心理学家解释博弈论,编了一个“囚徒困境”的故事。

两名囚徒a和b被隔离审讯,如果两人彼此背叛都坦白罪行,会被判刑8年。但如果一个人坦白,一个人不坦白,坦白的人直接释放,不坦白的人重判15年。如果两人合作都不坦白呢?因为证据不足,只判一年。

囚徒应该怎么做,显然都不坦白是最优策略,两人判得最轻。

但学过纳什均衡就会明白,都不坦白是经不起考验的最优策略:如果一方选择坦白,将立刻获释,诱惑太大,而且就算守口如瓶,万一对方背叛了呢,被判15年,风险太高,在利益的驱使下都不坦白,不是稳定的纳什均衡。

都坦白呢,那两人都会获刑8年,这时如果一名囚徒决定守口如瓶,他的8年刑期将变成15年刑期,而另一人则被释放,这一点儿好处都没有,两名囚徒如果是理性的,都不会这么干。都坦白是囚徒困境中唯一稳定的纳什均衡。

“好的不均衡,坏的却稳定”的囚徒困境,是博弈论中最经典的案例。


一个典型的囚徒困境,用数学的语言表述,其实就是满足两个条件的博弈。

第一,背叛诱惑>合作报酬。

第二,受骗支付>背叛惩罚。

这就是囚徒困境的数学原理,理解了这两点,破解方法也就显而易见,让“合作报酬>背叛诱惑,背叛惩罚>受骗支付”。

提高合作报酬,降低背叛诱惑,把都“不坦白”变成新的纳什均衡,提高背叛惩罚,降低受骗支付,打破”都坦白”这个原有的纳什均衡。

你可能感兴趣的:(2018-11-12 囚徒困境)