何思源原创
“囚徒困境”的意义在于,它时刻提示我们:单从利己目的出发,结果也可能是损人+不利己。
之所以囚徒困境广为流传,是因为它是万千社会现实的倒影。这里有交通拥堵、贸易摩擦、军备竞赛、环境污染......还有我们自己。正如私家车主虽然抱怨堵车,但极少有人愿意骑自行车上班。
昨天文章中我们提到了几个关于博弈论的常见误解。本文将继续分享思源十一期间的博弈论学习笔记,欢迎你来讨论。免费学习渠道在文末分享给你。
【 1 】通证与博弈:理性换位思考
我昨天看到 @黄世辉 在文章中提到:
(做通证设计)要懂点人性,熟悉用户。最好是能完全理解羊毛党的。要不然你会绝对低估激励之下人性的可怕。很多时候你会非常难理解,怎么会为了这么点利益,付出那么复杂的行为。这种事情只有亲自体会,然后多和用户、多和羊毛党交流,才会有更深刻的认识。
这个坑,我觉得可能是最大坑之一,因为是隐性的。如果不熟悉生态,不熟悉用户,很容易想当然,从“正义”“正确”出发,然后往往偏离预期。
作为一个在通证内容平台有体验的用户,结合黄世辉的感触(值得你看,点击直达),你会更容易理解博弈论的精髓:理性换位思考。
在考虑自己的损益时,需要理性分析他人的损益,推测他人的行动,从而做出选择。考虑集体损益同理。
在这个过程中,我们固然要维护“正义”“正确”“道德”,但也有必要看到,如果没有合理的制度保障,以上因素的约束力度真的很小。
思源去年自己运营DAO组织最终失败,一度很不理解为什么素质非常不错的成员,也能做出种种让人遗憾的行为,后来冷静下来觉得问题在于自己,没能适时做好制度引导。
橘生淮南则为橘,生于淮北则为枳。我们推动进展要从人性出发,从制度出发,而非理想化地依靠道德。尤其是当我们遭遇常见的社会两难问题——“囚徒困境”时。
【 2 】用什么打破“囚徒困境”?
相信你对经典的囚徒困境案例非常熟悉。
尽管符合团体最大利益的“合作均衡策略”显然是双方不认罪,获得最小惩罚,但罪犯基于个人利益,更倾向于出卖对方而获得自身利益最大化,共同选择(认罪,认罪)的策略集合,双双陷入被动,反而延长了服刑时间。
“囚徒困境”的深刻意义在于,它时刻提示我们:单从利己目的出发,结果也可能是损人+不利己。
它挑战亚当·斯密的“看不见的手”,甩给我们实实在在的现实:
1.“看不见的手”很有力,但并非万能;
2. 个体理性、集体理性的冲突客观存在。从个体利益出发的行为,未必能够实现团体的最大利益。
当保证个人利益最大化的占优策略,与保证团体利益最大化的合作均衡,出现不可调和的矛盾时,我们就遭遇了“社会两难现象”。
难道真的没有办法破解吗?我们先来看一个极端的案例。
【 3 】如果囚徒困境发生在黑手党.....
在“囚徒困境”中,假如我们加入一个制度干预因素,情况就会发生变化:
如果罪犯A、B都是黑手党成员,在被逮捕前约定共同选择“不认罪”,同时黑手党组织制度森严,一贯严惩和警方合作的罪犯。
如果谁违反约定,将会被黑手党处死。如果双方遵守规则,每个人只需要坐1年牢。
这种来自外部的干预相当于给选择的天平增加了砝码,推动A和B在衡量自身利益时都能切实履行约定,用制度干预的手段解决了“社会两难博弈”。
干预奏效的本质,仍然基于A与B自利的本性,只是用制度将他们的利益与集体利益协调一致。
【 4 】赏罚足够有力,才能改变偷懒的人
黑手党的制度过于极端,在现实生活中,这样的案例也存在。
假设两个合作者共同完成一项工作。每个人都有两种策略选择:努力or偷懒。
甲努力时,乙努力获益10,乙偷懒获益15,偷懒>努力;甲偷懒时,乙努力获益2,乙偷懒获益5,偷懒>努力;两种情况下乙选择偷懒对自身更有利,甲同理。
这种情况和经典的囚徒困境场景非常接近。通过比较表格中的收益情况,你很自然就会发现,符合个体利益最大化的占优策略均衡仍然是(偷懒,偷懒),即双方都选择磨洋工。
这就是为什么在大锅饭工作环境中,常常有人“搭便车”。
要改变这种困境,我们仍然可以考虑制度干预的手段——引入奖励措施 [注:也可以是惩戒,因为奖励更直观,加法更好算,惩戒略去不展开]。
当我们为努力者叠加了8分的奖励收益之后,(努力,努力)这一个策略组合给每个人带来的个人收益超过了(偷懒,偷懒),与团体利益最大化的合作解终于趋于一致。
如果你仔细观察,就会发现其中的端倪:奖励力度。
奖惩必须达到一定力度,才能使占优策略均衡(个人收益最大化)与合作解(团队收益最大化)两相一致。否则,“社会两难现象”仍然会发生。
反观我们目前很多机制设计的缺陷就在于,对正向行为的激励还远远不够。比如思源熟悉的医疗体制,就有不少极为典型又一言难尽的案例。这或许是我能被比特币设计吸引的原因......
【 5 】 赏罚案例:比特币机制设计
想到这里,我们不得不感叹一下比特币的博弈机制设计——不仅体现了理性换位思考的观念,也很好地利用奖惩机制,达成了自利即利整体的设计。
尽管比特币的去中心化网络不会强制矿工在哪边挖矿,但对于矿工来说,在最长链上挖矿成功,能够得到BTC奖励和相应的手续费。
而一旦不守规则,会出现以下后果:
1、 负收益:计算不会被验证,没有BTC奖励,浪费电费、算力;
2、 攻击成本:发起攻击需51%的算力篡改当前最长链,要投入大量矿机、电力及矿场建设成本;
3、 共识弱化:即使攻击成功,社区也可能在新链上不承认双花交易,旧链随共识转移会逐渐被弱化,价值降低。
所以,比特币挖矿的机制设计,保证了矿工出于自利考虑,不会轻易做出攻击的选择。可以说,恰恰是人性与制度设计,让互不信任的矿工选出了符合整体利益的最佳决策。
【 6 】总结:“看不见的手”并不万能
长期用爱发电,靠自觉维护行为准则的人,我们身边也有不少。但我们何苦要让他们的行为堤岸饱受现实浪涛的拍打呢?
希望对“囚徒困境”的讨论能够时时启发我们,激励我们更多思考合理的机制设计:
1. 虽然“看不见的手”很有力,但绝非万能,个体理性与集体理性可能存在冲突;
2. 单从利己目的出发,结果也可能是损人+不利己;
3. 外部干预能够解决“社会两难”博弈,但需要足够的赏罚力度,才能引导人性。
小思考:你在生活中遇到过哪些优良的制度设计吗?欢迎留言在评论区。
资源分享:
浙江大学蒋文华老师的《博弈论基础》是中国大学MOOC网站上的免费课,适合零基础参与者, 开课时间: 2019年09月16日 ~ 2019年11月18日,点击领取。
参考内容:
1.《用博弈的思维看世界》,蒋文华,浙江大学出版社;
2.《博弈论基础》,蒋文华,浙江大学出品,中国大学MOOC;
3.《区块链中的激励设计》,HashBang,喜马拉雅;
4. 《博弈论》,首都师范大学出品,中国大学MOOC。
文末致谢:
特别感谢 @WithMoney @行走对昨天文章的提示和指正。
相关文章:《森林里撞见熊,假如同伴跑得比你快,你该怎么办?》