“己所不欲，勿施于人”的博弈论解析

子贡问曰：“有一言而可以终身行之者乎？"子曰．“其恕乎！己所不欲，勿施于人。”

端木赐（子贡）有一天跑去问师傅：“孔老师，你讲了那么多大道理，可不可以用一个字总结一下，让我们一生都可以奉行呢？”

孔子想了一想，“嗯，那就是‘恕’。”

子贡不解，孔子解释说，“意思就是：己所不欲，勿施于人。”

“恕”字很简单，就是字面的意思：宽恕。“己所不欲，勿施于人”也就是你理解的那个意思。关于这句话，有人可能花一辈子去研究，对照上下文、前后语，然后再与其他文明里智者们类似的说辞相互印证等等。

在此，我感兴趣的倒不是儒家的道德观，而是如何引入当代的科学方法去证实这句话。当代科学的强大之处就在于，去验证或证伪我们日用而不知的伦理道德或生活俗语。例如，“男人不坏女人不爱”这句话具不具备演化生物学所说的适应性，“多行不义必自毙”是否具备统计学相关性，诸如此类。

有人觉得，这些谚语、俗语都是古人们的经验总结，这样研究看起来并没有什么卵用，然而实际上，诸多谚语、俗语相互冲突，我们只是各随自身喜好与情景，取之不疑，这并不是科学的态度。

“己所不欲，勿施于人”这句话，我们放在《论语》中，放在道德观念里有一种解法，如果放在博弈论里，也能是一种理解的新姿势。那么《论语》可能就不再仅仅是一部道德箴言集，而是一部可加以证明或证伪的经验总结。

现在，我们就把这句话看作成是一个行动策略，代入到博弈论中，我们来分析这种策略的可行性，以及是否值得一生奉行。

囚徒困境

提起博弈论，最为人熟知的就是“囚徒困境”，说的是两名囚徒被分别关押审讯，若甲招供乙不招则甲就会被释放，甲不招乙招甲就得获刑10年，两人都招都获刑5年，两人都不招就同服刑半年。

囚徒困境的标准矩阵，图片来自网络

每个囚徒为了自身少获刑，都会选择招供，因此最后都得到5年的刑罚，但这却不是最优的结果，最优的结果是两人都不招。但是两人都无法确保自己不招对方招供，因此才是一种“困境”。

两名囚徒每个人可以选择的策略分别是：合作（不招供）和背叛（招供）。一旦这个博弈进入到第二轮、第三轮、乃至无限重复下去，那么原本的“困境”就可能得到解决，两人更会倾向于选择合作而不是背叛。得到解决的重要一环就是，初次选择“合作”也就是不招供的那个，如果得到了另一个的“背叛”也就是招供，那么出狱后被“背叛”的这个人就可能会选择报复手段对其进行惩罚，而以后也不会再与这名“背叛者”进行合作。

因此，知道被“背叛”后会得到报复，在初次选择时，对方很可能就不选择“背叛”，而是“合作”了，重复性的博弈就这样能够解决“囚徒困境”。

而实际生活中，人与人之间的交往更像是能够多次重复的博弈。如何证明选择不同策略的人能够在多次重复的机会下取胜？当然不可能去一一观察人际交往，或是囚徒之间的真实博弈。一来耗时费力，二来观察有可能受到人为影响。

四行代码

但这难不倒研究者们，他们想到了可以使用程序来进行模拟。时值1970年代末期，苹果公司刚推出第一台电脑的时候，罗伯特·艾克斯罗德（Robert Axelrod）就邀请众多科学家发起一场挑战赛，全世界参与比赛的总共有15个计算机程序，比赛200轮，看看那种策略能够取得最高分。

参与比赛的程序有的设置成“总是背叛”，有的是“总是合作”，也有“一牙还两牙”（对方背叛两次才会选择背叛），还有“唐宁式”的（对方不反应就背叛，对方反应的话就合作），以及“弗里德曼式”的（不先背叛，一旦对方背叛永远背叛）等等。

最后取胜的并不是多么复杂、命令行数最多的程序，而是一个只有4行BASIC命令的简单程序，这种程序的思路很好理解：第一步采用合作，第二步之后采用对手上一步中采取的策略。这个简单的程序被称为“以牙还牙”或“一报还一报”（tit for tat）。

在后来举办的第二轮比赛中，有63个程序参赛，而且每个参与者都已经知道了在第一次比赛中的获胜方，第一次获胜的“以牙还牙”程序一字未动又参加了比赛，结果还是大获全胜。以此，艾克斯罗德写作了其著名的《合作的进化》一书，而“以牙还牙”也成了“囚徒困境”的经典解。

《合作的进化英文版封面

老好人与大坏蛋

把这些比赛的程序应用到现实世界，我们能从这些程序中找到一一对应的关系，“总是合作”就是老好人，“总是背叛”的就是大坏蛋，不先背叛一旦被人背叛就永远背叛的更像是“反社会人格”的人，两次背叛才会选择背叛的是我们一般的普通人，而唐宁式的对方不反应就背叛，对方反应的话就合作的不妨称之为“投机分子”，还有诸多采用其他手段的是那种爱耍小聪明的人。采用以牙还牙策略的，我们不妨称之为正直的人。

在人与人相处中，老好人总会受到各种投机分子和爱耍小聪明人的剥削，利用其总是合作的态度来榨取老好人的财富、名誉和热心。而总是背叛的大坏蛋，在社会机制不健全，特别是人员流动比较频繁的城市、大部分时候是一次性交往的过程中，总是占尽便宜。

采用以牙还牙策略的正直人，可以规避各种投机分子、小聪明人士和大坏蛋们的盘剥，因为只要发现对方是这样的人，毫不客气地采取报复和惩罚措施，就能将损失降到最小。而且对于有过不良记录的人，只要存心改过，采取合作态度，正直的人是可以谅解并继续与之合作。

艾克斯罗德评价“以牙还牙”或“一报还一报”时这样说到：

一报还一报＂的成功是由于它的善良性、可激怒性、宽容性和清晰性。它的善良性意味着它决不首先背叛，这个特性防止它陷入不必要的麻烦，它的可激怒性使对方一旦尝试背叛后就不敢坚持，它的宽容性有助于恢复双方合作，它的清晰性使得它的行为方式容易被辨识，一旦被识别，就容易看出与“一报还一报”相处的最好方式就是与它合作。
——摘自: 罗伯特·阿克塞尔罗德《合作的进化》

宽容的策略

然而，“以牙还牙”策略也会遇到问题，如果对方并非有意地背叛，或许只是手抖了一下，或者只是自己的误解，那么你的报复会得到对方的反击，最后陷入类似于家族血仇一样的无尽循环之中去，正所谓“冤冤相报何时了”。

《超级合作者》一书的作者马丁·诺瓦克和其合作者研究发现，如果考虑到失误、疏忽或是犹豫等因素考虑在内，最终胜出的并非是“以牙还牙”策略，而是另一种采取更加宽容的策略，这种策略永远以合作回报合作，但遇到三次背叛之后，就可能采取惩罚或背叛措施了，但对方并不知道什么时候采取宽容，什么时候惩罚，因此诺瓦克称之为“宽宏的以牙还牙”，简单解释为：“永远不会忘记对方的好意，但会偶尔谅解对方的恶行。”

《超级合作者》封面

这种策略使用我们日常俗语说就是“有再一再二，没有再三再四”，但再三再四的时候，我可以选择惩罚也可能选择谅解。在诺瓦克的模拟中，“宽宏的以牙还牙”很容易取代了“以牙还牙”，最终导致全体玩家转向合作，诺瓦克说：

“原因就在于，当每一个人都试图表现出友善的时候，宽容与谅解就会得到优厚的回报。”
——摘自: 马丁·诺瓦克《超级合作者》

但一些突变会出现，背叛者们又可能重回战场，发展壮大，群体中合作者数量减少，然后又能够最终抵抗住背叛者的盘剥，合作者再次处于优势地位。诺瓦克称之为历史的轮回：

“无数事实告诉我们，人类历史也不乏这样的轮回：朝代不断更替；帝国兴衰更迭；公司崛起、占领市场之后，又在强大而富有创新精神的竞争对手面前土崩瓦解。”——出处同上

总结

最后，我们回到孔子的道德观念上，与人为善就是不首先选择背叛，而“恕”就是能够在对方无意或有意的背叛一次之后，选择宽恕对方，这就是“已所不欲，勿施于人”的博弈论解法。我们可以做一个正直的“以牙还牙”的人，但也可以做到“宽宏的以牙还牙”，“恕”就是更加宽容的解决方式，也是可以“终身行之”的道德。

但，永远别做一个不会惩罚背叛者的老好人。

关于合作以及与人相处，阿克塞尔罗德提出了几句箴言：“不要嫉妒，不要首先背叛，对合作和背叛都要给以回报，不要耍小聪明”。此博弈论解法与孔子的道德观念异曲同工，以前背论语只需要记住就行了，却没人告诉你科学道理，如果告诉你了分析过程，是不是更容易地理解呢。

“己所不欲，勿施于人”的博弈论解析

囚徒困境

四行代码

老好人与大坏蛋

宽容的策略

总结

你可能感兴趣的:(“己所不欲，勿施于人”的博弈论解析)