子贡问曰:“有一言而可以终身行之者乎?"子曰.“其恕乎!己所不欲,勿施于人。”
端木赐(子贡)有一天跑去问师傅:“孔老师,你讲了那么多大道理,可不可以用一个字总结一下,让我们一生都可以奉行呢?”
孔子想了一想,“嗯,那就是‘恕’。”
子贡不解,孔子解释说,“意思就是:己所不欲,勿施于人。”
“恕”字很简单,就是字面的意思:宽恕。“己所不欲,勿施于人”也就是你理解的那个意思。关于这句话,有人可能花一辈子去研究,对照上下文、前后语,然后再与其他文明里智者们类似的说辞相互印证等等。
在此,我感兴趣的倒不是儒家的道德观,而是如何引入当代的科学方法去证实这句话。当代科学的强大之处就在于,去验证或证伪我们日用而不知的伦理道德或生活俗语。例如,“男人不坏女人不爱”这句话具不具备演化生物学所说的适应性,“多行不义必自毙”是否具备统计学相关性,诸如此类。
有人觉得,这些谚语、俗语都是古人们的经验总结,这样研究看起来并没有什么卵用,然而实际上,诸多谚语、俗语相互冲突,我们只是各随自身喜好与情景,取之不疑,这并不是科学的态度。
“己所不欲,勿施于人”这句话,我们放在《论语》中,放在道德观念里有一种解法,如果放在博弈论里,也能是一种理解的新姿势。那么《论语》可能就不再仅仅是一部道德箴言集,而是一部可加以证明或证伪的经验总结。
现在,我们就把这句话看作成是一个行动策略,代入到博弈论中,我们来分析这种策略的可行性,以及是否值得一生奉行。
囚徒困境
提起博弈论,最为人熟知的就是“囚徒困境”,说的是两名囚徒被分别关押审讯,若甲招供乙不招则甲就会被释放,甲不招乙招甲就得获刑10年,两人都招都获刑5年,两人都不招就同服刑半年。
每个囚徒为了自身少获刑,都会选择招供,因此最后都得到5年的刑罚,但这却不是最优的结果,最优的结果是两人都不招。但是两人都无法确保自己不招对方招供,因此才是一种“困境”。
两名囚徒每个人可以选择的策略分别是:合作(不招供)和背叛(招供)。一旦这个博弈进入到第二轮、第三轮、乃至无限重复下去,那么原本的“困境”就可能得到解决,两人更会倾向于选择合作而不是背叛。得到解决的重要一环就是,初次选择“合作”也就是不招供的那个,如果得到了另一个的“背叛”也就是招供,那么出狱后被“背叛”的这个人就可能会选择报复手段对其进行惩罚,而以后也不会再与这名“背叛者”进行合作。
因此,知道被“背叛”后会得到报复,在初次选择时,对方很可能就不选择“背叛”,而是“合作”了,重复性的博弈就这样能够解决“囚徒困境”。
而实际生活中,人与人之间的交往更像是能够多次重复的博弈。如何证明选择不同策略的人能够在多次重复的机会下取胜?当然不可能去一一观察人际交往,或是囚徒之间的真实博弈。一来耗时费力,二来观察有可能受到人为影响。
四行代码
但这难不倒研究者们,他们想到了可以使用程序来进行模拟。时值1970年代末期,苹果公司刚推出第一台电脑的时候,罗伯特·艾克斯罗德(Robert Axelrod)就邀请众多科学家发起一场挑战赛,全世界参与比赛的总共有15个计算机程序,比赛200轮,看看那种策略能够取得最高分。
参与比赛的程序有的设置成“总是背叛”,有的是“总是合作”,也有“一牙还两牙”(对方背叛两次才会选择背叛),还有“唐宁式”的(对方不反应就背叛,对方反应的话就合作),以及“弗里德曼式”的(不先背叛,一旦对方背叛永远背叛)等等。
最后取胜的并不是多么复杂、命令行数最多的程序,而是一个只有4行BASIC命令的简单程序,这种程序的思路很好理解:第一步采用合作,第二步之后采用对手上一步中采取的策略。这个简单的程序被称为“以牙还牙”或“一报还一报”(tit for tat)。
在后来举办的第二轮比赛中,有63个程序参赛,而且每个参与者都已经知道了在第一次比赛中的获胜方,第一次获胜的“以牙还牙”程序一字未动又参加了比赛,结果还是大获全胜。以此,艾克斯罗德写作了其著名的《合作的进化》一书,而“以牙还牙”也成了“囚徒困境”的经典解。
老好人与大坏蛋
把这些比赛的程序应用到现实世界,我们能从这些程序中找到一一对应的关系,“总是合作”就是老好人,“总是背叛”的就是大坏蛋,不先背叛一旦被人背叛就永远背叛的更像是“反社会人格”的人,两次背叛才会选择背叛的是我们一般的普通人,而唐宁式的对方不反应就背叛,对方反应的话就合作的不妨称之为“投机分子”,还有诸多采用其他手段的是那种爱耍小聪明的人。采用以牙还牙策略的,我们不妨称之为正直的人。
在人与人相处中,老好人总会受到各种投机分子和爱耍小聪明人的剥削,利用其总是合作的态度来榨取老好人的财富、名誉和热心。而总是背叛的大坏蛋,在社会机制不健全,特别是人员流动比较频繁的城市、大部分时候是一次性交往的过程中,总是占尽便宜。
采用以牙还牙策略的正直人,可以规避各种投机分子、小聪明人士和大坏蛋们的盘剥,因为只要发现对方是这样的人,毫不客气地采取报复和惩罚措施,就能将损失降到最小。而且对于有过不良记录的人,只要存心改过,采取合作态度,正直的人是可以谅解并继续与之合作。
艾克斯罗德评价“以牙还牙”或“一报还一报”时这样说到:
一报还一报"的成功是由于它的善良性、可激怒性、宽容性和清晰性。它的善良性意味着它决不首先背叛,这个特性防止它陷入不必要的麻烦,它的可激怒性使对方一旦尝试背叛后就不敢坚持,它的宽容性有助于恢复双方合作,它的清晰性使得它的行为方式容易被辨识,一旦被识别,就容易看出与“一报还一报”相处的最好方式就是与它合作。
——摘自: 罗伯特·阿克塞尔罗德《合作的进化》
宽容的策略
然而,“以牙还牙”策略也会遇到问题,如果对方并非有意地背叛,或许只是手抖了一下,或者只是自己的误解,那么你的报复会得到对方的反击,最后陷入类似于家族血仇一样的无尽循环之中去,正所谓“冤冤相报何时了”。
《超级合作者》一书的作者马丁·诺瓦克和其合作者研究发现,如果考虑到失误、疏忽或是犹豫等因素考虑在内,最终胜出的并非是“以牙还牙”策略,而是另一种采取更加宽容的策略,这种策略永远以合作回报合作,但遇到三次背叛之后,就可能采取惩罚或背叛措施了,但对方并不知道什么时候采取宽容,什么时候惩罚,因此诺瓦克称之为“宽宏的以牙还牙”,简单解释为:“永远不会忘记对方的好意,但会偶尔谅解对方的恶行。”
这种策略使用我们日常俗语说就是“有再一再二,没有再三再四”,但再三再四的时候,我可以选择惩罚也可能选择谅解。在诺瓦克的模拟中,“宽宏的以牙还牙”很容易取代了“以牙还牙”,最终导致全体玩家转向合作,诺瓦克说:
“原因就在于,当每一个人都试图表现出友善的时候,宽容与谅解就会得到优厚的回报。”
——摘自: 马丁·诺瓦克《超级合作者》
但一些突变会出现,背叛者们又可能重回战场,发展壮大,群体中合作者数量减少,然后又能够最终抵抗住背叛者的盘剥,合作者再次处于优势地位。诺瓦克称之为历史的轮回:
“无数事实告诉我们,人类历史也不乏这样的轮回:朝代不断更替;帝国兴衰更迭;公司崛起、占领市场之后,又在强大而富有创新精神的竞争对手面前土崩瓦解。”——出处同上
总结
最后,我们回到孔子的道德观念上,与人为善就是不首先选择背叛,而“恕”就是能够在对方无意或有意的背叛一次之后,选择宽恕对方,这就是“已所不欲,勿施于人”的博弈论解法。我们可以做一个正直的“以牙还牙”的人,但也可以做到“宽宏的以牙还牙”,“恕”就是更加宽容的解决方式,也是可以“终身行之”的道德。
但,永远别做一个不会惩罚背叛者的老好人。
关于合作以及与人相处,阿克塞尔罗德提出了几句箴言:“不要嫉妒,不要首先背叛,对合作和背叛都要给以回报,不要耍小聪明”。此博弈论解法与孔子的道德观念异曲同工,以前背论语只需要记住就行了,却没人告诉你科学道理,如果告诉你了分析过程,是不是更容易地理解呢。