浅浅地谈一下博弈论

看到这些天许多朋友在谈论博弈论,无论是赞美也好,批评也罢,大家似乎说的都有道理。而这篇文章里也想谈谈我自己的一些看法。

1.当许多人在批评博弈论的时候,他们在批评什么

其实一些针对博弈论的批评文章对博弈论的批评事实上是针对绝大多数经济学数理模型的批评。例如,博弈论和大多数微观经济学模型一样,都试图客观化、基数化地去衡量不同个体间的“效用”。只不过在大多数博弈论的分析中,这种“客观效用”的假设普遍隐含在参与个体的报酬(payoff)中。对于分析者来说,他必须针对他的分析对象(参与者)作出“先验”或者“主观”的报酬假设,即便这种报酬是二元(Binary)的。比如在囚徒困境中,分析者需要假设参与博弈的囚徒和他自己一样,都厌恶被出卖,或者厌恶更久的监牢之灾。

或许有人会说,个体报酬只是货币数量或者其他什么东西,但事实上我们在进行博弈分析时,都将报酬当做了效用。因为博弈论的一个基本假设就是参与个体会最大化自己的报酬,这和效用最大化的假设事实上是一回事。

2.多次博弈,合作博弈还有信息不完备不应当被用来批评博弈论

我看到一些文章试图改变类似囚徒困境那样最简化的博弈模型的前提条件来批评或者挑战博弈论本身,这其实是有问题的。这事实上是在用博弈论来批评博弈论,又或者说,用一个特殊情景来反驳另一个特殊情景。

我们都知道最简化的囚徒困境是一个单次的非合作博弈。而的确,现在的主流经济学也已经将这个简化的博弈模型衍伸出各种复杂的多次或者合作博弈情景。

例如,当囚徒们的博弈次数是100次,且囚徒间使用的是“以牙还牙”的博弈策略(也就是说,囚徒可以在被捕入狱之前就商量好被捕后的对答策略),这样囚徒困境的博弈结果就会与单纯的单次非合作博弈之结果完全不同——即囚徒们会相互合作,而不是背叛,因为只要第一次选择了背叛,则之后的99次都会是互相背叛的结果。因此在有限次的多次博弈中,囚徒间的纳什均衡就是(或者至少是接近)帕累托最优。

如果我们用上述的博弈结果来反驳最简化的囚徒困境,这看起来似乎有那么一点道理,但这只是因为前提条件改变了而已。而上述博弈结果恰恰又是在博弈论本身的理论框架里得出的,因此,这种反驳事实上却是证明了博弈论的有效。

同样,类似古诺双寡头反应曲线这样的早期博弈模型也受到了一些批评。这些批评主要是针对反应曲线或者反应函数的其中一个基本假设——即参与者拥有完备的信息。也就是说,参与者相互知道彼此的策略含义以及后果。

比如有这么一个博弈:

浅浅地谈一下博弈论_第1张图片
GAME.png

在这个博弈中,有A和B两家公司。对于他们来说,有两种策略供他们选择:参加促销或者不参加促销。括号内分别为A,B的报酬(Payoff),比如(2,0)表示A参加促销并且报酬为2,B不促销并且报酬为0。这时我们可以用博弈论常用到的“逆向归纳法”来求解这个博弈的纳什均衡。

我们先从公司B开始。当B在左边时,B会选择不促销,因为对于B来说,(2,0)> (-2,-2);当B在右边时,B会选择促销,因为对于B来说,(0,2)> (0,0)。

此时A与我们一样,都对B的这些“反应”决策了如指掌,所以对于A来说,现在只有两个选择,即整个博弈可以降为:

浅浅地谈一下博弈论_第2张图片
game2.png

很简单,此时A将会选择“促销”,因为对于A来说,(2,0)> (0,2)。所以这个博弈的纳什均衡会是A选择促销,而B选择不促销,均衡报酬(equilibrium payoff)为(2,0)。

为什么笔者要在此处花费笔墨来解释这个博弈?因为事实上很多批评正是针对这种博弈的“完备信息”假设,即A可以完全掌握B的报酬情况以及B的反应策略。“完全信息”当然是一个很严格的假设,使得这种博弈离现实实在太远。但主流博弈论的发展会忽视这个问题吗?

其实现代博弈论已经考虑到了这个严重的缺陷,所以类似“贝叶斯博弈(Beyesian game)”这样的新博弈理论正试图在传统博弈论中加入信息不完备(不完全与不完美)的前提。

但这并不是说贝叶斯博弈就是正确的,就是合格的经济学理论。贝叶斯博弈中所涉及例如概率密度函数(PDF)、参与者的风险中性假设、参与者的期望效用函数,这些都使得贝叶斯博弈也存在一些基础性的缺陷,它始终是数学模型,而不是经济现实。因此,博弈论事实上就是一个包装着经济学外衣的数学研究,贝叶斯博弈论也一样。

3.“逆向归纳法”可能是博弈论分析中隐含的最大问题

我们在上文求解纳什均衡用到的方法其实就是所谓的“逆向归纳法”或者“倒推法” (Backward Induction),是博弈论分析中非常常用的一种分析方法。而正是这种方法本身,却隐含着一些不容易被发现的逻辑问题(或者说是其本身的数学问题)。

我们不妨来考虑这么一个故事:

在某个周日,法庭上,法官正在宣读其对某罪犯A的刑罚:“我现在宣判你将在7天之内被执行死刑。” 罪犯A问:“那究竟是哪一天呢?!” 法官答道:“只有等到执行死刑那天的早上你才会知道。”

罪犯A回到监牢里,因为即将奔赴黄泉所以表现得心神不宁,旁边的另一位囚徒B看到了,问:“你在为何事烦闷不安?”

答:“我将在7天内被执行死刑,而我只有等到执行死刑那天的早上才会知道,我好害怕。”

囚徒B:“别担心,他们一定不会在下周日杀你。”

罪犯A:“为什么?”

囚徒B开始了他的“逆向推理”:“因为如果周六你还活着,你就会知道死刑执行日将一定会在周日,这显然违背了法官的承诺(即还没有等到执行死刑那天的早上,罪犯A就已经知道了自己的死期)。”

罪犯A:“对啊!”

囚徒B:“所以周日可以排除了。同样,他们也一定不会在周六杀你,因为你在周五会知道自己的死期要么是周六要么是周日,既然周日已经被排除了,当然就只剩下周六了。而如果你提前知道了自己周六将会被处死,这又违背了法官的承诺。”

罪犯A:“我知道了!所以周五周四周三周二都可以被同样的思路给排除掉!当然,他们也不可能在明天将我处死,因为此时此刻我已经发现了这个计划!太好了,我其实不会被处死!”

结果在周三的早上,罪犯A被告知这天将会是他的死期,下午,罪犯A带着疑问被处死了。

这个逆推过程的问题出在哪里?你能看出来吗?

其实许多复杂的博弈论的逆推分析过程中都涉及这种问题,然而这种问题却因为经过复杂的数理包装和改变之后,变得更加难以发现,这就使得逆推法不仅受到经济学家关于信息完备性的批评,同时也正遭受越来越多来自数学家的质疑。

电影《七宗罪》的结尾有段对白,老警官引用了海明威的一段话,他说:“海明威曾经说:‘这个世界很美好,值得人们为之奋斗。’我只同意后半句。”

许多人说:“博弈无处不在,所以你们不应该批评博弈论。” 而我只同意这句话的前半句。博弈不是博弈论,同样,批评博弈论并不是试图否认博弈的存在。正如我们可以看到代表着不同学派的经济学家为一些基础理论和互相批的死去活来。就拿货币理论来说,当奥地利学派的经济学家在批评芝加哥学派的货币理论时,他们难道是在试图否认“货币”的存在吗?

你可能感兴趣的:(浅浅地谈一下博弈论)