博弈论(game theory),又译为对策论,或者赛局理论,经济学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构(游戏或者博弈)间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。
具有竞争或对抗性质的行为称为博弈行为。在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋,打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。
纳什平衡(Nash equilibrium),又称为非合作博弈均衡,是在非合作博弈(Non-cooperative game)状况下的一个概念解,在博弈论中有重要地位,以约翰·纳什命名。
如果某情况下无一参与者可以通过独自行动而增加收益,则此策略组合被称为纳什均衡点。
纳什均衡的定义:在博弈 G = S 1 , ⋯   , S n : u 1 , ⋯   , u n G={S_1,\cdots,S_n:u_1,\cdots,u_n} G=S1,⋯,Sn:u1,⋯,un中,如果由各个博弈方的各一个策略组成的某个策略组合 ( s 1 ∗ , ⋯   , s n ∗ ) (s_1^*,\cdots, s_n^*) (s1∗,⋯,sn∗)中,任一博弈方i的策论 s i ∗ s_i^* si∗,都是对其余博弈方策略的组合 ( s 1 ∗ , ⋯   , s i − 1 ∗ , s i + 1 ∗ , … , s n ∗ ) (s_1^*,\cdots,s_{i-1}^*,s_{i+1}^*,…,s_n^*) (s1∗,⋯,si−1∗,si+1∗,…,sn∗)的最佳对策,也即 u i ( s 1 ∗ , ⋯   , s i − 1 ∗ , s i ∗ , s i + 1 ∗ , ⋯   , s n ∗ ) ≥ u i ( s 1 ∗ , ⋯   , s i − 1 ∗ , s i j ∗ , s i + 1 ∗ , ⋯   , s n ∗ ) u_i(s_1^*,\cdots,s_{i-1}^*,s_i^*,s_{i+1}^*,\cdots,s_n^*)≥u_i(s_1^*,\cdots,s_{i-1}^*,s_{ij}^*,s_{i+1}^*,\cdots,s_n^*) ui(s1∗,⋯,si−1∗,si∗,si+1∗,⋯,sn∗)≥ui(s1∗,⋯,si−1∗,sij∗,si+1∗,⋯,sn∗)对任意 s i j ∈ S i s_{ij}∈S_i sij∈Si都成立,则称 ( s 1 ∗ , ⋯   , s n ∗ ) (s_1^*,\cdots,s_n^*) (s1∗,⋯,sn∗)为G的一个纳什均衡。
一场博弈用G表示, S i S_i Si表示博弈方i的策略, u i u_i ui表示收益。因此,纳什均衡的意思是:任何一方采取的策略都是对其余所有方采取策略组合下的最佳对策;当所有其他人都不改变策略时,为了让自己的收益最大,任何一方都不会(或者无法)改变自己的策略,这个时候的策略组合就是一个纳什均衡。
纳什平衡的经典例子就是囚徒困境。囚徒困境(Prisoner’s Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
1950年,由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论,后来由顾问艾伯特·塔克以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监5年。
用表格概述如下:
乙沉默(合作) | 乙认罪(背叛) | |
甲沉默(合作) | 二人同服刑半年 | 甲服刑10年;乙即时获释 |
甲认罪(背叛) | 甲即时获释;乙服刑10年 | 二人同服刑5年 |
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默、我背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。
亚当·斯密的理论(“看不见的手”原理),在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。
政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。
经济学例子:关税战
两个国家,在关税上可以有以下两个选择:
提高关税,以保护自己的商品。(背叛)
与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)
商业例子:广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。
此二公司可以有二选择:
互相达成协议,减少广告的开支。(合作)
增加广告开支,设法提升广告的质量,压倒对方。(背叛)
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。
零和博弈(zero-sum game),又称零和游戏或零和赛局,与非零和博弈相对,是博弈论的一个概念,属非合作博弈。零和博弈表示所有博弈方的利益之和为零或一个常数,即一方有所得,其他方必有所失。在零和博弈中,博弈各方是不合作的。非零和博弈表示在不同策略组合下各博弈方的得益之和是不确定的变量,故又称之为变和博弈。如果某些战略的选取可以使各方利益之和变大,同时又能使各方的利益得到增加,那么,就可能出现参加方相互合作的局面。因此,非零和博弈中,博弈各方存在合作的可能性。国际经济中许多问题都属于非零和博弈问题,即国际经济中各方的利益并不是必然相互冲突的。
也可以说:自己的幸福是建立在他人的痛苦之上的,二者的大小完全相等,因而双方都想尽一切办法以实现“损人利己”。零和博弈的例子有赌博、期货和选举等。
在长条形的猪圈中关着大小两头猪。猪圈一端有一个猪食槽,另一端有一个按钮,可以控制猪食槽中的食物,按下按钮后就有10单位的猪食进入食槽。大猪进食的速度快,如果大猪先到达食槽处,可以吃到9个单位的猪食(小猪吃到剩余的食物,下同);如果同时到达,大猪吃到7个单位猪食;如果小猪先到,大猪吃到6个单位。另外,按下按钮者跑到猪食槽处需要付出2单位猪食的代价。假设两头猪从按钮处跑到猪食槽处所需时间相同。
两头猪都有两种选择:按按钮后跑到猪食槽,或者在猪食槽处等待。因此,可以列出下列支付矩阵(行表示大猪,列表示小猪):
按按钮 | 等待 | |
按按钮 | 5, 1 | 4, 4 |
等待 | 9, -1 | 0, 0 |
容易看出,无论大猪如何选择,小猪选择等待获得的收益总是比按按钮更高。换言之,小猪选择等待是一个优势策略。给定小猪选择等待,大猪会选择按按钮去获得更大的收益。因此,整个博弈的纳什均衡是大猪按按钮,小猪等待。
在市场中,大企业和小企业类似智猪博弈中大猪和小猪的关系。按下按钮好比研发推出新产品,可以为企业带来高额利润,但需要的成本只有大企业负担得起。因此,小企业更愿意选择模仿大企业的技术创新,紧随其后出售廉价产品占据市场份额。
参考文献:
1.https://zh.wikipedia.org/wiki/博弈论
2.https://zh.wikipedia.org/wiki/納什均衡點
3.https://zh.wikipedia.org/wiki/囚徒困境
4.https://zh.wikipedia.org/wiki/零和博弈
5.https://zh.wikipedia.org/wiki/智猪博弈
6.https://blog.csdn.net/xbinworld/article/details/50932559