博弈论

博弈论源于对游戏的思考,而广泛应用于各门学科。它教给人一种选择的策略,使得自己的得益最大化,使自己的损失最小化。它的精髓在于理性的换位思考,从站在对手的位置,来决定最优策略。

博弈的分类

game-type

囚徒困境

如果两人都不认罪,则各判一年

如果两人都认罪,则各判三年

如果一人认罪,则认罪的释放,不认罪的判五年

可以得以下矩阵

game-qiutu

可以看出当B认罪,A的最优策略是认罪;

B不认罪,A的最优策略是认罪

同理,B的最优策略也是认罪

因此最终A和B都会认罪

(认罪,认罪)称为 均衡状态

个体利益与集体利益

从囚徒困境来看,

如果从集体利益最大化出发,最佳的组合应该是都不认罪;

但如果从个人利益最大化出发,则都认罪是最佳组合。

因此可以看出,从社会利益来制定策略或政策时,应该考略个体利益与集体利益一致。否则,社会人在利己最大化来选择策略,则会导致社会效益降低。

研究的方法

game-method

要素

  • 理性局中人
  • 策略
  • 回报与损失

要知道,在真实环境,并非每个人都是理性的,然而这并不影响我们作出最优策略,当制定策略时,考略对方绝对理性,而选择一个最大的利益或最小的损失,如果此时对方并不是理性的,那么我的的策略所得,将会高于最坏情况的所得。

例如田忌赛马,正由于齐王是非理性的,因此田忌利用这一点,制定出最优出马策略,从而制胜。

然而如果齐王是理性的,那么从概率上说,齐王的胜率是更高的。

纳什均衡

纳什均衡属于非合作博弈。

当参与人的最优策略,稳定在矩阵的同一格时,那么此状态为纳什均衡点。

例如囚徒困境的(认罪,认罪)为纳什均衡点。

每个理性的参与者都不会单独改变策略,而使得自己的利益增大。

寻找均衡点

game-nashen

如上图矩阵,甲对于乙,不具有策略占优策略,然而他们的最优策略的交集为(A3, B3),那么我们称此点为纳什均衡。

因为在此点,无论哪一方面,单方面改变策略,都不能使得自己的得益增大。

二人零和博弈

game-zero

在二人零和博弈中,双方的收益和损失总和为零,有可能不存在均衡点,例如上图。

那么可以用最小最大来决定理定策略。

以弱敌强

两军对垒,蓝军有三个师,绿军有两个师。

绿军进攻日军,蓝军城堡有两个入口,绿军弱于蓝军。

如果绿军两个师对蓝军两个师,则蓝军胜

如果绿军两个师对蓝军一个师,则绿军胜

那么对应的有蓝军的策略是:

  • 三个师守入口A
  • 三个师守入口B
  • 两个师守入口A,一个师守入口B
  • 两个师守入口B,一个师守入口A

绿军的策略为

  • 两个师进攻入口A
  • 两个师进攻入口B
  • 一个师进攻入口A,一个师进攻入口B

从蓝军看,策略1和2为明显劣策略,所以剔除

从绿军看,策略3为明显劣策略,所以剔除

那么得以下矩阵

game-smalltol

可以看出,对于蓝军或者绿军都没有占优策略,而他们得胜算都为50%。

混合策略纳什均衡

从绿军和蓝军的矩阵看,并不存在纳什均衡点。那么此时可以加入概率模型,绿军选择的A1的概率为x,蓝军选择B2的概率为y

那么E(绿军) = -x*y+x*(1-y)+(1-x)*y - (1-x)*(1-y) 求最小值

=>

x = 1/2

E(蓝军) = -E(绿军) 求最大值 => y = 1/2

非零和博弈的混合策略纳什均衡

game-notzero

在非零和博弈中,存在双赢和双败的情形,会出现以上矩阵,那么我们为了蒙骗对手,不让对手猜出我们的策略,我们可以让E(今天打折) = E(明天打折);同理让E(今天购买)=E(明天购买)

加入概率模型,可求最优解

多人博弈

game-three

使用博弈的扩展分析,可以得到合作博弈,会使总体利益最大化,则甲乙丙合作,则各得6。

但是如果任意两国合作,会使此两国的利益更大,所以此时的局面,就会促使任意两国合作,而抛弃另外一国。

至于哪两个国家合作,则需要加入谢林点的考虑,研究两国之间的政策,历史等因素,来考虑到底哪两国更有可能合作

合作均衡

game-cooperate

两家烟草公司,在打不打广告上有上面的博弈矩阵,从非合作博弈来分析,最终会均衡于都打广告。然而,在集体最大化来看,最佳的应该时都不打广告。

那么此时政府可以制定政策,禁止烟草公司打广告,那么可以达到减少恶性竞争,使得社会经济总体利益最大化

为什么要合作

用囚徒困境来说,如果囚徒都合作,可以使得利益高于都不合作。从长远来看,是有益的。但在短期利益来说,如果囚徒只考虑一次博弈,那么双方并没有必要建立信任,此时双方都不信任对方,那么只能采取非合作博弈的最佳策略,选择认罪。

伯累托最优

我们称合作博弈的最优解为伯累托最优。

则互相通过合作,而产生总体利益最大的点。

例如囚徒困境中的(不认罪,不认罪)

启示

如果博弈是长期进行的,那么囚徒之间就需要为了证明自己的诚信,而选择不认罪,使得大家的利益最大。这样就会让均衡点从不合作博弈转变为合作博弈

动态博弈

game-dyna

通过画出博弈树,然后通过后推法,得到解

合作与背叛

在社会上,很多时候,背叛的收益会大于合作的收益。此时,在制定制度的时候,就要考虑到如果使得,人们更愿意选择合作,而不是背叛。

game-yibaoyihuan

从短期看,背叛可以获得更大的利益,但是如果加入信用体制,如果背叛,则降低信用,使得背叛者再次交易时,会受到惩罚,而合作,从长远来看,是对人们有利的。由于参与者无法判断此次交易是不是最后一次,那么为了在未来能过获得有利的地位,就会迫使人们做出合作的行为。

你可能感兴趣的:(博弈论)