博弈:是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与者依据所掌握的信息,选择各自的策略,以实现最大利益化的过程
博弈论:研究个体如何做策略选择以实现利益最大化、以及其不同个体之间决策实现各自利益最大化的理论
博弈的分类:
1、合作博弈和非合作博弈。
合作博弈:指参与者能够达成一种具有约束力的协议,在协议范围内选择有利于双方的策略
非合作博弈:指参与者无法达成这样一种协议
2、静态博弈和动态博弈。
静态博弈:指在博弈中,参与者同时选择,或虽非同时选择,但在逻辑上是同时的。
动态博弈:指在博弈中,参与者的行动有先后顺序,且后行动者能够观察到先行动者的行动。
3、完全信息博弈和不完全信息博弈。
完全信息博弈:指在博弈中,每个参与者对其他参与者的类型、策略空间及损益函数都有准确的信息
不完全信息博弈:总有一些信息不是所有参与者都知道的
4、和博弈和非零和博弈
零和博弈:博弈前的损益总和与博弈后的损益总和相等,即损+益=0
非零和博弈:指博弈后的损益大于(小于)博弈前的损益总和(正和或负和)不玩负和游戏,少玩零和游戏,多玩正和游戏
理性人假设与共同知识假设:
1、假设人的认知是理性的:
人是自我利益的判断者。
比如你现在面前有三个不同类型美女:A(可爱),B(性感),C(妩媚)
\qquad
你知道自己最喜欢哪种类型的。但是上面可能都没有你最喜欢的,可能你最喜欢D(妖娆)的。
\qquad
具有完备性的偏好应该是:
A(可爱),B(性感),C(妩媚),D(妖娆)
\qquad
如果A和B,你的偏爱程度是:A > B。
如果B和C,你的偏爱程度是:B > C
所以我可以推断,在A和C中,你的偏好是:A>C
\qquad
所以偏好必须具有传递性,完整的偏好应该是:
A>B , B>C 必然能够推断出 A>C
\qquad
虽然假设人是理性的,但是事实上人是有限理性的,是会受到外界影响作出非理性的事情的,很多时候靠感觉做选择
2、假设人的行为是理性的:
人是自我利益的追求者。
总的来说就是两利相权取其重,两害相权取其轻
\qquad
但影响你的行为有很多因素,比如参照物:
电子版:100元 纸质版:200元 (电子+纸质):210元
\qquad
顾客更容易选择(电子+纸质)。(顾客不需要便宜,需要的是占到便宜——拥有较高的消费者剩余)。
例如一些商品捆绑在一起销售,价格低于两件商品之和,又高于每一件单品,这时候,大多数的消费者会选择捆绑在一起的商品。
PS:所以交流时给对方出选择题,不做判断题,参考系需要掌握在自己手里。
3、共同知识假设
我们两个人之间,你知道A,我也知道A,这A还不是共同知识,A想要成为共同知识还得你知道我知道A,我也知道你知道A,我还要知道你知道我知道A,你也还要知道我知道你知道A…
\qquad
所以达成共识是一件非常困难的事情
在信息不对称的情况下,有时候博弈的结果不取决于大家是怎么想的,而取决于大家认为大家是怎么想的。
纳什均衡发生在非合作博弈过程中,可以分为两类:纯策略纳什平衡和混合策略纳什平衡。
纯策略就是指在一种情况下做出永恒不变的选择,比如你如果出石头,我必然出布,你如果出布,我必然出剪刀。
\qquad
混合策略就是是纯策略上的一个概率分布,也就是随机选择策略,但是选择每一种策略的概率都是确定的。这种基于确定概率选择策略的博弈称为混合策略博弈
\qquad
严格来说,每个纯策略都是一个“退化”的混合策略,某一特定纯战略的机率为1,其他的则为0
1、纯策略纳什平衡:
最通常的案例就是囚徒困境了,囚徒只有两个选择:坦白,抗拒
两个囚徒A和B,分别被关在两个屋,消息不共享,如果其中一个人坦白了,另一个抗拒,那坦白的直接释放,抗拒的罚10年监禁;如果两个人同时坦白了,都罚5年监禁;如果都抗拒则监禁1年可以被释放。
\qquad
A想:如果我坦白,B不坦白,我直接被释放,B坦白,我只要被关5年。但如果我抗拒,B坦白,我就得被关10年,B抗拒我只要被关一年。但是B会不会选择坦白我不知道,但是我抗拒的话,最好的情况是被关1年,最坏情况被关10年;但是我坦白的话,最好情况直接释放,最坏情况被关5年。所以综合来看,我还是坦白比较好。
\qquad
而B也和A想的一样,所以最终A和B都坦白,所以策略(坦白,坦白)便是他们的纳什均衡点。
2、混合策略纳什平衡:
最通常的案例就是硬币游戏了,双方只有两个选择:正面,反面
两个人A和B,如果都出正面,A给B 3元;都出反面,A给B 1元;一正一反,B给A 2元。
\qquad
如果A一直出正面,B一直出反面,就变成了纯策略问题了,A就会想:如果我出正面,最坏情况是B出正面,我要给他3元,最好情况是我得到2元;但如果我出反面,我最坏情况是给他1元,最好情况也是得到2元,所以我应该出反面。B会想,如果我出正面,最好情况得3元,最坏情况给他2元;但如果我出反面,最好情况是得1元,最坏情况给他2元,所以我应该出正面。所以A,B纳什均衡点就变成了(反面,正面)
\qquad
但是放到混合策略上来说,就是A以一定概率出正面和反面,B也是如此。如果A出正面的概率为m,那么出反面的概率就是1-m;B如果出正面的概率是n,那么出反面的概率就是1-n。
\qquad
这时候A也会想:我应该以多少概率n出正面,收益会最大:
期望收益E=-3m·n + 2m·(1-n)+ 2(1-m)·n + -1(1-m)·(1-n)
优化一下:E=(3-8m)·n +3m-1,是关于n的一次函数,斜率为(3-8m),截距3m-1。
\qquad
同理B想:我应该以多少概率m出正面,收益会最大?
期望收益E=3m·n + -2m·(1-n)+ -2(1-m)·n + 1(1-m)·(1-n)
优化一下:E=(8n-3)·m +1-3n,是关于m的一次函数,斜率为(8n-3),截距1-3n。
通过分类讨论,最后能画出如下图:
然后找到纳什均衡点(3/8 ,3/8)
策略有很多种,之前介绍的基本上是离散型的策略,策略可分为:
策略(strategies):一套完整的行动计划。
\qquad
混合策略(mixed strategies): 随机选择的行动。
\qquad
纯策略(pure strategies): 最初定义的行动。
\qquad
离散型策略:每个参与人只拥有有限个离散型纯策略供其选择。
\qquad
连续性策略:每个参与人的纯策略可以是一一个连续区域中的任意一个数。
之前不同参与者策略数量相等的策略,策略数量当然也可以不相等,我们将双方在不同策略组合下的收益表称为博弈表,亦称为支付表:
解决其纳什均衡问题,常用最优反应分析,但对于这种零和博弈,最小最大值法也不失为好方法,实际上就是极大极小值搜索:
参考:纳什均衡与零和混合策略博弈问题