混合策略纳什均衡

参考:https://wenku.baidu.com/view/aa850302a417866fb94a8e1a.html
注:参考的ppt里面有些地方有些小错误,大致正确。
混合策略纳什均衡_第1张图片混合策略纳什均衡_第2张图片
当达到纳什均衡的时候,任何一方都不愿意改变自己的策略。
即对于雇主的视角来看,如果雇员的偷懒概率为b,相当于是明牌告诉对方我是这个b的概率进行偷懒,则雇主就会毫无办法,因为这时检查与不检查的期望收益是相同的,如果有所不同,那么雇主就可以改变自己的策略频率,最后达到一个均衡态。
所以在雇员概率为b的情况下,雇主无论怎样控制策略,期望收益都是一样的。
T检查=(-c+f)b+(v-w-c)(1-b)
T不检查=(-w)b+(v-w)(1-b)
当T检查=T不检查的时候达到均衡。

同理,对于雇员来说,当雇主以某种频率概率a检查时,雇员无论偷懒与否它的期望概率也应该是相同的。
T偷懒=(-f)a+w(1-a)
T不偷懒=(w-h)a+(w-h)(1-a)
T偷懒=T不偷懒时达到均衡

1.混合策略均衡解:当雇员以b=c/(w+f)偷懒,雇主以a=h/(w+f)概率检查时,达到均衡状态。

h越大,雇主越容易检查。
c越大,雇员越容易偷懒。
w越大,雇员越少偷懒,雇主越少检查。
f越大,雇员越少偷懒,雇主越少检查。

2.当雇主支付w为多少时,其期望收益最大
雇主的期望收益=-wb+(v-w)(1-b)=v-w-vb=v-w-vc/(w+f)
直接用求导公式,当w=sqrt(cv)-f时,雇主的期望收益最大。
此时,雇主的期望收益是:v-2
sqrt(cv)+f。
雇员的期望收益是:w-h
双方总的期望收益是:v-h+w+f-2
sqrt(cv)
当w=sqrt(c
v)-f时,双方总的期望收益是:v-h-sqrt(c*v)

3.如果f=0,即不收抵押金,这时雇员偷懒概率为c/w,雇主检查概率为h/w
雇主期望收益为v-2sqrt(cv)
可以发现这时雇员偷懒概率变大,雇主检查概率也变大,雇主的期望收益也减少,
可见没有惩罚机制,没有约束力,人类的本性就是趋向于懒惰的,检索人员更加辛苦,整个系统的效益变低,劳民伤财,所以规章制度非常重要,规则的设计都是经过长时间博弈与探索制定的,必定有规章制度存在的道理。

4.收取抵押金的雇主如何建立雇员对其的信任机制,我认为可以提高工资,因为抵押金可以使得整个系统效益变高,多出来的利益可以分给双方,互利共赢。

5.从社会福利最大化角度看,作为政府是否应禁止雇主向雇员收取抵押金?为什么?
我认为不应该禁止,因为就像f=0的情况所看到的,如果没有保证金的约束,人们就会变更容易变懒,因为偷懒被抓的惩罚太轻,使得人们经过权衡后发现偷懒性价比高,对于整个社会结构来看,如果所有人都这样,会导致整个社会的生产效益减少,最后无论是对于整个社会福利,还是小到个人,都是非常不利的。

你可能感兴趣的:(博弈论,数学)