博弈论笔记

概论

博弈是指在一定的游戏规则约束下, 基于直接相互作用的环境条件,各参与人 依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。

罗森塞蜈蚣博弈(Rosenthsal,1981)“博傻”

发展简史

  • 古诺模型:参加博弈的双方以各自在同一时间内相互独立的产量作为决策的变量,是一个产量竞争模型
  • 伯川德模型:该模型与古诺模型的不同之处在于,企业把其 产品的价格而不是产量作为竞争手段和决策变量,通过制定一个最优的销售价格来实现利润最大化。
  • 斯塔克尔伯格:该模型分析的是这么一种市场竞争:企业A先 决定一个产量,然后企业B可以观察到这个产量,并根据所观察到的产量来决定它自己的产量
  • 1944年冯诺依曼和摩根斯坦发表《博弈论和经济行为》
  • 1994年纳什、海萨尼和泽尔腾获诺贝尔经济学奖
  • 后来的发展方向:
    • 对纳什均衡的弱化(或一般化)
    • 对纳什均衡的精炼(或筛选)
    • 对博弈论的基本假设的研究
    • 对博弈论的应用研究
  • 2005年奥曼和谢林诺贝尔经济学奖

基本假设

理性假设

认知理性

  • 人事自我利益的判断者
  • 偏好的完备性
  • 偏好的传递性
  • 中庸之道(综合激励)

行为理性

  • 自我利益的追求者
  • 利益最大化

共同知识假设

共同知识

指各参与者在无穷递归意义上均知悉的事实。即每个人知道事件E,每个人知道每个人知道事件E,每个人知道每个人知道每个人知道事件E——一直到无穷层次

囚徒困境

囚徒困境

坦白 抗拒
坦白 -3,-3 0,-5
抗拒 -5,0 -0.5,-0.5

占优策略

是指无论其他参与者采取什么策略,某参与者采用该策略的结果都优于其他策略。

占优策略均衡

是指由博弈中的所有参与者的占优策略组合所构成的均衡。

一般条件下的囚徒困境

  • 双方都有占优策略
  • 存在一个合作解,使双方的收益都优于其在占优策略均衡下的收益

对称条件下的囚徒困境

背叛 合作
背叛 R,R P,T
合作 T,P S,S

满足P>S>R>T,则占有策略均衡(R,R)就构成了囚徒困境

原因

囚犯们在追求自身利益的同时,以更多地损害他人利益为代价。
私人成本与社会成本的差异,即个人行为的负外部性。
如果有一种制度,在该制度下,每个人都只能通过利人才能实现利己的目标,这一定是一种好的制度。(市场的逻辑)

破解

  • 道德教化(文化建设)
  • 财产私有(制度建设)
  • 温故知新(重复博弈)

万元陷阱

万元陷阱

动机

  • 经济动机包括渴望赢得钞票、想赢回他的损失、想避免更多的损失
  • 非经济动机包括渴望挽回面子、证明自己是最好的玩家及处罚对手等

破解

  • 确立你投入的极限及预先的约定:譬如投资多少钱或多少时间?
  • 极限一经确立,就要坚持到底(止损)
  • 自己打定主意,不必看别人
  • 不要指望能够以很低的价格买入(绞刑架,可竞争市场)
  • 尽快传递“势在必得”的信号(破釜沉舟)
  • 只争馒头不争气,没了馒头终断气(务实)
  • 高瞻远瞩,深谋远虑

智猪博弈

5,1 4,4
9,-1 0,0

一方付出了相应的代价,双方共享了所得到的收益
个体理性与集体理性相冲突,还是相一致,取决于制度安排
收入分配的不均将有助于减少个体理性与集体理性的冲突

实例

  • 山寨现象(盗版)
  • 网络购物
  • 抄(复印)笔记
  • 汽车定位系统
  • 好货不便宜,便宜没好货

懦夫博弈

懦夫博弈

基本模型(斗鸡)

退
-3,-3 1,-1
退 -1,1 0,0

鹰鸽博弈

老鹰 鸽子
老鹰 A-C,A-C 2A,0
鸽子 0,2A A,A

当A>C时,老鹰—老鹰是纳什均衡。
当A 两点推论:1、A增加;2、C增加
各自的期望收益=A(1-A/C)
赢者通吃的行业,容易出现过度竞争

公共物品的提供

公共物品的特点:

  • 非排他性
  • 非竞争性
    谁来提供:
  • 囚犯困境
  • 智猪博弈
  • 斗鸡博弈

实例

  • 停车占位(协调机制)
  • 升官发财(选拔机制)
  • 找工作(招聘管理)
  • 抢市场(竞争机制)
  • 填志愿(录取机制)

性别战

基本模型

电影 跳舞
电影 2,1 0,0
跳舞 -1,-1 1,2

实例(合作)

  • 约会
  • 恋爱与结婚
  • 聚餐
  • 通讯(MSN)
  • 语言(世界语)

扩展实例

  • 农户的产品选择(规模与合作)
  • 休假制度(团聚与旅游)
  • 有效需求(长尾理论,余额宝)
  • 盲人摸象与知识生

均衡的存在性和多重性

均衡的存在性定理

每一个有限博弈至少存在一个纳什均衡(纯战略的或混合战略的)(纳什,1950)
在n人战略式博弈中,如果每个参与人的纯战略空间是欧氏空间上一个非空的、闭的、有界的凸集,损益函数是连续的且对是拟凹的,那么,至少存在一个纯战略纳什均衡。 (Debreu,1952; Glicksberg,1952;Fan,1952)
在n人战略式博弈中,如果每个参与人的纯战略空间是欧氏空间上一个非空的、闭的、有界的凸集,损益函数是连续的,那么,至少存在一个混合战略纳什均衡。( Glicksberg,1952 )

均衡的多重性

聚点均衡: 谢林点

混合博弈

概念

纯策略

如果一个策略要求参与者在每一个给定信息情况下只选择一种特定的行动

混合策略

如果一个策略要求参与者在给定信息情况下以某种概率分布随机地选择不同的行动

鹰鸽博弈

老鹰 鸽子
老鹰 A-C,A-C 2A,0
鸽子 0,2A A,A

当A 各自的期望收益A(1-A/C)
双方总期望收益2A(1-A/C)

监督博弈

征税博弈

逃税 纳税
检查 A-C+F,-A-F A-C,-A
不查 0,0 A,-A

均衡结果α=A/(A+F), β=C/(A+F)

监督博弈

偷懒 不偷懒
检查 -C,0 V-W-C,W-H
不检查 -W,W V-W,W-H

均衡解:雇员以C/W概率偷懒,雇主以H/W概率检查
雇员工资

最后通牒

最后通牒

结论

人在博弈中,还会追求利益以外的价值
越是成熟的组织(社会),在管理中越是更多地运用最后通牒的博弈
最后通牒一方面可以节省大量的谈判成本,另一方面还可以给人以公平感。
职务提升制度直接影响组织的管理效率。
尽可能建立基于绩效和能力的职务提升制度,并坚持公开竞争性原则。

独裁者博弈

第一,人们在决定其行动时,并不会仅仅考虑到其经济利益,虽然这可能是最主要的一个考量,他们也会考虑一些道德和社会规范,比如公平原则,“己所不欲,勿施于人”。
第二,一个社会如果在制度安排上能够给人民更多可以拒绝(可以说“不”)的权利,那么这个社会就会产生更多的公平性,甚至会带来更多的效率改善。
第三,一个社会在制度安排上给了官员更多可以拒绝(可以说“不”)的权力(比如行政审批制度),那么拥有审批权的官员一定能够从中获利丰厚。

讨价还价

也称为议价或谈判,主要是指参与者通过协商方式解决利益的分配问题,称讨价还价时主要强调
其动作或过程,称谈判时则强调其状态或结果。

均衡解

用X表示参与者1所得的份额,(1一X)为参与者2所得的份额,和分别是时期i时参与者1和
参与者2各自所得的份额。假定两个参与者的贴现因子分别是和 。
这样,如果博弈在时期t结束,
参与者1的支付的贴现值是
参与者2的支付的贴现值是
双方在经过无限期博弈后,得到的纳什均衡解为:
参与者1获得的份额。

贴现因子

贴现因子是指1个份额经过一段时间后所等同的现在份额。
贴现因子是由参与者的“耐心”程度所决定的。

影响因素

1、年龄(寿命)
2、财富
3、未来收益的确定性(法治)
4、知识水平(文化程度)

重复博弈

重复博弈

是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)。重复博弈是
动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。

基本特征

1、前一阶段的博弈不改变后阶段的博弈结构
2、所有参与人都能观测到博弈过去的历史
3、参与人的总损益是所有阶段损益的贴现值之和

结论

合作的基础不是信任,而是关系的持续性。
组织相对于个人而言往往具有更长的预期寿命,从而提高了关系的持续性。
δ的另一层含义是下次博弈的可能性

制度建设

制度好可以使坏人无法横行,制度不好可以使好人无法充分做好事,甚至会走向反面。
人生是永不停息的博弈过程,博弈意味着通过选择合适策略达到合意结果。作为博弈者,最佳策
略是最大限度地利用游戏规则;作为社会的最佳策略,是通过规则引导社会整体福利的增加。

你可能感兴趣的:(博弈论笔记)