博弈论学习2——贝叶斯博弈

定义

作为一种战略博弈,贝叶斯博弈有两个基本元素:参与人集合和行动集合,为了建模不确定性,引入自然状态集合,其中元素为对参与人相关特征的描述。有概率测度,每个人有对于某个自然状态下的先验概率。

注意,这里的定义中,每个自然状态对于每个人视角的先验概率可能是不一样的,但一般来说,相等或者有关联性。

信号函数:表示自然状态为发生后,在每个人选择他行动之前,第人观察到的信号。表示为的所有可能值的集合,称之为类型集合,每一个(这里表示第人已经观察到信号之后,对应的自然状态集合中的状态的发生的先验概率当然应该是正的,是0的话,认为第个人无法收到)。如果参与人收到信号,那么能推断出状态在中,那么就实现了状态的后验概率,赋予了每一个状态概率(也就是对于已知之后,发生过的后验概率)。这里如果,当然应该赋予0。

例如,对所有,若,那么参与人能够拥有关于自然状态的全部信息。又比如,并且对每个人测度是上的乘积测度,同时,则参与人能获得自己那部分自然状态,每个人的自然状态分量/信号是独立的而且每个人不能获得其他人的自然状态。

每个人关心他的行动组合,还有自然状态/信号。由于他只有关于自然状态的不完全信息,即使他掌握了所有自然状态下每个人的反应,依旧没有办法确定自己应该怎么做。

一个贝叶斯博弈包括:

  1. 有限集合(参与人集合)
  2. 有限状态集合

对每个参与人有

  1. 集合(有效行动集合)
  2. 信号集合和函数
  3. 上的一个概率测度(参与人的先验概率),必须满足对所有有
  4. 一个关于上的概率测度集合的偏好关系,这里

另外注意有时描述贝叶斯博弈并不涉及暗含的状态空间,而是描述成“简化形式”:参与人信息相关的基本元素是可能类型集合的组合。

贝叶斯博弈的纳什均衡:考虑将贝叶斯博弈的纳什均衡定义成一个战略博弈的纳什均衡,的参与人被定义为和的组合(具有类型的参与人),他的行动集合为。这样行动组合为。偏好如下定义:在中参与人偏好行动组合优于行动组合,等价于:参与人在贝叶斯博弈中对不确定事件的偏好优于。注意,这里的概率定义为发现之后的对的后验概率(见上)。但是偏好的定义这里和概率无关。只有决策时,也就是求不确定事件的偏好时,才会用到概率求期望。

案例

二阶拍卖

考虑二阶拍卖的一个贝叶斯变形。也就是每个人知道自己对于物品的估价,但是不能确定别人的估价。作为特例,假定可能估价集合是有限集合以及每个参与人都相信任何一个其他参与人独立做出的估价都是从上的同一分布出发的。则可以建模为贝叶斯博弈模型:

  1. 参与人集合
  2. 状态集合
  3. 参与人行动集合
  4. 收到的信号集合是
  5. 的信号函数定义为,也就是自己的估价
  6. 先验概率为上的某个概率分布,
  7. 偏好关系:对于某个人出价最高,那么值为,否则为

这个博弈的纳什均衡为,每个人都提出自己的估价。这是因为提出更高的价格,自己价值函数的期望更大;但也不会超过自己的预期定价,因为自己如果提高价格,而他人都提出了自己的估价,那么自己本来投不到的即使变成了投到了,还要额外付出代价,价值函数期望不会升高。


过度消息可能会导致的损害(感谢BZB和LX提供了这个例子)

情形1

图片.png

博弈的收益矩阵如上,参与人1选择行,参与人2选择列,状态集合为,两个参与人有共同的先验概率分布。

参与人信号集合为,两人的信号函数如下:

换句话说信号对于参与人2,没有意义。

这个博弈有一个唯一的纳什均衡:

下面仅对于做出解释:

由于对于参与人2,信号无帮助,因此他看来,仍有

在参与人1选择B时,对于2,选择L,期望为6,选择M时,期望为7,选择R时期望为6。

因此他会选择M。

在均衡中,参与人2的收益为7。

情形2

图片.png

博弈的受益矩阵同上,参与人策略同上,参与人1信号集合和信号函数同上。

参与人2的信号集合,,也就是说2能通过信号知道1的决策。

这个博弈唯一的纳什均衡是:

这个均衡中,无论,参与人的收益都只有3,小于上面的7。

这个结论有些违反直觉。可以如此来理解。虽然参与人2知道的更多了,但是参与人1也能知道“参与人2知道更多这件事”,参与人1对于这条信息的利用,可能能做到比参与人2更完善。

备注

  1. 这⾥将⻉叶斯博弈中对事件的偏好⽤⽀付函数表达;对不确定事件的偏好⽤⽀付函数的期望表达。
  2. 参与⼈的先验概率按照定义可以不同,即使所有参与⼈有共同的先验概率,也有可能和真实的概率
    分布⼤相径庭:但我们在纳什均衡中并不关⼼真实概率,每个参与⼈只需要关⼼⾃⼰的概率,计算
    ⾃⼰的期望最优回应就⾏了。

你可能感兴趣的:(博弈论学习2——贝叶斯博弈)