博弈论沉思07完全信息动态搏弈

36博弈的基本概念

行动：参与人在某个时点的决策变量，Ai表示第i个参与人的一个特定行动，

Ai=｛ai｝表示可供i选择的所有行动的集。

行动的顺序：行动的顺序对于博弈的结果是非常重要的，事实上，不同的行动顺序意味着不同的博弈。

在博弈论中，一般假设参与人的行动空间和行动顺序是所有参与人的共同知识。

信息：参与人在博弈中的知识，特别是有关其他参与人的特征和行动的知识。

如房地产开发博弈中，如果A不知道市场需求，而B知道，则A的信息集为{大，小}，B的信息集为{大}或{小}完美信息：指一个参与人对其他参与人（包括“自然”）的行动选择有准确了解的情况，即每一个信息集只包含一个值。

再如求爱博弈中，如果被求爱者不知道求爱者到底是品德优良还是品德败坏，而求爱者知道，刚被求爱者的信息集为｛优良，恶劣｝，求爱者的信息集为｛优良｝或｛恶劣｝。

完全信息：指自然不首先行动或自然的行动的初始行动所有参与人观察到的情况。

共同知识：指“所有参与人知道所有参与人知道所有参与人知道…”的知识。

战略：参与人在给定信息集的情况下选择行动的规则，它规定参与人在什么情况下选择什么行动，是参与人的“相机行动方案”。

si表示第i个参与人的特定战略Si=｛si｝代表第i个参与人所有可选择的战略集合。

如果n个参与人每人选择一个战略，n维向量s=(s1，s2，…，si，…，sn）称为一个战略组合，si表示第i个人选择的战略。

在静态博弈中，战略和行动是相同的。作为一种行动规则，战略必须是完备的。

支付函数：参与人从博弈中获得的效用水平，或者指参与人得到的期望效用水平。

ui表示第i个参与人的支付（效用水平）。

u=（u1，u2，…，ui，…，un）为n个人的支付组合。

ui是所有参与人战略选择的函数：

ui=ui｛s1，s2，…，si，…，sn｝

博弈的基本特征是一个参与人的支付不仅取决于自己的战略选择，而且取决于所有其他参与人的战略选择。

结果：博弈分析真正感兴趣的要素的集合。如均衡战略组合、均衡行动组合、均衡支付组合等。

均衡：所有参与人的最优战略的组合。参与人、行动、结果称为博弈规则；博弈分析的目的是使用博弈规则决定均衡。

37博弈的战略式表述与扩展式表达

战略式表述：适用于静态博弈。扩展式表述：适用于动态博弈。

博弈的基本构造：

结：包括决策结和终点结两类；决策结是参与人行动的始点，终点结是决策人行动的终点。

结满足传递性和非对称性。

x之前的所有结的集合，称为x的前列集P（x），x之后的所有结的集合称为x的后续集T（x）。

枝：枝是从一个决策结到它的直接后续结的连线，每一个枝代表参与人的一个行动选择。

信息集：每个信息集是决策结集合的一个子集，该子集包括所有满足下列条件的决策结：

1 每个决策结都是同一个参与人的决策结；

2 该参与人知道博弈进入该集合的某个决策结，但不知道自己究竟处于哪一个决策结。

博弈扩展式表述：

只包含一个决策结的信息集称为单结信息集，如果博弈树的所有信息都是单结的，该博弈称为完美信息博弈。

自然总是假定是单结的，因为自然在参与人决策之后行动等价于自然在参与人之前行动但参与人不能观测到自然的行动。

不同的博弈树可以代表相同的博弈，但是有一个基本规则：一个参与人在决策之前知道的事情，必须出现在该参与人决策结之前。

完全信息动态搏弈——子博弈精炼纳什均衡

考虑下列问题：

一个博弈可能有多个（甚至无穷多个）纳什均衡，究竟哪个更合理？

纳什均衡假定每一个参与人在选择自己的最优战略时假定所有其他参与人的战略是给定的，但是如果参与人的行动有先有后，后行动者的选择空间依赖于前行动者的选择，前行动者在选择时不可能不考虑自己的行动对后行动者的影响。

子博弈精练纳什均衡的一个重要改进是将“合理纳什均衡”与“不合理纳什均衡”分开。

子博弈精练纳什均衡：

一个纳什均衡称为精练纳什均衡，当只当参与人的战略在每个子博弈中都构成纳什均衡，也就是说，组成精练纳什均衡的战略必须在每一个子博弈中都是最优的。

一个精练纳什均衡首先必须是一个纳什均衡，但纳什均衡不一定是精练纳什均衡。

泽尔腾（1965）引入子博弈精练纳什均衡的概念的目的是将那些不可置信威胁战略的纳什均衡从均衡中剔除，从而给出动态博弈的一个合理的预测结果，简单说，子博弈精练纳什均衡要求均衡战略的行为规则在每一个信息集上是最优的。

子博弈精炼纳什均衡——不可置信威胁。

美国普林斯顿大学古尔教授在1997年的《经济学透视》里发表文章，提出一个例子说明威胁的可置性问题：

两兄弟老是为玩具吵架，哥哥老是要抢弟弟的玩具，不耐烦的父亲宣布政策：好好去玩，不要吵我，不管你们谁向我告状，我都把你们两个关起来，关起来比没有玩具更可怕。

现在，哥哥又把弟弟的玩具抢去玩了，弟弟没有办法，只好说：快把玩具还我，不然我就要去告诉爸爸。各个想，你真要告诉爸爸，我是要倒霉的，可是你不告状不过没有玩具玩，而告了状却要被关禁闭，告状会使你的境遇变得更坏，所以你不会告状，因此哥哥对弟弟的警告置之不理。

策略即：如果他选择什么，我就怎样行动的相机行动方案。在扩展式博弈里，参与人是相机行事，即“等待”博弈到达一个自己的信息集（包含一个或多个决策结后，再采取行动方案）。

39扩展式博弈的战略组合

扩展式博弈的战略组合是一个子博弈精练纳什均衡，如果：

（1）它是原博弈的纳什均衡；

（2）它在每一个子博弈上给出纳什均衡。

完全信息动态博弈——子博弈精练纳什均衡：

如果一个博弈有几个子博弈，一个特定的纳什均衡决定了原博弈树上唯一的一条路径，这条路径称为“均衡路径”，博弈树上的其他路径称为“非均衡路径”。

纳什均衡只要求均衡战略在均衡路径的决策结上是最优的；

而构成子博弈精练纳什均衡不仅要求在均衡路径上策略是最优的，而且在非均衡路径上的决策结上也是最优的。这是纳什均衡与子博弈精练纳什均衡的实质区别。

战略是参与人行动规则的完备描述，它要告诉参与人在每一种可预见的情况下（即每一个决策结）上选择什么行动，即使这种情况实际上没有发生（甚至参与人并不预期它会发生）。

因此，只有当一个战略规定的行动规则在所有可能的情况下都是最优的，它才是一个合理的可置信的战略，子博弈精练纳什均衡就是要剔除那些只在特定情况下是合理的而在其他情况下不合理的行动规则。

24强盗分赃（向前展望，倒后推理）

有5个强盗抢得10枚硬币，在如何分赃上争论不休，于是他们决定：（1）抽签决定个人的号码（1，2，3，4，5）

（2）由1号提出分配方案，然后5人表决，如果方案超过半数同于就通过，否则他被扔进大海喂鲨鱼；

（3）1号死后，2号提方案，4人表决，当且仅当超过半数同意时方案通过，否则2号被扔进大海；

（4）依次类推，知道找到一个每个人都接受的方案（当然，如果只剩5号，他独吞）

结果会如何？

参与人1（丈夫）和参与人2（妻子）必须独立决定出门时是否带伞。他们知道下雨和不下雨的可能性均为50%，支付函数为：如果只有一人带伞，下雨时带伞者的效用为-2.5，不带伞者的效用为-3不下雨时带伞的效用为-1，不带的效用为0；如两人都不带伞，下雨时每人的效用为-5，不下雨时每人的效用为1；给出下列四种情况下的扩展式及战略式表述：

(1)两人出门前都不知道是否会下雨；并且两人同时决定是否带伞(即每一方在决策时都不知道对方的决策)；

(2)两人在出门前都不知道是否会下雨，但丈夫先决策，妻子观察到丈夫是否带伞后才决定自己是否带伞；

(3)丈夫出门前知道是否会下雨，但妻子不知道，但丈夫先决策，妻子后决策；

(4)，同(3)，但妻子先决策，丈夫后决策。

博弈论沉思07完全信息动态搏弈

你可能感兴趣的:(博弈论沉思07完全信息动态搏弈)