这部分我们学习的是完全信息静态博弈,主要内容包括博弈论的基本概念、战略式博弈、Nash均衡、Nash均衡解的特性、以及Nash均衡的应用。
博弈论:研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。
完全理性的个人或群体发生直接相互作用的情形。博弈论研究这种情形下个人或群体的决策以及这种选择所导致的结果的理论。
传统的决策是从若干备选方案中选择一个有利方案,如出门带伞问题就是一个决策问题。而博弈是研究决策主体的行为发生直接相互作用时候的决策,在博弈中,决策主体的选择不仅与决策主体的偏好结构有关,而且与其他人的选择有关。
参与人的偏好具有一致性
参与人对面临的决策问题具有完全的理解
参与人具有强大的逻辑推理能力和计算能力
如果有一种每个参与人都知道的“信息或事件”,并且每个参与人都知道每个参与人都知道它,每个参与人都知道每个参与人都知道每个参与人都知道它,……,如此等等,那么这种“信息”对于参与人而言就是共同知识。显然关于一个事件的共同知识这个概念比人们所熟悉的“相互知识”需要更多的信息,共同知识是无穷尽的“相互知识”。
有了参与人完全理性和参与人完全理性是共同知识这两个假设,就可以确保博弈过程的分析具有逻辑上的一致性。
所有参与人都预测到的博弈结果,即参与人的一致性预测
将Nash均衡作为博弈问题的一致性预测,也就是博弈问题的解。
决策主体的行为相互作用时,当事人能否达成一个具有约束力的协议。
根据参与人的先后顺序。
参与人对其他参与人的特征,战略空间及支付函数在博弈开始时是否已知。
注意完美信息博弈与完全信息博弈的比较
博弈中选择行动以最大化自己效用的决策主体
参与人在博弈的某个时点的决策变量
博弈中每个参与人采取一个行动的一种博弈情形
参与人的行动规则,规定了参与人在每一种轮到自己行动的情形下,应该采取的行动。它是与博弈行动顺序相关的行动有序集,战略是行动的规则,而不是行动本身,作为行动规则,战略必须是完备的。
【特例】
在完全信息静态博弈中,不存在决策时序上的差异,所有参与人在同一决策时点即博弈开始那一时刻决策,因此所有参与人面临的决策情形只有一种。参与人的战略集与行动集相同。
博弈中每个参与人采取战略组合中相应战略Si的一种博弈情形。
参与人在博弈中的所得。参与人的支付就可表示为一种特定博弈情形(如行动组合或战略组合)下参与人得到的确定效用水平或期望效用水平。
参与人所具有的有关博弈的所有的知识。
博弈分析者所感兴趣的所有东西,如:均衡策略组合、均衡行动组合、均衡支付等。
所有参与人的最优的战略组合。在博弈论中,均衡是指所有个人的买卖规则(战略)的组合,均衡价格是这种战略组合的结果。
战略式博弈是博弈问题的一种规范性描述,亦称为标准式博弈。
战略式博弈是一种相互作用的决策模型,这种模型假设每个参与人仅选择一次行动或行动计划(战略),并且这些选择是同时进行的。
理性的前提假设,使得每个小偷都有背离“抵赖,抵赖”的意愿,因此,小偷的选择会偏离“抵赖”,而选择“坦白”。
无论对方如何选择,每个小偷都会选择“坦白”,可以发现战略“坦白”具有这样的特点:无论对方怎样选择(选择“坦白”或者“抵赖”),“坦白”总是理性小偷的最优战略,而与其他小偷的选择无关。
在学习占优行为、重复剔除劣战略行为这章之前,不妨做一做下面这道题。
【收益矩阵的参数范围问题】
【题解】
参与人的最优战略与其他参与人的选择无关。无论其他参与人选择什么战略,参与人的最优战略总是唯一的。这样的最优战略我们称为“占优战略”(dominant strategy)
在一个博弈问题中,如果某个参与人具有占优战略,那么只要这个参与人是理性的,他肯定就会选择他的占优战略。参与人的这种选择行为我们称为占优行为。占优行为是理性参与人选择行为的最基本特征。
如果所有的参与人都具有占优战略,那么只要参与人是理性的,肯定都会选择自己的占优战略。
博弈的结果就由参与人的占优战略共同决定。像这种由参与人的占优战略共同决定的博弈结果,称为占优战略均衡(dominant-strategy equilibrium)。
一般而言,如果每次剔除的是严格劣战略,均衡结果与剔除顺序无关;如果剔除的是弱战略,均衡结果可能与剔除顺序有关
在重复剔除劣战略的过程中,需要注意:
重复剔除劣战略均衡要求“理性”为“共同知识” 。
一般而言,参与人的战略空间越大,需要剔除的步骤就越多,对“理性”的要求就越严格。
博弈分析是在博弈问题的结构和参与人完全理性为共同知识下进行的;
对博弈问题的求解,等同于完全理性的参与人对博弈的求解;
博弈问题的解:所有参与人的一致性预测。
【划线法】
在两人博弈中,相互构成最优战略的战略组合就是Nash均衡。
【箭头法】
在两人博弈中,一个战略组合只有在两个参与人都不愿意偏离的情况下才能构成Nash均衡。计算步骤如下:
对于每个战略组合,检查是否有参与人会偏离
找出没有参与人会偏离的战略组合
以一定的概率分布来选择自己战略的行为,在博弈中称之为混合战略。与此相对应,参与人在给定信息下只选择一种特点战略,成为纯战略。
混合战略解释了一个参与人对其他参与人所采取的行动的不确定性,它描述了参与人在给定信息下以某种概率分布随机地选择不同的行动或战略。混合战略为定义在纯战略集上的一个概率分布。
对于混合战略,参与人的支付是不确定的,此时,参与人关心的是支付的期望收益。
【举例说明】
掌握支撑的写法
支撑法求解过程中可能遇到的问题:
用剔除劣战略的方法,排除支撑!!!
从理论上来讲,这两种方法对有限战略式博弈都是适用的,但从以上例子的求解过程来看,都存在着计算过程复杂,计算量大等问题,尤其是对多人(即参与人人数大于2)博弈问题。当参与人人数大于2时,使用支撑法,就必须求解非线性方程组;而使用规划法,就必须求解一个无论是目标函数还是约束条件都是非线性的规划问题。
Nash均衡是博弈中的一种一致性预测——如果所有参与人预测一个特点的Nash均衡会出现,那么所有参与人都不会偏离,这个Nash均衡就会出现。
对任一个参与人i,在给定其他参与人选择的情况下,均衡战略是自己的最优战略。
每一个有限的战略式博弈至少存在一个Nash均衡(包括纯战略和混合战略Nash均衡)。
传统的博弈论研究的问题或许并不是如何找到博弈的Nash均衡(即存在性问题),而是在博弈的多个Nash均衡中选择一个合理的均衡(即多重性问题)。
但事实上,当在一个博弈中存在多个Nash均衡时,目前还没有一个一般的理论能证明哪个Nash均衡结果一定会出现。
1、均衡精炼的方法
从博弈解的定义入手,在Nash均衡的基础上,通过定义更加精炼的博弈解如子博弈精炼Nash均衡、精炼贝叶斯Nash均衡等,剔除Nash均衡中不合理的均衡。这种解决Nash均衡多重性的思路具有普遍性,对所有的博弈问题都适用;
均衡精炼的方法可以称为规范式的方法,其它的方法称为非规范式的方法。
2、非规范式的方法
焦点效应
相关均衡
在一个具有多重均衡的博弈中,趋向于将参与人的注意力集中到一个均衡的任何事情,都可能使参与人全都预期并随之实行这个均衡,就像一个自行应验的预言一样。
Schelling将这种现象称之为“焦点效应” (focal-point effect)。
在焦点效应中具有某种使它显著地区别于所有其它均衡性质的均衡,被称为“焦点均衡”(focal equilibrium)。
结合“性别战”的例子理解,详见PPT
博弈的现实状况或背景也会将博弈引向特定的均衡。
此外,“焦点效应”在某些博弈中还可能由均衡战略自身的性质来确定。
但是需要注意的是,聚焦因素只有针对Nash均衡时才可能是有效的。
类似于“性别战”中这种博弈之前进行的沟通或商议,在博弈分析中称之为具有通信的博弈或“廉价磋商”(cheap talk)。
在博弈分析中,将参与人在博弈开始之前,不花任何成本所达成的、对参与人没有约束力的协议称为“廉价磋商”。
在“性别战”博弈中,夫妻双方通过长期的共处,在周末娱乐项目的选择上可能会形成这样的习惯:双方根据周末的天气状况来选择娱乐项目。
便得到了一种解决Nash均衡多重性问题的方式:让参与人根据某个共同观测到的信号(如“性别战”中的天气状况)来选择行动。
如果参与人根据信号选择行动的规则本身能够构成一个Nash均衡,那么参与人就可能会根据某个共同观测到的信号来选择行动。这种由参与人的行动规则所构成的Nash均衡,就是Aumann定义的“相关均衡”(correlated equilibrium)。
该模型研究了寡头垄断市场中,企业追求利润最大化时的决策问题。
上面两个函数分别描述了给定对手的产量,企业 i 应该如何反应,因而分别称为企业1与企业2的反应函数(reaction function)。
反应函数意味着每个企业的最优产量是另一个企业的产量的函数,两个反应函数的交点便是Nash均衡点。
联合垄断市场、“垄断最优的情形在两个寡头的时候是无法达到”等内容详见PPT
在寡头垄断市场中,企业关心更多的可能是自己的产品在市场上的价格,而不是生产多少产品,也就是说,企业进行的可能是价格竞争而不是产量竞争。
在Hotelling价格竞争模型中,Hotelling通过引入产品在空间位置上的差异,巧妙地解决了产品的差异形式的描述问题。
在Hotelling价格竞争模型中,产品虽然仍是同质的,但其在空间位置上有差异,因而对于不同位置的消费者其运输成本不同,由此导致产品不再是完全替代的。
通过引入产品的位置差异,使得企业的均衡利润不再为0,而企业的定价也大于产品的边际成本,在一定程度上解释了Bertrand悖论。
在上面的分析中,我们将两个企业固定于线性城市的两端。如果允许企业在选择价格的同时还可以选择位置,那么两个企业都会选择线性城市的中点(即[0,1]区间的中点),而当两个企业都位于中点时,Bertrand均衡则成为模型的唯一均衡。
公共资源被过度使用,如草原沙化,渔业资源枯竭以及各种矿产资源的过度开发等等,使人类社会的生存面临着极大的挑战。以G. Hardin的公共财产模型为例,分析人们的利己行为如何使得公共资源被过度使用。
具体求解过程详见PPT