博弈论这门课程,我们主要参考的教材是《博弈论教程(罗云峰版)》,但是罗老师的课后习题并没有给出完整的答案,秉着学习的态度,本人结合教材和 PPT 在这里给出课后习题的答案。
由于我们只学了完全信息静态博弈和完全信息动态博弈,即第一部分和第二部分,因此,本人只写了习题一和二。在写题的过程中难免出错,欢迎大家指出,同时希望能够给大家提供一些帮助。
【题解】
【题解】
所谓博弈树就是由结和有向枝构成的“有向树”。
【题解】
为了将“企业2行动时是否知道自己是在博弈树中的点x2 上还是在点x3 上”这一点说清楚,需要引入“信息集”(information set)的概念
可以在博弈树中将同一信息集中的决策结用虚线连接起来。
【题解】
假设参与人不会忘记以前知道或者做过的事情。
在博弈分析中,如果没有“完美记忆”假设,各种博弈结果都有可能出现,那么我们也就无法对博弈进行预测。
【题解】
所谓完美信息的博弈是指每个参与人决策时都没有不确定性,也就是说,在博弈树中每个参与人的信息集都是单决策结的。
【题解】
【题解】
【题解】
逆向归纳法(Backward Induction)是一种解决动态博弈中的策略选择问题的方法。通过逆向思考,从最后的决策回溯到初始的决策节点,在这个过程中确定每个节点的最优策略。逆向归纳法是一种通用的方法,可以适用于完美信息动态博弈和不完美信息动态博弈。
在完美信息动态博弈中,参与者对博弈中所有信息都是完全了解的。参与者可以清楚地知道对手的策略选择和结果,因此可以采用逆向归纳法来寻找最优策略。
在不完美信息动态博弈中,参与者可能面临诸如信息不对称和未知概率等问题。这些因素会影响参与者的决策选择,并使得逆向归纳法难以应用。但是,如果我们加入一些假设,例如参与者有限理性或者遵循某些规则,逆向归纳法仍然可以用于分析不完美信息动态博弈。
下面通过一个例子来说明逆向归纳法在不完美信息动态博弈中的应用:
假设有两个零售商A和B,他们同时决定在某个购物平台上销售自己的产品或者不销售。他们都知道自己的产品售价和成本,但不知道对方的售价和成本。如果两家零售商都选择销售,他们的利润将会减少。如果只有一家零售商销售,那么该零售商将赢得所有的市场份额。
在这种情况下,参与者面临着信息不对称问题。在这种情况下,如果我们假设参与者有限理性,即他们不能完全理解对手的策略选择和结果,那么我们可以使用逆向归纳法来确定最优策略。
首先,我们可以从最后的决策开始,即假设零售商B选择销售,那么零售商A的最优策略是不销售,因为此时只有一个零售商销售,A可以赢得所有的市场份额,获得更高的利润。如果零售商B选择不销售,那么零售商A的最优策略是销售,因为此时只有零售商A销售,他可以赢得所有的市场份额,获得更高的利润。
通过逆向归纳法,我们可以确定每个节点的最优策略,从而确定整个博弈的最优策略。虽然该博弈存在信息不对称问题,但是我们可以通过假设参与者有限理性来应用逆向归纳法来分析和解决问题。
【题解】
【题解】
对于完美信息的博弈问题来说,子博弈精炼Nash均衡完全满足动态规划的最优性原理,即在任何决策时点上,子博弈精炼Nash均衡都能给出参与人的最优选择。此时,子博弈精炼Nash均衡不会含有参与人在博弈进程中不合理、不可置信的行动。
但是根据Kuhn定理,不能保证扩展式博弈只存在唯一的子博弈精炼Nash均衡。
【题解】
ChatGPT如是说(辩证看待,不一定是正确的):
有限重复博弈和无限重复博弈是两种不同类型的博弈,其区别在于博弈的进行次数和博弈的结束条件。
有限重复博弈:在有限重复博弈中,参与者在一定的回合数内进行博弈,并且预先确定了博弈的回合数。博弈的结束条件是达到了预设的回合数,每个回合的博弈都可以看作是一个子博弈。
无限重复博弈:在无限重复博弈中,参与者可以无限次地进行博弈,没有预先确定的结束条件。博弈可以一直持续下去,形成无穷多个子博弈。
在有限重复博弈和无限重复博弈中,子博弈的区别在于:
有限重复博弈的子博弈:在有限重复博弈中,每个回合的博弈可以看作是一个子博弈,这些子博弈之间是相互独立的,其结果并不会影响下一回合的博弈。因此,在有限重复博弈中,每个子博弈都可以单独分析和求解。
无限重复博弈的子博弈:在无限重复博弈中,博弈的进行是连续不断的,形成了无穷多个子博弈。每个子博弈的结果可能会影响下一回合的博弈,参与者在决策时需要考虑到未来的影响。因此,在无限重复博弈中,子博弈之间存在着时间序列上的依赖关系,需要采用动态策略来考虑整个博弈序列。
在无限重复博弈中,要考虑参与者收益的贴现的原因主要有两点:
时间价值:由于博弈是无限次进行的,未来的收益相对于当前收益存在时间价值,即未来的收益价值相对较低。为了综合考虑当前和未来的收益,我们需要对未来收益进行贴现,将其转化为当前的价值。
策略的影响:在无限重复博弈中,参与者的策略选择可能会对未来的博弈产生影响。通过考虑收益的贴现,参与者可以更好地权衡当前选择和未来影响,从而制定更为长远和优化的策略。
因此,在无限重复博弈中,考虑参与者收益的贴现可以更准确地反映参与者的决策思考和行为选择,有助于确定最优策略并预测博弈的结果。
【题解】
在一定的贴现率下,给出的触发策略能构成Nash均衡。
根据无名氏定理,要使得任何可行收益通过触发策略得到,需要贴现率足够接近1。
【题解】
通过承诺行动,使不可信的威胁变得可信,改变博弈问题的结构。因为对将来行动所作的可信威胁或承诺可以影响到当前的行动。
【题解】
【题解】
ChatGPT如是说:
Axelrod实验并不意味着“一报还一报”战略(也称为“逆向恶报”或“逆向承诺”战略)在任何情况下都是参与人的最优策略。事实上,最优策略取决于博弈的具体规则和其他参与者的行为。
在Axelrod实验中,“一报还一报”战略表现得非常成功,因为它能够避免陷入恶性循环并且能够建立信任。但是,在其他类型的博弈中,“一报还一报”战略可能并不是最优战略。
例如,在某些博弈中,参与者可能需要采取更具攻击性的策略来获得更高的收益,而在其他博弈中,参与者可能需要采取更合作的策略来维护关系并获得共赢结果。因此,在特定的博弈规则和其他参与者的行为下,最优策略可能会发生变化。
总之,Axelrod实验提供了有关博弈行为的重要见解,表明在一些情况下,“一报还一报”战略是一个可靠的选择。然而,在不同的博弈规则和参与者策略的情况下,最优策略可能需要进行适当的调整。
【题解】
【题解】
ChatGPT如是说:
Leontief劳资谈判模型是一种博弈论模型,用于解决雇主和工会之间的工资谈判问题。在这个模型中,雇主和工会交替提出工资要求,直到双方达成协议。
对于这个模型,可以使用Nash讨价还价解来得到Pareto有效的结果。然而,在Leontief劳资谈判模型所给定的博弈时序下,可能无法得到Nash讨价还价解。
这是因为,Nash讨价还价解通常适用于只有两个参与者的静态博弈,其中交互发生在单个时间点上。但是,Leontief模型是一个动态博弈,其中交互发生在多个时间点上。在这种情况下,博弈的复杂性增加,很难利用Nash讨价还价解来计算出最优结果。
相反,针对动态博弈,可以使用动态博弈理论中的其他方法,例如“观察到的策略”(Observational strategy)或“观察到的均衡”(Observational equilibrium)等来解决问题。这些方法通常涉及考虑参与者的长期策略和行为,并将其建模为一个序列博弈,从而提供更实际和可行的解决方案。
因此,对于Leontief劳资谈判模型所给定的博弈时序,Nash讨价还价解可能无法得到。但是,其他动态博弈理论的方法可以用于解决这个模型,并提供更实际和可行的解决方案。
【题解】
最终计算答案正确。
【题解】
特别说明:由于复习时间有限,没能完成习题二全部题目,只能帮大家到这了,大家加油噢~