博弈论学习笔记

博弈论

  • 1 博弈
  • 2 策略式表述
    • 2.1 基本概念
    • 2.2 纳什均衡
    • 2.3 零和博弈

1 博弈

要素

  1. 参与人:指一个博弈中的决策主体
  2. 信息:参与人在博弈过程中能了解和观察到的知识

知识:一个博弈问题所涉及的参与者的特征、行动及相应的效用、收益等
共同知识:所有参与人知道,所有参与人知道所有参与人知道… 理性是共同知识

  1. 行动:是各参与人在博弈过程中的备选方案

行动组合:选择的行动集合;
行动顺序:参与人谁先行动,谁后行动。
策略:每个参与人的行动选择方案。指参与人如何对其他参与人的行动作出反应的行动规则,它规定参与人在什么时候选择什么行动。

  1. 支付:在一个特定策略组合下,各参与人得到的确定的效用或期望效用

分类

  • 合作&非合作:协议

合作博弈:研究人们达成合作的条件及如何分配合作得到的收益,即收益分配问题;强调团体理性效率、公正、公平;达成协议并遵守
非合作博弈:研究人们在利益相互影响的局势中如何决策以使自己的收益最大,即策略选择问题;强调个人理性;未达成协议

  • 静态&动态:策略

静态博弈:指参与人同时采取行动,或虽然行动顺序有先后,但后行动者也不知道先行动者采取的行动是什么;策略是一个决策或行动;策略式表述博弈
动态博弈:指双方的行动有先后顺序,并且后行动者在行动前有可能观测到其他先行动者的行动;策略是完整的行动方案;扩展式表述博弈

  • 完全信息&不完全信息

完全信息博弈:指每个参与人都拥有所有其他参与人的特征、策略及支付函数等方面的准确信息;
不完全信息博弈:指至少存在一个参与人对其他参与人的偏好、支付函数、策略等方面的知识是不完全的。

  • 零和&非零和

零和博弈:在所有场合下,所有参与人的支付之和恒为0
不为0的定值——定和博弈

  • 还包括演化博弈、随机博弈、微分博弈、组合博弈、行为博弈

2 策略式表述

2.1 基本概念

要素

  1. 博弈参与人: N N N——参与人的集合; i i i——参与人, i ∈ N i\in N iN
  2. 博弈参与人的策略集: S i S_i Si——参与人的策略集; s i s_i si—— S i S_i Si中的一个元素;
    S = ( s 1 , s 2 , … , s n ) S=(s_1,s_2,\dots,s_n) S=(s1,s2,,sn)——博弈的策略组合:所有参与人的策略放在一起;
    S − i = { ( s 1 , … , s i − 1 , s i + 1 , … , s n ) } S_{-i}=\{(s_1,\dots,s_{i-1},s_{i+1},\dots,s_n)\} Si={(s1,,si1,si+1,,sn)},则所有参与人的策略组合为 S = ( S i , S − i ) S=(S_i,S_{-i}) S=(Si,Si)
  3. 博弈参与人的支付函数: u i u_i ui——参与人 i i i的支付函数

囚徒困境:两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。两人支付矩阵如下

犯人1/犯人2 坦白 抵赖
坦白 (-8,-8) (0,-10)
抵赖 (-10,0) (-1,-1)

占优策略:指可以 无视他人选择,而给自己带来最大效用的策略

个人正确理性会造成最坏结局,降低集体福利;集体最优会侵害个人利益最大化
囚徒困境对于犯人1来说,无论犯人2选择坦白还是抵赖,最优策略都是坦白;对于犯人2也是一样。所有参与者的占优策略组合构成占优策略均衡:(坦白,坦白)

重复剔除严格 劣战略:找出某一参与人的严格劣策略,将其剔除,并不断重复,最终只留下唯一策略组合

2.2 纳什均衡

纳什均衡:对于博弈 G = ( N , S i , u i ) , i ∈ N G=(N,S_i,u_i),i\in N G=(N,Si,ui),iN,对于任意参与人 i i i,若存在一个策略组合 s ∗ = ( s i ∗ , s − i ∗ ) s^*=(s_i^*,s_{-i}^*) s=(si,si),满足 s i ∗ ∈ B i ( s − i ∗ ) s_i^*\in B_i(s_{-i}^*) siBi(si),则该策略组合 s ∗ s^* s为纳什均衡。即纳什均衡中的策略集为参与人的最优反应

最优反应:对于博弈 G = ( N , S i , u i ) , i ∈ N G=(N,S_i,u_i),i\in N G=(N,Si,ui),iN,对于参与人 i i i,给定其他参与人策略组合 s − i s_{-i} si i i i关于 s − i s_{-i} si的最优反应集是满足最优反应的效用大于任何其他策略的参与人 i i i的策略集,即: B i ( s − i ) = { s i ∈ S i ∣ u i ( s i , s − i ) ≥ u i ( s i ’ , s − i ) , ∀ s i ’ ∈ S i } B_i(s_{-i})=\{s_i\in S_i|u_i(s_i,s_{-i})\ge u_i(s_i^’,s_{-i}),\forall s_i^’\in S_i\} Bi(si)={siSiui(si,si)ui(si,si),siSi}

混合策略纳什均衡:对于博弈 G , ∀ i ∈ N G,\forall i\in N G,iN,参与人 i i i的策略 σ i ∗ \sigma_i^* σi是关于其他参与人均衡策略组合 σ − i ∗ \sigma_{-i}^* σi的最优反应,即 σ ∗ = ( σ i ∗ , σ − i ∗ ) , σ i ∗ ∈ r i ( σ − i ∗ ) , ∀ i ∈ N \sigma^*=(\sigma_i^*,\sigma_{-i}^*),\sigma_i^*\in r_i(\sigma_{-i}^*),\forall i\in N σ=(σi,σi),σiri(σi),iN,则策略组合 σ ∗ \sigma^* σ为混合策略纳什均衡

对于博弈 G = { S i , u i , i ∈ N } G=\{S_i,u_i,i\in N\} G={Si,ui,iN},称策略 s i ∈ S i s_i\in S_i siSi为参与人 i i i的纯策略
参与人 i i i的混合策略是定义在纯策略集上的一个概率分布
记参与人i的混合策略为 σ i \sigma_i σi,若 S i S_i Si中的元素个数为 k i k_i ki,则 i i i的一个混合策略可表示为 σ i = ( p i 1 , p i 2 , … , p i k i ) \sigma_i=(p_i^1,p_i^2,\dots,p_i^{k_i}) σi=(pi1,pi2,,piki)

纳什定理:对于博弈 G G G,如果参与人数及每个参与人的纯策略个数是有限的,那么至少存在一个混合策略纳什均衡

定理:对于博弈 G G G,若 σ ∗ = ( σ i ∗ , σ − i ∗ ) \sigma^*=(\sigma^*_i,\sigma^*_{-i}) σ=(σi,σi)是纳什均衡,那么对于任何参与人 i i i来说,他的均衡策略 σ i ∗ \sigma^*_i σi的支撑中的任意一个元素 s i ’ s^’_i si,也是关于 σ − i ∗ \sigma^*_{-i} σi的最优反应,即 u i ( s i ’ , σ − i ∗ ) = u i ( σ i ∗ , σ − i ∗ ) , ∀ s i ’ ∈ S u p p ( σ i ∗ ) u_i(s^’_i,\sigma^*_{-i})=u_i(\sigma^*_i,\sigma^*_{-i}),\forall s_i^’\in Supp(\sigma^*_i) ui(si,σi)=ui(σi,σi),siSupp(σi)

混合策略支撑 S u p p ( σ i ) Supp(\sigma_i) Supp(σi),参与人i的混合策略 σ i \sigma_i σi中以严格正概率选择的纯策略构成的集合

图解法:求出博弈双方关于对方不同混合策略下的最优反应函数,绘制于平面直角坐标系内,交点就是纳什均衡

2.3 零和博弈

你可能感兴趣的:(经验分享,学习)