经典博弈论中, 有着完全信息和完全理性的强假设, 这在现实生活中很难实现. 演化博弈论摒弃以上两种假设, 利用自然选择、突变等机制, 来分析和预测参与个体的策略演化过程和动态平衡. 在这一章节, 将介绍演化博弈论的基础内容. 首先先介绍群体博弈, 接着介绍有限群体演化策略的随机演化动力学, 最后阐述无限群体演化中的连续演化动力学.
群体博弈 (population game) 理论是以一个由多个参与个体组成的群体作为研究对象. 其具有以下典型特征:
根据参与个体的数目, 可以将群体博弈分为有限群体博弈和无限群体博弈. 在现实中, 不可能存在无限个个体, 两者的区别在于, 有限群体博弈采用数量刻画群体状态, 无限群体博弈采用比例刻画群体状态.
在有限群体博弈中, 参与个体数是一个自然数, 设为 N N N. 令 S = { 1 , 2 , . . . , m } \mathcal S=\{1,2,...,m \} S={1,2,...,m} 表示个体选择的策略集合. 在博弈的过程中, 每个个体从集合 S \mathcal S S 中选取一个策略. 设 x i x_i xi 为群体选择策略 i ∈ S i \in \mathcal S i∈S 的个体数目, 那么群体的状态可以记为 x = ( x 1 , x 2 , . . . , x m ) \boldsymbol x=(x_1,x_2,...,x_m) x=(x1,x2,...,xm), 有 x i ∈ N x_i \in \mathbb N xi∈N 且 ∑ i ∈ S x i = N \sum_{i\in \mathcal S}x_i =N ∑i∈Sxi=N. 每个策略的效用函数
U i : X → R , X = { x ∣ x i ∈ N , ∑ i ∈ S x i = N } (2.1) U_i:X\rightarrow \mathbb R,\ \ X=\{\boldsymbol x |x_i \in \mathbb N, \sum_{i\in \mathcal S}x_i =N \} \tag{2.1} Ui:X→R, X={x∣xi∈N,i∈S∑xi=N}(2.1) 是群体状态到实数集的一个映射, 其中 X X X 指群体状态的集合.
一般地, 一个有限群体博弈由群体中包含的元素个数 N N N, 群体的策略集合 S = { 1 , 2 , . . . , m } \mathcal S=\{1,2,...,m \} S={1,2,...,m}, 以及每个策略的效用函数 U i : X → R U_i:X\rightarrow \mathbb R Ui:X→R 三个要素共同定义. 方便起见, 用记号
U = ( U 1 , U 2 , . . . , U m ) (2.2) U = (U_1, U_2, ...,U_m) \tag{2.2} U=(U1,U2,...,Um)(2.2) 来表示一个群体博弈.
两人对称矩阵博弈生成的群体博弈是最常见的群体博弈. 给定策略集合 S = { 1 , 2 , . . . , m } \mathcal S=\{1,2,...,m \} S={1,2,...,m}, 收益矩阵 M = ( m i j ) m × m \boldsymbol M = (m_{ij})_{m \times m} M=(mij)m×m. 给定一个大小为 N N N 的群体, 令群体中每一个个体都和其他所有个体进行两人博弈, 个体的收益为两人博弈的收益之和. 令 x = ( x 1 , x 2 , . . . , x m ) \boldsymbol x=(x_1,x_2,...,x_m) x=(x1,x2,...,xm) 表示群体状态, 有 ∑ i ∈ S x i = N \sum_{i\in \mathcal S}x_i =N ∑i∈Sxi=N, 于是每个策略 i ∈ S i\in \mathcal S i∈S 的效用函数为
U i ( x ) = m i 1 x 1 + ⋯ + m i , i − 1 x i − 1 + m i i ( x i i − 1 ) + m i , i + 1 x i + 1 + ⋯ + m i m x i m = ∑ j ∈ S m i j x j − m i i = e j M ( x − e j ) T (2.3) \begin{aligned} U_i(\boldsymbol x) &=m_{i1}x_1+\cdots +m_{i,i-1}x_{i-1}+m_{ii}\left( x_{ii}-1 \right) +m_{i,i+1}x_{i+1}+\cdots +m_{im}x_{im} \\ &=\sum_{j\in \mathcal{S}}{m_{ij}x_j}-m_{ii} \\ &=\boldsymbol{e}_j\boldsymbol{M}\left( \boldsymbol{x}-\boldsymbol{e}_j \right) ^T \end{aligned} \tag{2.3} Ui(x)=mi1x1+⋯+mi,i−1xi−1+mii(xii−1)+mi,i+1xi+1+⋯+mimxim=j∈S∑mijxj−mii=ejM(x−ej)T(2.3) 其中, e j \boldsymbol{e}_j ej 表示第 j j j 个元素为1其余元素为0的 m m m 阶单位横向量.
设策略集合为 S = { 1 , 2 , . . . , m } \mathcal S=\{1,2,...,m \} S={1,2,...,m}, 在无限群体博弈中, 群体状态 x = ( x 1 , x 2 , . . . , x m ) \boldsymbol x=(x_1,x_2,...,x_m) x=(x1,x2,...,xm) 表示每个策略的个体数目比例. 此时, 群体的集合状态为 X = { x ∣ x i ∈ [ 0 , 1 ] , ∑ i ∈ S x i = 1 } X=\{\boldsymbol x |x_i \in [0,1], \sum_{i\in \mathcal S}x_i =1\} X={x∣xi∈[0,1],∑i∈Sxi=1} 是一个 m − 1 m-1 m−1 维的单纯形 Δ m \varDelta _m Δm. 策略 i i i 的策略函数 U i : X → R U_i: X\rightarrow \mathbb R Ui:X→R 是一个从群体状态到实数集的一个映射, 通常被假定为 Lipschitz 连续或者连续可微的.
在无限群体的两人对称矩阵博弈中, 收益矩阵为 M \boldsymbol M M, 个体采用策略 i i i 的期望收益为
U i ( x ) = ∑ j ∈ S m i j x j = e i M x T , (2.4) U_i (\boldsymbol x)=\sum_{j \in \mathcal S} m_{ij}x_j=\boldsymbol e_i \boldsymbol M \boldsymbol x ^T, \tag{2.4} Ui(x)=j∈S∑mijxj=eiMxT,(2.4) 而整个群体的平均收益为:
U ˉ ( x ) = ∑ i ∈ S x i U i ( x ) = x M x T . (2.5) \bar{U} (\boldsymbol x) = \sum_{i \in \mathcal S} x_iU_i(\boldsymbol x)=\boldsymbol x \boldsymbol M \boldsymbol x ^T. \tag{2.5} Uˉ(x)=i∈S∑xiUi(x)=xMxT.(2.5) 从式 ( 2.4 ) (2.4) (2.4) 与 ( 2.5 ) (2.5) (2.5) 可以看出, 无限群体博弈中, 种群的策略分布 x = ( x 1 , x 2 , . . . , x m ) \boldsymbol x=(x_1,x_2,...,x_m) x=(x1,x2,...,xm) 对每个个体收益的影响等同于一个使用混合策略 x = ( x 1 , x 2 , . . . , x m ) \boldsymbol x=(x_1,x_2,...,x_m) x=(x1,x2,...,xm) 的对手对个体收益的影响, 因此, 无限群体博弈常常被用于搜索两人对称博弈的混合策略纳什均衡.
假设当前的群体状态为 x \boldsymbol x x, 定义群体博弈 U = ( U 1 , U 2 , . . . , U m ) \boldsymbol U=(U_1,U_2,...,U_m) U=(U1,U2,...,Um) 的纯策略最优响应如下:
B R p ( x ) = arg max i ∈ S U i ( x ) (2.6) \mathcal {BR}_{p} (\boldsymbol x) =\arg \max_{i\in \mathcal S} U_i (\boldsymbol x) \tag{2.6} BRp(x)=argi∈SmaxUi(x)(2.6) 群体博弈的纯策略最优响应是从群体状态到策略集合的一个映射, 它对应当前群体状态下效用最高的策略集合.
群体博弈的混合策略最优响应如下:
B R m = { y ∈ Δ m ∣ y i > 0 ⇔ i ∈ B R p } (2.7) \mathcal{BR}_m=\{y\in \varDelta_m | y_i >0 \Leftrightarrow i \in \mathcal {BR}_{p} \} \tag{2.7} BRm={y∈Δm∣yi>0⇔i∈BRp}(2.7) 群体博弈的混合策略最优响应是从群体状态集合到群体状态集合的映射, 它是由部分或全部纯策略最优响应策略组成的群体状态集合.
定义2-1 (群体博弈纳什均衡) 给定群体博弈 U U U, 如果一个群体状态 x ∗ \boldsymbol x^* x∗ 满足条件: x ∗ ∈ B R m ( x ∗ ) \boldsymbol x^* \in \mathcal{BR}_m (\boldsymbol x^*) x∗∈BRm(x∗), 则称状态 x ∗ \boldsymbol x^* x∗ 是群体博弈的一个纳什均衡. 群体博弈 U U U 的纳什均衡集合可以记为
N E ( U ) = { x ∈ Δ m ∣ x ∈ B R m ( x ) } . (2.8) NE(U)=\{ \boldsymbol x \in \varDelta_m | x\in \mathcal{BR}_m(\boldsymbol x) \}. \tag{2.8} NE(U)={x∈Δm∣x∈BRm(x)}.(2.8) 上诉等价于
N E ( U ) = { x ∈ Δ m ∣ ∀ i , j ∈ S , x i > 0 ⇔ U i ( x ) ≥ U j ( x ) } . (2.9) NE(U)=\{ \boldsymbol x \in \varDelta_m | \forall i,j \in \mathcal S, x_i >0 \Leftrightarrow U_i(\boldsymbol x) \ge U_j(\boldsymbol x) \}. \tag{2.9} NE(U)={x∈Δm∣∀i,j∈S,xi>0⇔Ui(x)≥Uj(x)}.(2.9)
定理2-1 所有群体博弈都存在至少一个纳什均衡.
定义2-2 (演化稳定策略, evolutionary stable stratey) 给定一个群体博弈 U = ( U 1 , U 2 , . . . , U m ) \boldsymbol U=(U_1,U_2,...,U_m) U=(U1,U2,...,Um), 对于一个群体状态 x ∗ \boldsymbol x^* x∗, 如果存在 ϵ ˉ > 0 \bar{\epsilon}>0 ϵˉ>0, 使得对任意 0 < ϵ < ϵ ˉ 0<\epsilon<\bar{\epsilon} 0<ϵ<ϵˉ 及 x ≠ x ∗ \boldsymbol x \neq \boldsymbol x^* x=x∗ 都有
x ∗ U T ( ( 1 − ϵ ) x ∗ + ϵ x ) > x U T ( ( 1 − ϵ ) x ∗ + ϵ x ) , ∀ x ∈ Δ m , (2.10) \boldsymbol x^* \boldsymbol U^T ((1-\epsilon)\boldsymbol x^*+\epsilon\boldsymbol x)>\boldsymbol x \boldsymbol U^T ((1-\epsilon)\boldsymbol x^*+\epsilon\boldsymbol x), \forall x \in \varDelta_m, \tag{2.10} x∗UT((1−ϵ)x∗+ϵx)>xUT((1−ϵ)x∗+ϵx),∀x∈Δm,(2.10) 则称 x ∗ \boldsymbol x^* x∗ 为这个群体博弈的演化稳定策略.
群体博弈的演化稳定策略表示为: 给定一个群体博弈 U \boldsymbol U U, 假设当前群体状态为 x ∗ \boldsymbol x^* x∗, 在突变或者自由探索的作用下, 有一定比例 ϵ > 0 \epsilon>0 ϵ>0 的个体采取任意新的状态 x ∈ Δ m \boldsymbol x \in \varDelta_m x∈Δm, 其他 1 − ϵ 1-\epsilon 1−ϵ 的个体保持原来状态. 因此群体状态变化为 ( 1 − ϵ ) x ∗ + ϵ x (1-\epsilon)\boldsymbol x^*+\epsilon \boldsymbol x (1−ϵ)x∗+ϵx. 在这种新状态中, 保持原来状态部分群体的平均收益就大于采取新状态部分群体的收益, 则称原来的状态 x ∗ \boldsymbol x^* x∗ 是演化稳定的.
群体状态 x ∗ \boldsymbol x^* x∗ 是演化稳定策略的条件包括:
对于矩阵博弈而言, 严格纳什均衡一定是演化稳定策略, 而演化稳定策略一定是那是均衡. 因此, 演化稳定策略是纳什均衡的一个细化.
演化博弈理论的核心特征在于群体博弈中的群体状态随时间变化的动态过程, 并通过群体状态的演化特性来解释和预测群体在博弈中的决策行为1. 演化博弈模型如图2.12所示.
下面, 将进一步介绍个体收益及其适应度、一些典型策略更新规则、演化动力学平稳分布与策略选择的关系等内容.
给定有限群体博弈 U = ( U 1 , U 2 , . . . , U m ) \boldsymbol U = (U_1, U_2,...,U_m) U=(U1,U2,...,Um), 个体集合 V = { v 1 , v 2 , . . . , v n } \mathcal V = \{ v_1, v_2,...,v_n \} V={v1,v2,...,vn}, 策略集合 S = { 1 , 2 , . . . , m } \mathcal S =\{1,2,...,m\} S={1,2,...,m}. 那么当群体状态为 x = ( x 1 , x 2 , . . . , x m ) \mathbb x =(x_1, x_2, ..., x_m) x=(x1,x2,...,xm) 时, 一个个体 v i ∈ V v_i \in \mathcal V vi∈V 采取策略 s i ∈ S s_i \in \mathcal S si∈S 的收益为 π i ( x ) = U s i ( x ) \pi_i(\boldsymbol x)=U_{s_i}(\boldsymbol x) πi(x)=Usi(x).
个体收益可正可负, 但适应度只能是正数, 因此常用指数函数
f i ( x ) = e x p ( w × π i ( x ) ) (2.11) f_i(\boldsymbol x) = exp(w\times \pi_i(\boldsymbol x)) \tag{2.11} fi(x)=exp(w×πi(x))(2.11) 来表示个体 v i v_i vi 的适应度 (fitness), 其中 w ≥ 0 w \ge 0 w≥0 表示调节选择强度的常数. 当 w = 0 w=0 w=0 时, 个体收益对适应度没有影响, 所有个体适应度为 f i = 1 f_i = 1 fi=1 完全相同, 这一演化过程称为**随机漂移 (random drift)**过程, 表示群体状态的演化与群体博弈无关, 完全由随机因素决定.
当 w → 0 w \rightarrow 0 w→0 时, 个体收益对适应度影响非常小, 通过指数函数线性化可得到
f i ( x ) = 1 + w × π i ( x ) . (2.12) f_i(\boldsymbol x) = 1+w\times \pi_i(\boldsymbol x). \tag{2.12} fi(x)=1+w×πi(x).(2.12) 这种适应度影响很小担忧不可忽略的情景称为弱选择 (weak selection), 这是最常见的一种情形. 对应的, w ≫ 0 w \gg0 w≫0 的情景称为强选择 (strong selection).
弱选择和强选择都统称为状态依赖的选择 (state-dependent selection), 该两种场景下的适应度都依赖于群体状态. 当适应度于群体状态无关时, 即 f i ( x ) = c s i f_i(\boldsymbol x) = c_{s_i} fi(x)=csi, 这里 c s i c_{s_i} csi 指一个依赖策略 s i s_i si 的常数, 这种场景称为常数选择 (constant selection).
典型更新过程有四种: 生灭过程, 死生过程, 模仿过程, Wright-Fisher 过程. 其中, 前三种过程每一步只更新一个个体, 称为随机时序更新; Wright-Fisher 过程每一步更新一个群体, 为同步更新. 具体如下:
有限群体博弈中的策略演化过程对应于一个有限状态的马尔可夫链. 生灭过程与 Wright-Fisher 过程的数学模型可参考参考文献 2.
有限群体博弈中的策略更新过程定义了一个在群体状态集合上的马尔可夫过程. 对应的马尔科夫过程具有以下性质:
平稳分布的概念如下:
定义2-3 (马氏过程的平稳分布, stationary distribution of a Markov process) 设 P P P 是反映状态转移的正规概率矩阵, 对于某一状态向量 x ~ \tilde{\boldsymbol{x}} x~ 满足 x ~ P = x ~ \tilde{\boldsymbol{x}}P = \tilde{\boldsymbol{x}} x~P=x~. 则称 x ~ \tilde{\boldsymbol{x}} x~ 为该马氏过程的平稳状态概率向量, 又称平稳分布, 或称为 P P P 的不变测度 (invariant measure).
定理2-2 给定一个大小为 n n n 的群体, 其中在初始时刻 i i i 策略个体的数目为 k ≤ n k\le n k≤n, 那么生灭过程 (死生过程或 Wright-Fisher 过程) 下, 如果不考虑突变概率 (即 μ = 0 \mu =0 μ=0) 且选择强度为 w = 0 w=0 w=0, 则 i i i 策略个体的固定概率为
ρ i = k n . (2.13) \rho_i =\frac{k}{n} \tag{2.13}. ρi=nk.(2.13) 在随机漂移过程中, 每种策略的个体在中群众所占的比例是关于这个随机漂移的不变鞍3.
定理2-3 给定一个大小维 n n n 的群体, 假定其群体博弈由如下两人对称矩阵博弈生成:
A B A a b B c d , (2.14) \begin{array}{c|c c} & A & B \\ \hline A & a &b \\ B & c & d \\ \end{array}, \tag{2.14} ABAacBbd,(2.14) 其中, { A , B } \{ A,B \} {A,B} 为策略集合. 在弱选择 w → 0 w \rightarrow 0 w→0 作用下, 对于具有任意突变概率 μ ∈ [ 0 , 1 ] \mu \in [0,1] μ∈[0,1] 的生灭过程 (或死生过程), 如果
n − 2 n a + b > c + n − 2 n d , (2.15) \frac{n-2}{n}a+b>c+\frac{n-2}{n}d, \tag{2.15} nn−2a+b>c+nn−2d,(2.15) 那么群体对策略 A A A 偏好于策略 B B B.
无限群体博弈中, 群体的状态空间集合是一个连续空间, 通常使用微分方程来刻画群体的演化过程.
给定一个群体博弈 U ( x ) = ( U 1 ( x ) , U 2 ( x , . . . , U m ( x ) ) U(\boldsymbol x) =(U_1 (\boldsymbol x), U_2(\boldsymbol x,...,U_m(\boldsymbol x)) U(x)=(U1(x),U2(x,...,Um(x)). 令 S = { 1 , 2 , . . . , m } \mathcal S = \{ 1,2,...,m \} S={1,2,...,m} 为每个个体的策略集合, x = ( x 1 , x 2 , . . . , x m ) \boldsymbol x =(x_1, x_2, ..., x_m) x=(x1,x2,...,xm) 为群体状态, 其中 x i x_i xi 表示策略 i ∈ S i\in \mathcal S i∈S 在群体中所占的比例. 显然, 群体状态集合是一个 m m m 维的单纯形
Δ m = { x ∈ R + m ∣ ∑ i ∈ S x i = 1 } . (2.16) \varDelta_m=\left\{ \boldsymbol{x}\in \mathbb{R}_{+}^{m}\left| \sum_{i\in \mathcal{S}}{x_i}=1 \right. \right\}. \tag{2.16} Δm={x∈R+m∣∣∣∣∣i∈S∑xi=1}.(2.16)
定义2-4 (状态调整协议) 群体状态的调整协议是一个从策略的效用值 U ∈ R m U\in \mathcal R^m U∈Rm, 和群体状态 x ∈ Δ m \boldsymbol x \in \varDelta_m x∈Δm 到 m × m m\times m m×m 维非负实数集的映射 τ : R m × Δ m → R m × m \tau: \mathcal R^m \times \varDelta_m \rightarrow \mathcal R^{m\times m} τ:Rm×Δm→Rm×m. 这个映射的第 i i i 行第 j j j 列的元素 τ i j ( U ( x ) , x ) \tau_{ij}(U(\boldsymbol x), \boldsymbol x) τij(U(x),x) 表示群体中 i i i 策略个体转化为 j j j 策略个体的比率, 其中 i , j ∈ S i,j \in \mathcal S i,j∈S. 如果在给定策略效用后, 群体的状态调整协议于群体当前状态无关, 那么将 τ i j ( U ( x ) , x ) \tau_{ij}(U(\boldsymbol x), \boldsymbol x) τij(U(x),x) 记作 τ i j ( U ( x ) ) \tau_{ij}(U(\boldsymbol x)) τij(U(x)), 其中 i , j ∈ S i,j \in \mathcal S i,j∈S.
定义2-5 (平均动力学) 给定一个群体博弈 U U U 和状态调整协议 τ \tau τ, 群体状态的平均动力学是指如下微分方程:
x ˙ i = ∑ j ∈ S x j τ j i ( U ( x ) , x ) − x i ∑ j ∈ S τ i j ( U ( x ) , x ) , ∀ i ∈ S (2.17) \dot{x}_i=\sum_{j\in \mathcal{S}}{x_j\tau _{ji}\left( U\left( \boldsymbol{x} \right) ,\boldsymbol{x} \right)}-x_i\sum_{j\in \mathcal{S}}{\tau _{ij}\left( U\left( \boldsymbol{x} \right) ,\boldsymbol{x} \right)},\ \forall i\in \mathcal{S} \tag{2.17} x˙i=j∈S∑xjτji(U(x),x)−xij∈S∑τij(U(x),x), ∀i∈S(2.17) 在平均动力学中, 每个策略所占比例的变化 x ˙ i \dot{x}_i x˙i 等于从其他策略个体转变为 i i i 策略个体的比例减去 i i i 策略个体转变为其他策略个体的比例.
假设个体通过模仿其他个体的策略来调整自己的策略, 具体地, 每个个体随机地从群体中选择一个模仿对象, 显然每个策略被选择作为模仿对象的概率正比于这个策略在群体中所占的比例, 如果模仿对象的收益大于这个个体本身的收益, 则这个个体以正比两者收益差的概率采用模仿对象的策略; 否则, 这个个体保持其原来策略不变.
基于上述更新规则, i ∈ S i\in \mathcal S i∈S 策略个体转化为 任意 j ∈ S j \in \mathcal S j∈S 策略个体的比例为
τ i j ( U ( x ) , x ) = x j [ U j ( x ) − U i ( x ) ] + , (2.18) \tau _{ij}\left( U\left( \boldsymbol{x} \right) ,\boldsymbol{x} \right) =x_j\left[ U_j\left( \boldsymbol{x} \right) -U_i\left( \boldsymbol{x} \right) \right] _+ , \tag{2.18} τij(U(x),x)=xj[Uj(x)−Ui(x)]+,(2.18) 其中
[ y ] + = { y , y ≥ 0 0 , y < 0 . (2.19) \left[ y \right] _+=\left\{ \begin{array}{l} y,&y\ge 0\\ 0,&y<0\\ \end{array} \right. . \tag{2.19} [y]+={y,0,y≥0y<0.(2.19) 将式 ( 2.18 ) (2.18) (2.18) 代入平均动力学方程中, 可得到
x ˙ i = ∑ j ∈ S x j x i [ U i ( x ) − U j ( x ) ] + − x i ∑ j ∈ S x j [ U j ( x ) − U i ( x ) ] + = x i ∑ j ∈ S x j [ U i ( x ) − U j ( x ) ] (2.20) \begin{aligned} \dot{x}_i &=\sum_{j\in \mathcal{S}}{x_jx_i\left[ U_i\left( \boldsymbol{x} \right) -U_j\left( \boldsymbol{x} \right) \right] _+}-x_i\sum_{j\in \mathcal{S}}{x_j\left[ U_j\left( \boldsymbol{x} \right) -U_i\left( \boldsymbol{x} \right) \right] _+} \\ & =x_i\sum_{j\in \mathcal{S}}{x_j\left[ U_i\left( \boldsymbol{x} \right) -U_j\left( \boldsymbol{x} \right) \right]} \end{aligned} \tag{2.20} x˙i=j∈S∑xjxi[Ui(x)−Uj(x)]+−xij∈S∑xj[Uj(x)−Ui(x)]+=xij∈S∑xj[Ui(x)−Uj(x)](2.20) 令 U ˉ ( x ) = ∑ j ∈ S x j U j ( x ) \bar{U}(\boldsymbol x) =\sum_{j\in \boldsymbol S}{x_j U_j (\boldsymbol x)} Uˉ(x)=∑j∈SxjUj(x) 表示群体的平均收益, 上述方程可以改写为 x ˙ i = x i ( U i ( x ) − U ‾ ( x ) ) , ∀ i ∈ S (2.21) \dot{x}_i=x_i\left( U_i\left( \boldsymbol{x} \right) -\overline{U}\left( \boldsymbol{x} \right) \right) ,\ \forall i\in \mathcal{S} \tag{2.21} x˙i=xi(Ui(x)−U(x)), ∀i∈S(2.21) 在这个动力学过程中, 如果某一策略的收益大于群体的平均收益, 那么这个策略在群体中所占的比例就会增长; 相反地, 如果某一策略的收益小于群体的平均收益, 那么这个策略在群体中所占的比例就会下降, 同时, 一个策略所占比例的平均增长率或下降率 x ˙ i / x i \dot{x}_i/x_i x˙i/xi 正比于这个策略的收益与群体平均收益的差. 值得注意的是, 除了上述策略调整协议外, 复制动力学方程还可由其他状态调整协议生成.
假设个体通过如下方式来调整自己的策略: 每个个体从所有策略中随机选择一个新策略, 如果新策略的收益大于该个体原策略的收益, 则这个个体以正比两者收益差的概率采用这个新的策略; 否则保持不变. 可以看到, 与上述通过模仿的状态调整方式不同, 这里个体不是通过选择模仿对象来进行比较, 而是直接选择任意策略进行比较, 由此得到的状态调整协议如下:
τ i j ( U ( x ) ) = [ U j ( x ) − U i ( x ) ] + , ∀ i , j ∈ S . (2.22) \tau _{ij}\left( U\left( \boldsymbol{x} \right) \right) =\left[ U_j\left( \boldsymbol{x} \right) -U_i\left( \boldsymbol{x} \right) \right] _+ , \forall i,j\in \mathcal S. \tag{2.22} τij(U(x))=[Uj(x)−Ui(x)]+,∀i,j∈S.(2.22) 将式 ( 2.22 ) (2.22) (2.22) 代入平均动力学, 可得
x ˙ i = ∑ j ∈ S x j [ U i ( x ) − U j ( x ) ] + − x i ∑ j ∈ S [ U j ( x ) − U i ( x ) ] + , ∀ i ∈ S . (2.23) \dot{x}_i=\sum_{j\in \mathcal{S}}{x_j\left[ U_i\left( \boldsymbol{x} \right) -U_j\left( \boldsymbol{x} \right) \right] _+}-x_i\sum_{j\in \mathcal{S}}{\left[ U_j\left( \boldsymbol{x} \right) -U_i\left( \boldsymbol{x} \right) \right] _+}, \forall i \in \mathcal S. \tag{2.23} x˙i=j∈S∑xj[Ui(x)−Uj(x)]+−xij∈S∑[Uj(x)−Ui(x)]+,∀i∈S.(2.23) 式 ( 2.23 ) (2.23) (2.23) 称为 Smith 动力学方程.
Brown-von Neumann-Nash (BNN) 动力学为如下策略. 假设个体通过如下方式来调整自己的策略: 每个个体从所有策略中随机地选择一个新策略, 如果这个新策略的收益大于整个群体的平均收益, 那么这个个体以正比两者收益差的概率采用这个新的策略; 否则保持不变, 在这种方式下, 整个群体状态的调整协议如下:
τ i j ( U ( x ) ) = [ U j ( x ) − U ˉ ( x ) ] + , ∀ i , j ∈ S . (2.24) \tau _{ij}\left( U\left( \boldsymbol{x} \right) \right) =\left[ U_j\left( \boldsymbol{x} \right) -\bar{U}\left( \boldsymbol{x} \right) \right] _+ , \forall i,j\in \mathcal S. \tag{2.24} τij(U(x))=[Uj(x)−Uˉ(x)]+,∀i,j∈S.(2.24) 将式 ( 2.24 ) (2.24) (2.24) 代入平均动力学, 得
x ˙ i = ∑ j ∈ S x j [ U i ( x ) − U ˉ ( x ) ] + − x i ∑ j ∈ S [ U j ( x ) − U ˉ ( x ) ] + , ∀ i ∈ S . (2.25) \dot{x}_i=\sum_{j\in \mathcal{S}}{x_j\left[ U_i\left( \boldsymbol{x} \right) -\bar{U}\left( \boldsymbol{x} \right) \right] _+}-x_i\sum_{j\in \mathcal{S}}{\left[ U_j\left( \boldsymbol{x} \right) -\bar{U}\left( \boldsymbol{x} \right) \right] _+}, \forall i \in \mathcal S. \tag{2.25} x˙i=j∈S∑xj[Ui(x)−Uˉ(x)]+−xij∈S∑[Uj(x)−Uˉ(x)]+,∀i∈S.(2.25) 式 ( 2.25 ) (2.25) (2.25) 称为 BNN 动力学方程.
给定一个群体博弈 U U U, 设其连续演化动力学方程为
x ˙ = V U ( x ) , (2.26) \dot{x}=V_{U}(\boldsymbol x), \tag{2.26} x˙=VU(x),(2.26) 其中, V U ( x ) V_{U}(\boldsymbol x) VU(x) 是一个与群体状态维度相同的向量函数.
定义 2-6 (纳什平稳与正相关) 1) 如果当且仅当 x ∈ N E ( U ) \boldsymbol x\in NE(U) x∈NE(U) 时, V U ( x ) = 0 V_{U}(\boldsymbol x) = 0 VU(x)=0, 则称上述演化动力学是 “纳什平衡” 的; 2) 如果当 V U ( x ) ≠ 0 V_{U}(\boldsymbol x)\neq 0 VU(x)=0 时, 有 V U ( x ) U ( x ) > 0 V_{U}(\boldsymbol x)U(\boldsymbol x) > 0 VU(x)U(x)>0, 则称上述演化动力学是 “正相关” 的.
显然, 纳什平衡意味着演化动力学的每个平衡点都是纳什均衡点; 而正相关性要求当群体状态不在平衡点时, 群体状态的改变方向与群体的收益向量正相关.
定义 2-7 (群体势博弈) 给定一个群体博弈 U = ( U 1 , U 2 , . . . , U m ) \boldsymbol U=(U_1, U_2, ..., U_m) U=(U1,U2,...,Um), 如果存在一个连续可微函数 ϕ : R + n → R \phi: \mathbb R^{n}_{+} \rightarrow \mathbb R ϕ:R+n→R, 使得
∂ ϕ ∂ x i = U i ( x ) , ∀ i ∈ S , (2.27) \frac{\partial \phi}{\partial x_i}=U_i\left( \boldsymbol{x} \right) ,\ \forall i\in \mathcal{S}, \tag{2.27} ∂xi∂ϕ=Ui(x), ∀i∈S,(2.27) 则称这个群体博弈为 “势博弈”.
势博弈具有以下良好的性质:
定理 2-4 给定一个势函数为 ϕ \phi ϕ 的群体势博弈 U = ( U 1 , U 2 , . . . , U m ) \boldsymbol U=(U_1, U_2, ..., U_m) U=(U1,U2,...,Um), 如果演化动力学 ( 2.26 ) (2.26) (2.26) 满足正相关条件, 那么从任意非平稳点开始, 沿这个演化动力学方程的解轨迹, 群体博弈的势函数是单调递增的, 即 ∂ ∂ t ϕ ( x ) > 0 \frac{\partial}{\partial t}\phi \left( \boldsymbol{x} \right) >0 ∂t∂ϕ(x)>0.
定理 2-5 给定一个势函数为 ϕ \phi ϕ 的群体势博弈 U = ( U 1 , U 2 , . . . , U m ) \boldsymbol U=(U_1, U_2, ..., U_m) U=(U1,U2,...,Um), 如果演化动力学 ( 2.26 ) (2.26) (2.26) 满足纳什平稳条件和正相关条件, 那么某一群体状态 x ∈ Δ n x\in \varDelta_n x∈Δn 是渐进稳定的, 当且仅当这个状态 x x x 是势函数 ϕ \phi ϕ 的一个孤立的局部最大点.
特别地, 以复制动力学为例, 在两人对称矩阵博弈生成的群体博弈中, 假设收益矩阵为 M \boldsymbol M M, 得到复制动力学方程为
x ˙ i = x i ( e i M x T − x M x T ) , ∀ i ∈ S (2.28) \dot{x}_i=x_i\left( \boldsymbol{e}_i\boldsymbol{Mx}^T-\boldsymbol{xMx}^T \right) ,\ \forall i\in \mathcal{S} \tag{2.28} x˙i=xi(eiMxT−xMxT), ∀i∈S(2.28) 设:
(1) E \mathcal E E: 群体博弈演化稳定策略集合;
(2) A \mathcal A A: 复制动力学的渐进稳定平衡点集合;
(3) F \mathcal F F: 复制动力学方程的平衡点集合.
满足4: E ⊆ A ⊆ N E ⊆ F \mathcal E \subseteq \mathcal A \subseteq NE \subseteq \mathcal F E⊆A⊆NE⊆F.
Smith J M. Evolution and the Theory of Games[M]. Cambridge university press, 1982. ↩︎
吕金虎, 谭少林, 著. 复杂网络上的博弈及其演化动力学[M]. 北京: 高等教育出版社, 2019. ↩︎
Lawler G F. Introduction to stochastic processes[M]. Chapman and Hall/CRC, 2018. ↩︎
Sandholm W H. Population games and evolutionary dynamics[M]. London: MIT press, 2010. ↩︎