复杂网络是21世纪的新兴学科, 演化博弈论是现阶段博弈科学研究的范式. 演化博弈摒弃了传统博弈论中的完全理性和完全信息假设, 从系统动态的角度考察个体决策到群体决策的形成机制. 目前, 对复杂网络上的演化博弈论研究可以归纳为两个方面:
博弈论 (Game theory) 是要研究多个自主性个体在利益相关情形下的决策行为的理论. 本文主要对复杂网络理论中涉及的博弈论基础进行整理. 本文主要包含3个方面的内容: 第一, 博弈论的标准模型; 第二, 博弈解的概念及其相关定理; 第三, 博弈学习动力学的基本内容.
一个博弈模型通常有3个基本要素组成:
根据以上三个要素, 可以给出 “策略博弈” 的概念.
定义1-1 (策略博弈) 博弈是一个三元组 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 其中, V = { v 1 , v 2 , . . . , v n } \mathcal{V}=\{v_1, v_2, ...,v_n\} V={v1,v2,...,vn} 为决策个体集合, S i \mathcal{S}_i Si 为个体 v i ∈ V v_i \in \mathcal{V} vi∈V 的策略集合, U i : ∏ v j ∈ V S j → R U_i: \prod_{v_j\in\mathcal V}\mathcal{S}_j\rightarrow\mathcal R Ui:∏vj∈VSj→R 是个体 v i ∈ V v_i \in \mathcal{V} vi∈V 的收益函数.
定义1-2 (对称博弈) 令 s i ∈ S i s_i \in \mathcal S _i si∈Si 表示个体 v i ∈ V v_i \in \mathcal{V} vi∈V 的策略, 令 π \pi π 表示对个体编号的任意一个变换, 如果个体收益满足
U i ( s 1 , s 2 , . . . , s n ) = U π ( i ) ( s π ( 1 ) , s π ( 2 ) , . . . , s π ( n ) ) , (1.1) U_i (s_1, s_2,...,s_n) = U_{\pi(i)}(s_{\pi(1)}, s_{\pi(2)}, ..., s_{\pi(n)}), \tag{1.1} Ui(s1,s2,...,sn)=Uπ(i)(sπ(1),sπ(2),...,sπ(n)),(1.1)则称这个博弈为 “对称博弈”. 对称博弈的含义是, 一个策略所产生的收益仅取决于与它交互的其他策略, 而与使用这个策略的个体本身无关.
在策略博弈的收益表示中, 有限策略博弈常用收益矩阵或收益表格表示, 连续策略博弈常用收益函数来刻画. 有限策略博弈的典型例子包括囚徒困境博弈 (prisoner’s dilemma game) , 公共物品博弈 (public goods game) 和志愿者困境博弈 (volunteer’s dilemma game). 连续策略博弈的典型例子包括多个体一致性博弈.
博弈论中, 将个体策略区分为纯策略 (pure strategy) 与混合策略 (mixed strategy) 两种类型.
定义1-3 (纯策略) 指个体只能从其策略集合中选择一种特定策略的方式.
定义1-4 (混合策略) 指个体给其策略集合中的每一个策略赋予一定的概率, 同时依照概率分布随机选择一种策略的方式.
令 Δ i \Delta_i Δi 表示个体 v i ∈ V v_i \in \mathcal{V} vi∈V 的混合策略的集合, 令 x i ∈ Δ i x_i \in \Delta_i xi∈Δi 表示个体 v i v_i vi 的策略, 令
x − i = ( x 1 , . . . , x i − 1 , x i + 1 , . . . , x n ) x_{-i}=\left(x_1, ..., x_{i-1}, x_{i+1}, ..., x_n\right) x−i=(x1,...,xi−1,xi+1,...,xn)表示除个体 v i v_i vi 外其他所有个体的策略组合, 那么
x = ( x i , x − i ) ∈ Δ = Δ 1 × Δ 2 × ⋯ × Δ n x=(x_i, x_{-i})\in\Delta=\Delta_1 \times \Delta_2 \times \cdots \times \Delta_n x=(xi,x−i)∈Δ=Δ1×Δ2×⋯×Δn 表示所有个体的策略组合. 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left(\mathcal V, \{\mathcal S _i | v_i \in \mathcal V\}, \{U_i | v_i \in \mathcal V\}\right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}). 将策略集合从 S = S 1 × S 2 × ⋯ × S n S=S_1\times S_2 \times \cdots \times S_n S=S1×S2×⋯×Sn 拓展到混合策略集合 Δ \Delta Δ 上, 得到从博弈 Γ \Gamma Γ 派生出来的混合扩展博弈.
定义1-5 (博弈的混合扩展) 博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}) 的混合扩展是指有它派生出的博弈 Γ = ( V , { Δ i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \Delta_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Δi∣vi∈V},{Ui∣vi∈V}), 其中 Δ i \Delta_i Δi 表示个体 v i ∈ V v_i \in \mathcal{V} vi∈V 的混合策略集合 S i \mathcal S _i Si 中元素的概率分布集合, 收益函数 U i : ∏ v j ∈ V Δ j → R U_i: \prod_{v_j\in\mathcal V}\Delta_j \rightarrow \mathcal R Ui:∏vj∈VΔj→R 是由混合策略有道德所有纯策略组合对应收益的期望值. 具体地, 对于混合策略 x = ( x 1 , x 2 , . . . , x n ) ∈ Δ x=(x_1, x_2, ...,x_n)\in \Delta x=(x1,x2,...,xn)∈Δ, 每个个体 v i ∈ V v_i \in \mathcal V vi∈V 的收益为
U i ( x ) = ∑ s ∈ S ( ∏ v j ∈ V x j ( s j ) ) U ( s ) , (1.2) U_i(x) = \sum_{s\in\mathcal S}( \prod_{v_j \in \mathcal V} x_j(s_j))U(s), \tag{1.2} Ui(x)=s∈S∑(vj∈V∏xj(sj))U(s),(1.2) 其中 s = ( s 1 , s 2 , . . . , s n ) , x j ( s j ) s=(s_1, s_2, ..., s_n), x_j(s_j) s=(s1,s2,...,sn),xj(sj) 是指个体 v j v_j vj 选择策略 s j s_j sj 的概率.
在阐述博弈解前, 先说明博弈解的研究点, 主要有四个问题:
在策略博弈的研究过程中, 理性 (rational) 是一个经典假设, 在表示个体如果总是采取其收益最大化的策略, 则可以理解其为理性的. 同时, 在对策的研究环境中, “理性” 是博弈过程中的公共知识 (common knowledge), 即假设所有个体均知道其他个体是理性, 而且相互知道对方知道所有个体都是理性的. 在这一前提下, 可以产生多种博弈解的概念, 同时这些解也作为不完全理性或非理性情境下个体决策行为的参考. 下面就阐述两种基本的策略及其均衡: 占优策略均衡与纳什均衡.
定义1-6 (占优策略, dominant strategt) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个策略 s i ∈ S i s_i \in \mathcal S _i si∈Si 称为个体 v i v_i vi 的占优策略, 如果
U i ( s i , s − i ) ≥ U i ( s i ′ , s − i ) (1.3) U_i(s_i, s_{-i})\ge U_i(s_i', s_{-i}) \tag{1.3} Ui(si,s−i)≥Ui(si′,s−i)(1.3) 对所有 s i ′ ∈ S i s_i' \in \mathcal S _i si′∈Si 和 s − i ∈ S − i s_{-i} \in \mathcal S _{-i} s−i∈S−i 均成立. 如果上式对除 s i ′ = s i s_i'=s_i si′=si 的所有其他策略严格成立, 则称 s i s_i si 为个体 v i v_i vi 的严格占优策略 (strictly dominant strategy).
与占优策略相反的策略, 被称为 “劣势策略”.
定义1-7 (劣势策略, dominated strategy) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个策略 s i ∈ S i s_i \in \mathcal S _i si∈Si 称为个体 v i v_i vi 的占优策略, 如果
U i ( s i , s − i ) ≤ U i ( s i ′ , s − i ) (1.4) U_i(s_i, s_{-i})\le U_i(s_i', s_{-i}) \tag{1.4} Ui(si,s−i)≤Ui(si′,s−i)(1.4) 对所有 s i ′ ∈ S i s_i' \in \mathcal S _i si′∈Si 和 s − i ∈ S − i s_{-i} \in \mathcal S _{-i} s−i∈S−i 均成立. 如果上式对除 s i ′ = s i s_i'=s_i si′=si 的所有其他策略严格成立, 则称 s i s_i si 为个体 v i v_i vi 的严格劣势策略 (strictly dominated strategy).
定义1-8 占优策略均衡 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个策略组合 s ∗ = ( s 1 ∗ , s 2 ∗ , . . . , s n ∗ ) s^*=(s^*_1,s^*_2,...,s^*_n) s∗=(s1∗,s2∗,...,sn∗) 称为 (严格) 占优策略均衡点, 如果对每个个体的策略 s i ∗ ∈ S i s^*_i \in \mathcal S_i si∗∈Si 是一个 (严格) 占优策略.
但是实际博弈过程中, 占优策略均衡常常是不存在的, 因此用其来分析个体在博弈中的决策行为具有很大局限性. 占优策略要求每一个体策略都是对其所有的解都最优, 如果把条件放的宽松, 对于特定的某个解, 在这一解中, 任何个体采取其他策略都不会获得更大的收益, 这时获得一种更宽松也更常见的均衡 —— 纳什均衡.
纳什均衡 (Nash equilibrium) 是一种特殊的策略组合: 当玩家个体采取这样一种策略组合时, 如果其他个体不改变策略, 任何个体都无法通过单方面改变自身策略获得更高收益. 因此, 这样的解是一个稳定的策略组合.
定义1-9 (纯策略纳什均衡) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个策略组合 s ∗ = ( s 1 ∗ , s 2 ∗ , . . . , s n ∗ ) s^*=(s^*_1,s^*_2,...,s^*_n) s∗=(s1∗,s2∗,...,sn∗) 称为纯策略纳什均衡当且仅当
U i ( s i ∗ , s − i ∗ ) ≥ U i ( s i ′ , s − i ∗ ) (1.5) U_i(s_i^*, s^*_{-i})\ge U_i(s_i', s^*_{-i}) \tag{1.5} Ui(si∗,s−i∗)≥Ui(si′,s−i∗)(1.5) 对所有 s i ′ ∈ S i s'_i \in \mathcal S _i si′∈Si 和 v i ∈ V v_i \in \mathcal V vi∈V 都成立. 如果上式严格成立, 则称 s ∗ s^* s∗ 为严格纳什均衡.
定义1-10 (混合策略纳什均衡) 对于博弈 Γ = ( V , { Δ i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \Delta_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Δi∣vi∈V},{Ui∣vi∈V}), 一个策略组合 x ∗ = ( x 1 ∗ , x 2 ∗ , . . . , x n ∗ ) x^*=(x^*_1,x^*_2,...,x^*_n) x∗=(x1∗,x2∗,...,xn∗) 称为混合策略纳什均衡当且仅当
U i ( x i ∗ , x − i ∗ ) ≥ U i ( x i ′ , x − i ∗ ) (1.6) U_i(x_i^*, x^*_{-i})\ge U_i(x_i', x^*_{-i}) \tag{1.6} Ui(xi∗,x−i∗)≥Ui(xi′,x−i∗)(1.6) 对所有 x i ′ ∈ Δ i x'_i \in \Delta _i xi′∈Δi 和 v i ∈ V v_i \in \mathcal V vi∈V 都成立. 如果上式严格成立, 则称 x ∗ x^* x∗ 为严格混合策略纳什均衡.
纳什均衡可以通过最优响应策略 (best-response strategy) 的形式来定义. 首先给出最优响应策略定理.
定义1-11 (最优响应策略) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 每个个体 v i ∈ V v_i \in \mathcal V vi∈V 的最优响应策略是一个集值映射 B i ( s − i ) : S − i → S i \mathcal B _i(s_{-i}) : \mathcal S_{-i} \rightarrow \mathcal S_{i} Bi(s−i):S−i→Si,
B i ( s − i ) = { s i ∗ ∣ s i ∗ ∈ arg max s i ∈ S i U i ( s i , s − i ) } . (1.7) \mathcal B_i (s_{-i})=\{ s_i^*|s_i^*\in \arg \max_{s_i\in \mathcal S_i} U_i(s_i, s_{-i}) \}. \tag{1.7} Bi(s−i)={si∗∣si∗∈argsi∈SimaxUi(si,s−i)}.(1.7)
最优响应策略的意义为, 给定其他个体的策略, 一个个体的最优响应是指这个个体收益最大化的策略集合. 纳什均衡是每个个体策略关于其他个体策略组合的最优响应策略, 即纳什均衡是上诉最优响应函数的不动点.
纳什均衡点的存在性证明是博弈论的一个核心问题. 下面介绍纳什均衡的相关成果.
定理1-1 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 策略组合 s ∗ s^* s∗ 是一个纳什均衡, 当且仅当 s i ∗ ∈ B i ( s − i ∗ ) s^*_i \in \mathcal B_i (s^*_{-i}) si∗∈Bi(s−i∗) 对所有个体 v i ∈ V v_i \in \mathcal V vi∈V 成立.
定理1-2 任何有限策略博弈都具有至少一个混合策略纳什均衡点. (注意, 该定理只保证混合策略纳什均衡存在, 而纯策略纳什均衡未必存在.)
定理1-3 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 如果每个个体的策略集合 S i \mathcal S_i Si 是欧式空间中一个非空闭凸集, 且每个个体的收益函数 U i U_i Ui 是关于 S i \mathcal S_i Si 的连续拟凹函数, 那么这个博弈具有一个纯策略纳什均衡点.
在工程中, 还存在一种常见的博弈 —— 势博弈 (potential game), 其一定存在纯策略纳什均衡点, 且纳什均衡点对应的势博弈势函数的最大值点.
定义1-12 (势博弈) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 如果存在一个势函数 ϕ : S → R \phi : \mathcal S \rightarrow \mathbb R ϕ:S→R, 使得
U i ( s i , s − i ) − U i ( s i ′ , s − i ) = ϕ ( s i , s − i ) − ϕ ( s i ′ , s − i ) (1.8) U_i(s_i, s_{-i}) - U_i(s_i', s_{-i}) = \phi (s_i, s_{-i}) - \phi (s_i', s_{-i}) \tag{1.8} Ui(si,s−i)−Ui(si′,s−i)=ϕ(si,s−i)−ϕ(si′,s−i)(1.8) 对所有 s i , s i ′ ∈ S i , s − i ∈ S − i s_i, s_i' \in \mathcal S _i, s_{-i} \in \mathcal S _{-i} si,si′∈Si,s−i∈S−i 和 v i ∈ V v_i\in \mathcal V vi∈V 均成立, 那么称这个博弈为势博弈.
定理1-4 对于一个势函数为 ϕ : S → R \phi:\mathcal S\rightarrow \mathbb R ϕ:S→R 的势博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 令 s ∗ = arg max s ∈ S ϕ ( s ) , (1.9) s^*=\arg\max_{s\in \mathcal S} \phi(s), \tag{1.9} s∗=args∈Smaxϕ(s),(1.9) 那么 s ∗ s^* s∗ 是博弈 Γ \Gamma Γ 的一个纯策略纳什均衡点.
在很多博弈过程中, 参与个体如何根据所获得的关于博弈及其他个体策略和收益等信息, 不断调整自身策略, 使得最终更大刀那是均衡点. 这个问题就是博弈学习 (Game Learning) 理论所研究的对象.
博弈学习的框架如图所示. 具体地, 考虑一个离散时间的重复博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}). 在每个时间步 t t t, 每个个体 v i ∈ V v_i \in \mathcal V vi∈V 根据当前自身的策略 s i ( t ) ∈ S i s_i(t) \in \mathcal S_i si(t)∈Si 以及其他个体的策略在博弈中获得收益 π i ( t ) = U i ( s ( t ) ) \pi_i(t)=U_i(s(t)) πi(t)=Ui(s(t)), 其中 s ( t ) = ( s 1 ( t ) , s 2 ( t ) , . . . , s n ( t ) ) ∈ S s(t) = (s_1(t),s_2(t),...,s_n(t)) \in \mathcal S s(t)=(s1(t),s2(t),...,sn(t))∈S 是指所有个体 t t t 时刻的策略组合.
一般形式的学习规则可以如下表述:
s i ( t + 1 ) = H ( ∏ k = 0 t s ( k ) ; ∏ k = 0 t s − i ( k ) ; U i ) . (1.10) s_i(t+1)=\mathcal{H}\left( \prod_{k=0}^t{s\left( k \right)};\ \prod_{k=0}^t{s_{-i} \left( k \right)} ; U_i\right) . \tag{1.10} si(t+1)=H(k=0∏ts(k); k=0∏ts−i(k);Ui).(1.10) 从形式上看, 每个个体使用包括自身和其他个体所有历史策略信息和收益信息, 这要求每个个体都具有 “无限记忆能力”. 但更常见的场景为一步记忆, 在这种情况下, 式 ( 1.10 ) (1.10) (1.10) 的学习规则应更改为
s i ( t + 1 ) = H ( s ( k ) ; s − i ( k ) ; U i ) . (1.11) s_i(t+1)=\mathcal{H}\left( s\left( k \right);\ s_{-i} \left( k \right) ; U_i\right) . \tag{1.11} si(t+1)=H(s(k); s−i(k);Ui).(1.11)
根据个体的更新策略的时序, 可以分为以下几类学习:
博弈学习有几种常见的动力学形式, 包括最优响应动力学 (best-response dynamics), 择优响应动力学 (better-response dynamics), 增强学习 (reinforcement learning), 试错学习 (trial-and-error learning), 虚拟学习 (fictitious learning)等.
一个个体 v i ∈ V v_i \in \mathcal V vi∈V 的最优响应策略是一个集值映射 B R i ( s − i ) : S − i → S i \mathcal{BR}_i(s_{-i}): \mathcal S_{-i} \rightarrow \mathcal S_i BRi(s−i):S−i→Si, 其中
B R i ( s − i ) = { s i ∗ ∣ s i ∗ ∈ arg max s i ∈ S i U i ( s i , s − i ) } . (1.12) \mathcal{BR}_i(s_{-i})=\{s^*_i | s^*_i \in \arg\max_{s_i \in \mathcal S_i}U_i(s_i, s_{-i})\}. \tag{1.12} BRi(s−i)={si∗∣si∗∈argsi∈SimaxUi(si,s−i)}.(1.12)
所谓离散时间最优响应动力学定义如下:
s i ( t + 1 ) = B R i ( s − i ( t ) ) . (1.13) s_i(t+1) = \mathcal{BR}_i(s_{-i}(t)). \tag{1.13} si(t+1)=BRi(s−i(t)).(1.13) 即每个时间步, 个体在假定其他个体策略不变的情况下, 从其最优响应策略中任意选择一个策略, 作为下一步策略.
最优响应动力学有如下局限性:
最优响应动力学要求个体选择其收益最大化的策略, 这会限制该动力学的适用范围. 更宽松的, 当个体选择使用收益有所提升的策略时, 场景更加丰富, 且计算量会更小.
给定一个博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个个体 v i ∈ V v_i \in \mathcal V vi∈V 的择优响应策略是一个集值映射 B T i ( s − i ) : S → S i \mathcal{BT}_i(s_{-i}): \mathcal S \rightarrow \mathcal S_i BTi(s−i):S→Si, 其中
B T i ( s ) = { s i ′ ∣ s i ′ ∈ S i , U i ( s i ′ , s − i ) > U i ( s ) } . (1.14) \mathcal{BT}_i(s)=\{s'_i | s'_i \in \mathcal S_i, U_i(s'_i, s_{-i})>U_i (s) \}. \tag{1.14} BTi(s)={si′∣si′∈Si,Ui(si′,s−i)>Ui(s)}.(1.14)
所谓离散时间的择优响应动力学定义如下:
s i ( t + 1 ) ∈ B T i ( s ( t ) ) . (1.15) s_i (t+1)\in \mathcal{BT}_i (s(t)). \tag{1.15} si(t+1)∈BTi(s(t)).(1.15) 即每个时间步, 个体在假定其他个体策略不变的情况下, 从其择优响应策略中任意选择一个策略, 作为下一步策略.
梯度动力学是一种最常用的择优响应动力学. 给定一个博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}). 假设每个个体 v i ∈ V v_i \in \mathcal V vi∈V 的策略集 S i ∈ R \mathcal S_i \in \mathbb R Si∈R 是一个连续区间, 其收益函数 U i ( s i , s − i ) U_i (s_i, s_{-i}) Ui(si,s−i) 关于 s i s_i si 连续可微, 那么离散状态的梯度动力学定义如下:
s i ( t + 1 ) = s i ( t ) + δ ∇ i U i ( s ( t ) ) , ∀ v i ∈ V . (1.16) s_i(t+1) = s_i(t)+\delta \nabla_i U_i (s(t)), \forall v_i \in \mathcal V . \tag{1.16} si(t+1)=si(t)+δ∇iUi(s(t)),∀vi∈V.(1.16) 其中, δ > 0 \delta >0 δ>0 是一个控制步长的参数, ∇ i U i ( s ) = ∂ U i / ∂ s i \nabla_i U_i (s) =\partial{U_i} /\partial{s_i} ∇iUi(s)=∂Ui/∂si 是收益函数 U i ( s ) U_i (s) Ui(s) 的梯度.
[1]: 吕金虎,谭少林著. 复杂网络上的博弈及其演化动力学. 北京:高等教育出版社, 2019.02.