多智能体强化学习——博弈论模型
标准博弈:
每个智能体采取策略,根据策略采取对应的动作,所有动作组成联合动作空间,每个智能体根据奖励函数与联合动作空间获取奖励。
主要分为三类:零和博弈、共同利益博弈、一般和博弈
零和博弈:所有智能体的奖励和为0;共同利益博弈:所有智能体采取相同的动作获取相同的奖励;一般和博弈:不同智能体之间的奖励函数没有关系
标准博弈描述了多个智能体的单次交互过程,通过重复标准博弈获得多次交互,得到一个序列的博弈过程。在第t个时间步,每个智能体根据随机性的策略采取相应的动作,第t个时间步的策略受到t时刻之前的联合动作的影响, h t = { a 0 , a 1 , . . . . . , a t − 1 } h^t=\{a^0,a^1,.....,a^{t-1}\} ht={a0,a1,.....,at−1},其中 a t = { a 1 t , a 2 t , . . . . . , a n t } a^t=\{a_1^t,a_2^t,.....,a_n^t\} at={a1t,a2t,.....,ant},每个智能体在t时刻根据联合动作获取到对应的奖励。
一般并不相同,有限过程会受到“end-game”的影响,智能体采取动作时会倾向选择靠近游戏结束的动作,而无限过程,可以指定每一步游戏结束的概率。
在第t个时间步,策略是由过去的整个联合状态决定的,与其内部的历史联合动作序列相关( f ( h t ) f(h^t) f(ht)),随机策略更加复杂。
随机博弈:
随机博弈过程:根据初始状态分布,在t时刻每个智能体观测当前的环境 s t s^t st,根据随机策略 π i ( a i t ∣ h t ) \pi_i (a_i^t|h^t) πi(ait∣ht),采取动作 a i t a_i^t ait,产生t时刻的联合动作 a t = { a 1 t , a 2 t , . . . . . , a n t } a^t=\{a_1^t,a_2^t,.....,a_n^t\} at={a1t,a2t,.....,ant}。随机策略是在历史序列的条件下选择动作,其中 h t = ( s 0 , a 0 , s 1 , a 1 , . . . . , s t ) h^t=(s^0,a^0,s^1,a^1,....,s^t) ht=(s0,a0,s1,a1,....,st),对于每个智能体都是全部可观测的。获取到t时刻的联合动作后,根据当前状态转移到新的状态 T ( s t , a t , s t + 1 ) \mathcal{T}(s^t,a^t,s^{t+1}) T(st,at,st+1),每个智能体会得到对应的奖励 r i t = R i ( s t , a t , s t + 1 ) r_i^t=\mathcal{R}_i(s^t,a^t,s^{t+1}) rit=Ri(st,at,st+1),经过许多时间步长后,终止在最终状态(有限过程)。
随机博弈过程遵循马尔科夫性质,下一时刻的状态与奖励只与当前的状态有关。
Pr ( s t + 1 , r t ∣ s t , a t , s t − 1 , a t − 1 , . . . , s 0 , a 0 ) = Pr ( s t + 1 , r t ∣ s t , a t ) \Pr(s^{t+1},r^t\mid s^t,a^t,s^{t-1},a^{t-1},...,s^0,a^0)=\Pr(s^{t+1},r^t\mid s^t,a^t) Pr(st+1,rt∣st,at,st−1,at−1,...,s0,a0)=Pr(st+1,rt∣st,at)
因此随机博弈也称为马尔科夫博弈过程。