多智能体强化学习论文导读

Adaptive Value Decomposition with Greedy Marginal Contribution Computation for Cooperative Multi-Agent Reinforcement Learning

Dec-POMDP

本文的研究对象是 decentralized partially observable Markov decision process (Dec-POMDP), 我们首先来看一下它和经典的MDP有什么不同?

(1) 奖励设定不同, 这里没有给到每一个agent的奖励, 只有一个整体奖励(team reward) r t o t ( s , u ) r_{tot}(\bm{s}, \bm{u}) rtot(s,u).
(2) 每个agent i i i 观测到的不是它自己的状态 s i s_{i} si, 它的观测要根据具体的设定来确定, 为表示区分常用 o i o_{i} oi 来表示.
(3) 新增了一个叫做 view range 的概念, 每个 agent 都有一个 view range, 在这个范围里面的其他 agent 对它来说是可见的, 可以和它信息交互并与它合作, 且它的观测信息里包含它们的信息, 超出这个范围的 agent 视为无法和这个 agent 进行信息交互和合作, 其状态也不可见.

一些基本的符号: N N N: agent数量.

本文做了如下的一些假设:

reward 机制

考虑 agent i i i 的奖励, 定义 agent i i i 视野范围内的 agent 集合为它所在的团队(team), 记其数量为 M i M_{i} Mi, 作者认为 i i i 自己的奖励 r t e a m i r_{team}^{i} rteami 和 view range 里所有 agent 的状态 (根据设定, view range里其他agent的信息应该在 o i o_{i} oi 包含),其它agent采取的动作 u i − u_{i}^{-} ui, 以及它本身所采取的动作 u i u_{i} ui 有关, 所有 agent 获得的奖励之和是 team reward r t o t r_{tot} rtot, 即

r t o t ( s , u ) = ∑ i = 1 N r t e a m i ( o i , u i − , u i ) r_{tot}(\bm{s}, \bm{u})=\sum_{i=1}^{N}r_{team}^{i}(o_{i}, u_{i}^{-}, u_{i}) rtot(s,u)=i=1Nrteami(oi,ui,ui)

价值函数

team reward 对应得到的 Q 函数: Q t o t π ( s , u ) Q_{tot}^{\bm \pi}(\bm{s}, \bm{u}) Qtotπ(s,u),
Q t o t π ( s , u ) = E τ ∼ π ∣ s 0 = s , u 0 = u { ∑ t = 0 ∞ γ t r t o t } = E τ ∼ π ∣ s 0 = s , u 0 = u { ∑ t = 0 ∞ γ t ∑ i = 1 N r t e a m i } = ∑ i = 1 N E τ ∼ π ∣ s 0 = s , u 0 = u { ∑ t = 0 ∞ γ t r t e a m i } Q_{tot}^{\bm\pi}(\bm{s}, \bm{u})=\mathbb{E}_{\bm\tau\sim \bm\pi|_{\bm{s_{0}}=\bm{s}, \bm{u_{0}}=\bm{u}}}\{\sum_{t=0}^{\infty}\gamma^{t}r_{tot}\}=\mathbb{E}_{_{\bm\tau\sim \bm\pi|_{\bm{s_{0}}=\bm{s}, \bm{u_{0}}=\bm{u}}}}\{\sum_{t=0}^{\infty}\gamma^{t}\sum_{i=1}^{N}r_{team}^{i}\} \\=\sum_{i=1}^{N}\mathbb{E}_{_{\bm\tau\sim \bm\pi|_{\bm{s_{0}}=\bm{s}, \bm{u_{0}}=\bm{u}}}}\{\sum_{t=0}^{\infty}\gamma^{t}r_{team}^{i}\} Qtotπ(s,u)=Eτπs0=s,u0=u{t=0γtrtot}=Eτπs0=s,u0=u{t=0γti=1Nrteami}=i=1NEτπs0=s,u0=u{t=0γtrteami}
定义 E τ ∼ π ∣ s 0 = s , u 0 = u { ∑ t = 0 ∞ γ t r t e a m i } = Q i π i ( s i , u i − , u i ) \mathbb{E}_{_{\bm\tau\sim \bm\pi|_{\bm{s_{0}}=\bm{s}, \bm{u_{0}}=\bm{u}}}}\{\sum_{t=0}^{\infty}\gamma^{t}r_{team}^{i}\}=Q^{\pi_{i}}_{i}(s_{i}, u_{i}^{-}, u_{i}) Eτπs0=s,u0=u{t=0γtrteami}=Qiπi(si,ui,ui), 这里 Q i π i ( s i , u i − , u i ) Q^{\pi_{i}}_{i}(s_{i}, u_{i}^{-}, u_{i}) Qiπi(si,ui,ui) 被称作agent i i i 的 individual Q 函数,则 Q t o t ( s , u ) Q_{tot}(\bm{s}, \bm{u}) Qtot(s,u) 可以分解成这种形式:

Q t o t ( s , u ) = ∑ i = 1 N Q i π i ( s i , u i − , u i ) Q_{tot}(\bm{s}, \bm{u})=\sum_{i=1}^{N}Q^{\pi_{i}}_{i}(s_{i}, u_{i}^{-}, u_{i}) Qtot(s,u)=i=1NQiπi(si,ui,ui)
还可以得到如下的结论:

arg max ⁡ u i Q t o t ( s , u ) = arg max ⁡ u i Q i π i ( s i , u i − , u i ) \argmax_{u_{i}}Q_{tot}(\bm{s}, \bm{u})=\argmax_{u_{i}} Q^{\pi_{i}}_{i}(s_{i}, u_{i}^{-}, u_{i}) uiargmaxQtot(s,u)=uiargmaxQiπi(si,ui,ui)
可以看出和 u i u_{i} ui 有关的项是 Q i π i Q_{i}^{\pi_{i}} Qiπi, 因此可进一步得出:

arg max ⁡ u Q t o t ( s , u ) = ∑ i = 1 N arg max ⁡ u i Q i π i ( s i , u i − , u i ) \argmax_{\bm{u}}Q_{tot}(\bm{s}, \bm{u})=\sum_{i=1}^{N}\argmax_{u_{i}}Q_{i}^{\pi_{i}}(s_{i}, u_{i}^{-}, u_{i}) uargmaxQtot(s,u)=i=1NuiargmaxQiπi(si,ui,ui)

策略

策略永远是greedy的:
π ( s i ) = arg max ⁡ u i Q i ( s i , u i ) \pi(s_{i})=\argmax_{u_{i}} {Q_{i}(s_{i}, u_{i})} π(si)=uiargmaxQi(si,ui)

Q value function 的近似

Q i Q_{i} Qi 近似地取成如下形式: Q i ( s i , u i ) ≈ Q ( τ i , u i ) Q_{i}(s_{i}, u_{i})\approx Q(\tau_{i}, u_{i}) Qi(si,ui)Q(τi,ui), 其中 τ i , t = { o i , 1 , u i , 1 , . . . , o i , t } \tau_{i, t}=\{o_{i,1}, u_{i,1}, ..., o_{i,t}\} τi,t={oi,1,ui,1,...,oi,t}, 称为 history.

你可能感兴趣的:(强化学习,强化学习)