周志华 强化学习 Bellman等式推导

**爱学习的泠语啊

关于强化学习这部分的知识讲解我就不搬书上的啦,这里主要分享一下一些公式的推导过程,希望能和大家共同进步~

**

第16章 强化学习 公式16.7 Bellman等式推导

**

V T π ( x ) = E π [ 1 T ∑ t = 1 T r t ∣ x = x 0 ] V_{T}^{\pi}(x) = E_{\pi}[\frac{1}{T}\sum_{t=1}^{T}r_t|x=x_0] VTπ(x)=Eπ[T1t=1Trtx=x0]

= E π [ 1 T r 1 + T − 1 T 1 T − 1 ∑ t = 2 T r t ∣ x 0 = x ] =E_{\pi}[\frac{1}{T}r_1+\frac{T-1}{T}\frac{1}{T-1}\sum_{t=2}^{T}r_t|x_0=x] =Eπ[T1r1+TT1T11t=2Trtx0=x] 提取出 r 1 r_1 r1,相应的后面求和从t=2开始

下面是重点!!全概率展开!!

对于离散空间,求取期望有如下公式:

E ( x i ) = ∑ i = 1 n P ( x i ) f ( x i ) E(x_i)=\sum_{i=1}^{n}P(x_i)f(x_i) E(xi)=i=1nP(xi)f(xi)

在本公式中 f ( x i ) f(x_i) f(xi) r 1 r_1 r1,即在状态x下执行动作a转移到状态x’所获得的奖励,也即后面的 R x → x ′ a R_{x\rightarrow x'}^{a} Rxxa

求取其概率分两步展开:

第一步,在当前状态x下执行动作a的概率,即: π ( x , a ) \pi(x,a) π(x,a)

第二步,在当前状态x执行动作a的情况,由状态x转移到x’的概率,即: P x → x ′ a P_{x\rightarrow x'}^{a} Pxxa

好啦,r1的期望现在就可以由全概率展开求取啦:

E π ( 1 T r 1 ) = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ X P x → x ′ a ( 1 T R x → x ′ a ) E_{\pi}(\frac{1}{T}r_1)=\sum_{a\in A} \pi(x,a)\sum_{x'\in X}P_{x\rightarrow x'}^{a}(\frac{1}{T}R_{x\rightarrow x'}^{a}) Eπ(T1r1)=aAπ(x,a)xXPxxa(T1Rxxa) 其中, R x → x ′ a R_{x\rightarrow x'}^{a} Rxxa即为r1。

接下来求取后面一部分的期望,由于MDP具有马尔科夫性质,因此后面从t=2开始求取累积奖赏可改为从t=1开始求取,相应的累

积上标变为T-1,并将初始状态改为x’,此处x’,下一时刻状态的概率和前面所述一样,因此求取期望的全概率展开也就一样啦。

这也就是公式中可以把 ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ X P x → x ′ a \sum_{a\in A} \pi(x,a)\sum_{x'\in X}P_{x\rightarrow x'}^{a} aAπ(x,a)xXPxxa 作为同类项提出来的原因啦。

这样我们就得到了最终的Bellman公式:

V T π ( x ) = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ X P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 π ( x ′ ) ) V_{T}^{\pi}(x) = \sum_{a\in A} \pi(x,a)\sum_{x'\in X}P_{x\rightarrow x'}^{a}(\frac{1}{T}R_{x\rightarrow x'}^{a}+\frac{T-1}{T}V_{T-1}^{\pi}(x') ) VTπ(x)=aAπ(x,a)xXPxxa(T1Rxxa+TT1VT1π(x))

你可能感兴趣的:(强化学习公式推导)