【强化学习笔记】2 马尔可夫决策过程

【深入浅出强化学习原理入门学习笔记】2.马尔可夫决策过程

马 尔 科 夫 性 {\color{red}{马尔科夫性}} P [ S t + 1 ∣ S t ] = P [ S t + 1 ∣ S 1 , S 2 , S 3 , . . . , S t ] P \big[S_{t+1}|S_t\big]=P\big[S_{t+1}|S_1,S_2,S_3,...,S_t\big] P[St+1St]=P[St+1S1,S2,S3,...,St] 即系统的下一个状态只与当前状态有关,与之前状态无关。

马 尔 科 夫 过 程 {\color{red}{马尔科夫过程}} :随机变量序列中的每个状态都是马尔科夫的,是一个二元组 ( S , P ) (S, P) (S,P), S S S为有限状态集, P P P是状态转移概率。

马 尔 可 夫 决 策 过 程 {\color{red}{马尔可夫决策过程}} :将动作(策略)和回报考虑在内的马尔科夫过程,用元组表示是 ( S , A , P , R , γ ) \big(S, A, P, R, \gamma\big) (S,A,P,R,γ), S S S为有限状态集, A A A为有限动作集, P P P是状态转移概率(包含动作), R R R为回报函数, γ \gamma γ为回报折扣因子。

强 化 学 习 的 目 标 {\color{red}{强化学习的目标}} 是给定一个马尔科夫决策过程,寻找最优策略,这里的策略是指 从 状 态 到 行 动 的 映 射 {\color{red}{从状态到行动的映射}} ,即: π ( a ∣ s ) = p [ A t = a ∣ S t = s ] \pi(a|s)=p\big[A_t=a|S_t=s\big] π(as)=p[At=aSt=s]
意思为:策略 π \pi π在每一个状态 s s s下指定一个动作概率,如果是一个确定的动作,该策略为确定性策略。

强化学习的策略一般是随机策略,智能体尝试其他动作以便找到更好的策略,所以引入概率因素。既然策略是随机的策略,那么状态变化序列可能不一样,因此累积回报也是随机的。

在给定的策略 π \pi π的作用下,可以计算 累 积 回 报 {\color{red}{累积回报}} G t G_t Gt,
G t = R t + 1 + γ R t + 2 + . . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t=R_{t+1}+\gamma R_{t+2}+....=\sum_{k=0}^\infty \gamma^kR_{t+k+1} Gt=Rt+1+γRt+2+....=k=0γkRt+k+1
如果从某一状态 s 1 s_1 s1出发,可以得到不同的序列,然后得到不同的累积回报值。

为了评估策略 π \pi π作用下状态 s s s的价值,通过期望描述,定义为 状 态 值 函 数 {\color{red}{状态值函数}} ,表示是:
υ π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] \upsilon_\pi(s)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s\big] υπ(s)=Eπ[k=0γkRt+k+1St=s]
基本意思是策略 π \pi π作用下状态 s s s后所有回报的加权和的均值。

在这里考虑的是马尔科夫决策过程,因此往往是评估在策略 π \pi π和状态 s s s下,某个行为 a a a的价值,定义为 状 态 − 行 为 值 函 数 {\color{red}{状态-行为值函数}} ,表示是
q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] q_\pi(s,a)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s, A_t=a\big] qπ(s,a)=Eπ[k=0γkRt+k+1St=s,At=a]

可以推导出状态值函数和状态行为值函数的贝尔曼方程为:
υ π ( s ) = E π [ R t + 1 + γ υ ( S t + 1 ) ∣ S t = s ] \upsilon_\pi(s)=E_\pi\big[R_{t+1}+\gamma\upsilon(S_{t+1})|S_t=s\big] υπ(s)=Eπ[Rt+1+γυ(St+1)St=s]
q π ( s , a ) = E π [ R t + 1 + γ q ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] q_\pi(s,a)=E_\pi\big[R_{t+1}+\gamma q(S_{t+1},A_{t+1})|S_t=s, A_t=a\big] qπ(s,a)=Eπ[Rt+1+γq(St+1,At+1)St=s,At=a]

状 态 值 函 数 与 状 态 − 行 为 值 函 数 的 关 系 {\color{red}{状态值函数与状态-行为值函数的关系}} 为:
(1)$\upsilon_\pi(s)=\sum \limits_{a\in A} \pi(a|s) q_\pi(s,a) $
这个式子的意思是:在状态 s s s处的值函数等于采取策略 π \pi π时,所有状态-行为值函数的总和。

(图形解释)
(2) q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a υ ( s ′ ) = R s a + γ ∑ s ′ ∈ S P s s ′ a ∑ a ′ ∈ A π ( s ′ , a ′ ) q π ( s ′ , a ′ ) q_\pi(s,a)=R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon(s^{'})=R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\sum\limits_{a^{'}\in A}\pi(s^{'},a^{'})q_\pi(s^{'},a^{'}) qπ(s,a)=Rsa+γsSPssaυ(s)=Rsa+γsSPssaaAπ(s,a)qπ(s,a)
这个式子的意思是:在状态 s s s处采取行为 a a a的状态-行为值函数等于回报加上后续状态的值函数。

将式(2)带入式(1)
υ π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a υ ( s ′ ) ) \upsilon_\pi(s)=\sum \limits_{a\in A} \pi(a|s) (R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon(s^{'})) υπ(s)=aAπ(as)(Rsa+γsSPssaυ(s)
也就是说在状态 s s s处的值函数 υ π ( s ) \upsilon_\pi(s) υπ(s),可以利用后续状态的值函数 υ ( s ′ ) \upsilon(s^{'}) υ(s)来表示。

在所有策略中,使得值函数值最大的策略称之为最优策略,同时对应着最优状态值函数和最优状态-行为值函数,表示如下:
υ ∗ ( s ) = max ⁡ π v π ( s ) \upsilon^*(s)=\max \limits_{\pi}v_\pi(s) υ(s)=πmaxvπ(s)
q ∗ ( s , a ) = max ⁡ π q π ( s , a ) q^*(s,a)=\max \limits_{\pi}q_\pi(s,a) q(s,a)=πmaxqπ(s,a)

可以得到最优状态值函数和最优状态-行为值函数的贝尔曼方程,表示如下:
υ ∗ ( s ) = max ⁡ a R s a + γ ∑ s ′ ∈ S P s s ′ a υ ∗ ( s ′ ) \color{red}{\upsilon^*(s)=\max \limits_{a} R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon^*(s^{'})} υ(s)=amaxRsa+γsSPssaυ(s)
q ∗ ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a max ⁡ a ′ q ∗ ( s ′ , a ′ ) \color{red}{q^*(s,a)=R^{a}_{s} +\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\max\limits_{a'}q^*(s^{'}, a^{'})} q(s,a)=Rsa+γsSPssaamaxq(s,a)

如果知道最优状态-行为值函数,最优策略 π ∗ ( a ∣ s ) \pi^*(a|s) π(as)可以通过直接最大化 q ∗ ( s , a ) q^*(s,a) q(s,a)确定,即:
$\pi^(a|s)= \begin{cases} 1 \ if a=\mathop{\arg\max}_\limits{a} \ q^(s,a) \ 0 \ others \end{cases} $

这个策略为即为 贪 婪 策 略 \color{red}{贪婪策略} ,仅仅考虑当前最优,是确定性策略。

常见的概率分布都是常见的随机策略。

  1. 贪 婪 策 略 \color{red}{贪婪策略} ,这个是确定性策略
  2. ϵ − g r e e d y 策 略 \color{red}{\epsilon-greedy策略} ϵgreedy
    $\pi^(a|s)= \begin{cases} 1-\epsilon+\epsilon/(|A(s)|) \ if a=\mathop{\arg\max}_\limits{a} \ q^(s,a) \ \epsilon/(|A(s)|) \ others \end{cases} $
  3. 高 斯 策 略 \color{red}{高斯策略}
  4. 玻 尔 兹 曼 分 布 \color{red}{玻尔兹曼分布}

参考文献

  1. 深入浅出强化学习原理入门


欢迎关注微信公众号:AITBOOK
在这里插入图片描述

你可能感兴趣的:(强化学习,强化学习笔记,强化学习)