【深入浅出强化学习原理入门学习笔记】2.马尔可夫决策过程
马 尔 科 夫 性 {\color{red}{马尔科夫性}} 马尔科夫性: P [ S t + 1 ∣ S t ] = P [ S t + 1 ∣ S 1 , S 2 , S 3 , . . . , S t ] P \big[S_{t+1}|S_t\big]=P\big[S_{t+1}|S_1,S_2,S_3,...,S_t\big] P[St+1∣St]=P[St+1∣S1,S2,S3,...,St] 即系统的下一个状态只与当前状态有关,与之前状态无关。
马 尔 科 夫 过 程 {\color{red}{马尔科夫过程}} 马尔科夫过程:随机变量序列中的每个状态都是马尔科夫的,是一个二元组 ( S , P ) (S, P) (S,P), S S S为有限状态集, P P P是状态转移概率。
马 尔 可 夫 决 策 过 程 {\color{red}{马尔可夫决策过程}} 马尔可夫决策过程:将动作(策略)和回报考虑在内的马尔科夫过程,用元组表示是 ( S , A , P , R , γ ) \big(S, A, P, R, \gamma\big) (S,A,P,R,γ), S S S为有限状态集, A A A为有限动作集, P P P是状态转移概率(包含动作), R R R为回报函数, γ \gamma γ为回报折扣因子。
强 化 学 习 的 目 标 {\color{red}{强化学习的目标}} 强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略,这里的策略是指 从 状 态 到 行 动 的 映 射 {\color{red}{从状态到行动的映射}} 从状态到行动的映射,即: π ( a ∣ s ) = p [ A t = a ∣ S t = s ] \pi(a|s)=p\big[A_t=a|S_t=s\big] π(a∣s)=p[At=a∣St=s],
意思为:策略 π \pi π在每一个状态 s s s下指定一个动作概率,如果是一个确定的动作,该策略为确定性策略。
强化学习的策略一般是随机策略,智能体尝试其他动作以便找到更好的策略,所以引入概率因素。既然策略是随机的策略,那么状态变化序列可能不一样,因此累积回报也是随机的。
在给定的策略 π \pi π的作用下,可以计算 累 积 回 报 {\color{red}{累积回报}} 累积回报 G t G_t Gt,
G t = R t + 1 + γ R t + 2 + . . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t=R_{t+1}+\gamma R_{t+2}+....=\sum_{k=0}^\infty \gamma^kR_{t+k+1} Gt=Rt+1+γRt+2+....=∑k=0∞γkRt+k+1
如果从某一状态 s 1 s_1 s1出发,可以得到不同的序列,然后得到不同的累积回报值。
为了评估策略 π \pi π作用下状态 s s s的价值,通过期望描述,定义为 状 态 值 函 数 {\color{red}{状态值函数}} 状态值函数,表示是:
υ π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] \upsilon_\pi(s)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s\big] υπ(s)=Eπ[∑k=0∞γkRt+k+1∣St=s],
基本意思是策略 π \pi π作用下状态 s s s后所有回报的加权和的均值。
在这里考虑的是马尔科夫决策过程,因此往往是评估在策略 π \pi π和状态 s s s下,某个行为 a a a的价值,定义为 状 态 − 行 为 值 函 数 {\color{red}{状态-行为值函数}} 状态−行为值函数,表示是
q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] q_\pi(s,a)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s, A_t=a\big] qπ(s,a)=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a],
可以推导出状态值函数和状态行为值函数的贝尔曼方程为:
υ π ( s ) = E π [ R t + 1 + γ υ ( S t + 1 ) ∣ S t = s ] \upsilon_\pi(s)=E_\pi\big[R_{t+1}+\gamma\upsilon(S_{t+1})|S_t=s\big] υπ(s)=Eπ[Rt+1+γυ(St+1)∣St=s]
q π ( s , a ) = E π [ R t + 1 + γ q ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] q_\pi(s,a)=E_\pi\big[R_{t+1}+\gamma q(S_{t+1},A_{t+1})|S_t=s, A_t=a\big] qπ(s,a)=Eπ[Rt+1+γq(St+1,At+1)∣St=s,At=a]
状 态 值 函 数 与 状 态 − 行 为 值 函 数 的 关 系 {\color{red}{状态值函数与状态-行为值函数的关系}} 状态值函数与状态−行为值函数的关系为:
(1)$\upsilon_\pi(s)=\sum \limits_{a\in A} \pi(a|s) q_\pi(s,a) $
这个式子的意思是:在状态 s s s处的值函数等于采取策略 π \pi π时,所有状态-行为值函数的总和。
(图形解释)
(2) q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a υ ( s ′ ) = R s a + γ ∑ s ′ ∈ S P s s ′ a ∑ a ′ ∈ A π ( s ′ , a ′ ) q π ( s ′ , a ′ ) q_\pi(s,a)=R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon(s^{'})=R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\sum\limits_{a^{'}\in A}\pi(s^{'},a^{'})q_\pi(s^{'},a^{'}) qπ(s,a)=Rsa+γs′∈S∑Pss′aυ(s′)=Rsa+γs′∈S∑Pss′aa′∈A∑π(s′,a′)qπ(s′,a′)
这个式子的意思是:在状态 s s s处采取行为 a a a的状态-行为值函数等于回报加上后续状态的值函数。
将式(2)带入式(1)
υ π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a υ ( s ′ ) ) \upsilon_\pi(s)=\sum \limits_{a\in A} \pi(a|s) (R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon(s^{'})) υπ(s)=a∈A∑π(a∣s)(Rsa+γs′∈S∑Pss′aυ(s′))
也就是说在状态 s s s处的值函数 υ π ( s ) \upsilon_\pi(s) υπ(s),可以利用后续状态的值函数 υ ( s ′ ) \upsilon(s^{'}) υ(s′)来表示。
在所有策略中,使得值函数值最大的策略称之为最优策略,同时对应着最优状态值函数和最优状态-行为值函数,表示如下:
υ ∗ ( s ) = max π v π ( s ) \upsilon^*(s)=\max \limits_{\pi}v_\pi(s) υ∗(s)=πmaxvπ(s)
q ∗ ( s , a ) = max π q π ( s , a ) q^*(s,a)=\max \limits_{\pi}q_\pi(s,a) q∗(s,a)=πmaxqπ(s,a)
可以得到最优状态值函数和最优状态-行为值函数的贝尔曼方程,表示如下:
υ ∗ ( s ) = max a R s a + γ ∑ s ′ ∈ S P s s ′ a υ ∗ ( s ′ ) \color{red}{\upsilon^*(s)=\max \limits_{a} R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon^*(s^{'})} υ∗(s)=amaxRsa+γs′∈S∑Pss′aυ∗(s′)
q ∗ ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a max a ′ q ∗ ( s ′ , a ′ ) \color{red}{q^*(s,a)=R^{a}_{s} +\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\max\limits_{a'}q^*(s^{'}, a^{'})} q∗(s,a)=Rsa+γs′∈S∑Pss′aa′maxq∗(s′,a′)
如果知道最优状态-行为值函数,最优策略 π ∗ ( a ∣ s ) \pi^*(a|s) π∗(a∣s)可以通过直接最大化 q ∗ ( s , a ) q^*(s,a) q∗(s,a)确定,即:
$\pi^(a|s)= \begin{cases} 1 \ if a=\mathop{\arg\max}_\limits{a} \ q^(s,a) \ 0 \ others \end{cases} $
这个策略为即为 贪 婪 策 略 \color{red}{贪婪策略} 贪婪策略,仅仅考虑当前最优,是确定性策略。
常见的概率分布都是常见的随机策略。
参考文献
深入浅出强化学习原理入门
欢迎关注微信公众号:AITBOOK