马尔可夫过程||马尔可夫奖励过程||马尔可夫决策过程——基本概念汇总

马尔可夫过程MP:(S,P)

马尔可夫奖励过程MRP:(S,P,R,γ)

马尔可夫决策过程MDP:(S,A,P,R,γ)


马尔可夫过程 MP

马尔科夫性:下一时刻状态只与当前时刻状态有关,与之前状态无关。

状态转移矩阵:定义了状态 s 到其后所有后继状态 s^{\prime} 的转移概率。

                        状态转移概率:P_{ss^{\prime}}=P[S_{t+1}=s^{\prime}|S_{t}=s]

\left.P=\left[\begin{matrix}P_{11}\ldots P_{1n} \\ \\ P_{n1}\ldots P_{nn}\end{matrix}\right.\right]

                        矩阵中每行元素总和为1。

马尔可夫过程可分为三类:

        1)时间、状态都离散——马尔科夫链

        2)时间连续、状态离散——连续时间的马尔科夫链

        3)时间、状态都连续——马尔可夫过程

马尔科夫链由(S,P)构成,S为有限状态的集合,P为状态转移矩阵P_{ss^{\prime}}

:马尔科夫链的子序列,从初始状态到终止状态。


马尔可夫奖励过程 MRP

        由(S,P,R,γ)构成,

        R_s奖励函数R_s=E[R_{t+1}|s_t=s]

        γ是折扣因子\gamma\in[0,1]

回报:在一个马尔可夫过程中,从 t 时刻状态 s_t 开始,直到终止状态,所有奖励的衰减之和 G_t称为回报。

                (当前价值)    G_t=R_{t+1}+\gamma R_{t+2}+\gamma ^2R_{t+3}+\ldots=\sum_{k=0}^{\infty}\gamma ^{k}R_{t+k+1}

                \gamma=0 时,表示只考虑当前收益。

价值函数:一个状态的期望回报。

                (长远价值)     v_{(s)}=E[G_{t}|S_{t}=s]

贝尔曼方程:(用于求解v_{(s)} )

v_{(s)}=E[R_{t+1}+\gamma v_{(s_{t+1})}\mid S_t=s]

v_{(s)}=R_{s}+\gamma\sum_{s^{\prime}\in S}p_{ss^{\prime}}v_{(S^{\prime})}

                矩阵形式:

\left.\left[\begin{matrix}v_{(1)} \\ \vdots \\ v_{(n)}\end{matrix}\right.\right]=\left[\begin{matrix}R_1 \\ \vdots \\ R_n\end{matrix}\right]+\gamma\left[\begin{matrix}P_{11}\cdots & P_{1n} \\ \vdots & \vdots \\ P_{n1}\cdots & P_{nn}\end{matrix}\right]\left[\begin{matrix}v_{(1)} \\ \vdots \\ v_{(n)}\end{matrix}\right]

对于大型MRP,有很多迭代方法:动态规划、蒙特卡洛评估、时序差分学习等。


马尔可夫决策过程 MDP             

        由(S,A,P,R,γ)构成。

A是有限动作的集合。

P是状态转移矩阵。        P_{ss^{\prime}}^{a}=P[S_{t+1}=s^{\prime}|S_{t}=s,A_{t}=a]

R_s奖励函数。        R_{s}^{a}=E[R_{t+1}|S_{t}=s,A_{t}=a]

策略:输入状态为 s 的情况下采取动作 a 的概率。

\pi_{(a|s)}=P[A_{t}=a|S_{t}=s]

                        策略完全定义了智能体的行为,仅却决于当前状态。

状态价值函数

v_{\pi}(s)=E_{\pi}[G_{t}|S_{t}=s]

动作价值函数

q_{\pi}(s,a)=E_{\pi}[G_t|S_t=s,A_t=a]

贝尔曼期望方程

v_{\pi}(s)=E_{\pi}[R_{t+1}+\gamma v_{\pi}(s_{t+1})|S_t=s]

q_{\pi}(s,a)=E_{\pi}(R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a]

v_{\pi}(s)=\sum_{a\in A}\pi(a|s)q_{\pi}(s,a)

q_{\pi}(s,a)=R_{s}^{a}+\gamma\sum_{s'\in S}P_{ss'}^{a}v_{\pi}(s^{\prime})

v_{\pi}(s)=\sum_{a\in A}\pi(a|s)(R_{s}^{a}+\gamma\sum_{s'\in S}P_{ss'}^{a}v_{\pi}(s^{\prime}))

最优状态价值函数

v_{*}(s)=\max_{\pi}v_{\pi}(s)

最优动作价值函数

q_{*}(s,a)=\max_{\pi}q_{\pi}(s,a)

最优策略

    策略间的偏序:当且仅当对于任意状态 s 都有 V_{\pi}(s)\geq V_{\pi^{\prime}}(s) 时,记作\pi\geq \pi^{\prime}

    最优策略:在有限状态和动作的MDP中,至少存在一个策略不劣于其他所有策略,即\pi_{*}\geq \pi

    所有最优策略具有相同的最优状态价值函数和最优动作价值函数。

                可以通过最大化 q_{*}(s,a) 来找到最佳策略。

v_{*}(a|s)=\begin{cases}1,if{...}a=arg\max_{a\in A}q_{*}(s,a)\\0\end{cases}

                任何MDP都始终有确定性的最佳策略。

贝尔曼最优方程

v_{*}(s)=\max_{a}q_{*}(s,a)

q_{*}(s,a)=R_{s}^{a}+\gamma\sum_{s'\in S}P_{ss'}^{a}v_{*}(s^{\prime})

v_*(s)=\max_a\left(R_s^a+r\sum_{s'\in S}P_{ss^{\prime}}^aV_*(s^{\prime})\right)

q_*(s,a)=Rs^a+\gamma\sum_{s^{\prime}\in S}P_{ss^{\prime}}^a\max_{a^{\prime}}q_*(s^{\prime},a^{\prime})

                 贝尔曼最优方程迭代方法:价值迭代、策略迭代、Q学习、Sarsa等。


你可能感兴趣的:(机器学习,算法,机器学习,深度学习)