MDPs(马尔可夫决策过程)

本文来自:
https://blog.csdn.net/DeepOscar/article/details/81036635
本着学习的态度,自己打一遍已增强理解和记忆

1. 马尔可夫决策过程

马尔可夫决策过程是对强化学习问题的数学描述,几乎所有的RL问题都可以用MDPs来描述。


MDPs(马尔可夫决策过程)_第1张图片
强化学习的表述符号

2. 马尔可夫性

【我的理解】类似于条件独立
定义:如果在t时刻的状态St满足下列等式,那么这个状态被称为马尔可夫状态,或者说该状态满足马尔可夫性。


状态转移公式

马尔可夫性要点:

  • 状态St包含了所有历史相关信息,或者说所有的历史相关信息都可以通过状态St展现出来
  • 一旦St知道了,状态S1, S2, ..., St-1都可以被抛弃

有了马尔可夫性后:

  • 可以定义状态转义矩阵
  • 忽略时间影响,只关心当前状态做出的下一步影响

3. 状态转移矩阵

定义:状态转移概率是指马尔可夫状态S跳转到后续状态S`的概率。


image.png

所有的状态组成行,所有的后继状态组成列,将得到状态转移矩阵:


MDPs(马尔可夫决策过程)_第2张图片
状态转移矩阵

其中,n表示状态的个数,由于P代表了整个状态转移的集合,所以用个花体。每行元素相加等于1。

我们也可以将状态转移概率写成函数的形式:
状态转移矩阵函数形式

其中
image

,状态数量太多或者是无穷大(连续状态)时,更适合用状态转移函数,此时,
image

4. 马尔可夫过程

一个马尔可夫过程(MP)是一个无记忆的随机过程,即一些马尔可夫状态的序列。马尔可夫过程可由一个二元组来定义,S表示了状态集合,P表示了状态转移矩阵。由于马尔科夫过程可以用图中的方块和线条组成,所以可以称马尔科夫过程为马尔科夫链(MDPs chain)。

举个栗子:

一个学生每天需要学习三个科目,然后通过测试。不过也有可能只学完两个科目之后直接睡觉,一旦挂科有可能需要重新学习某些科目。用椭圆表示普通状态,每一条线上的数字表示从一个状态跳转到另一个状态。方块表示终止状态。终止状态有两种:1是时间终止,2是状态终止。


MDPs(马尔可夫决策过程)_第3张图片
image.png

5. 片段

片段定义:强化学习中,从初始状态S1到终止状态的序列过程,被称为一个片段(episode),S1, S2,... ,ST

如果一个任务总以终止状态结束,那么这个任务被称为片段任务;
如果一个任务没有终止状态,会被无限执行下去,这被称为连续性任务。

MDPs(马尔可夫决策过程)_第4张图片
image.png
  1. 马尔可夫奖励过程(MRP)
    马尔可夫过程主要描述的状态之间的转移关系,在这个转移关系上赋予不同的奖励值即得到马尔可夫奖励过程。
    定义:马尔可夫奖励 (Markov Reward Process, MRP) 过程由一个四元组组成 〈S, P,R, γ〉。
  • S 代表了状态的集合

  • P 描述了状态转移矩
  • R 表示奖励函数,R(s) 描述了在状态 s 的期望奖励,
  • γ 表示衰减因子,γ ∈ [0, 1]

MDPs(马尔可夫决策过程)_第5张图片
马尔可夫奖励过程例子

你可能感兴趣的:(MDPs(马尔可夫决策过程))