David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程

Lecture 2: Markov Decision Processes
https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf

Markov Processes

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第1张图片
几乎所有的强化学习问题都可以表述为马尔可夫决策过程为题,而马尔可夫过程中的状态均满足马尔可夫性。根据定义式,马尔可夫状态包含了其history中全部的状态信息,即该状态是下一状态的充分统计量,在强化学习中信息量是全部的rewards。
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第2张图片
马尔可夫状态的转换通过状态转换矩阵实现。
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第3张图片
马尔可夫过程是一个无记忆性的随机过程,表示为一个二元组,其中把偶偶状态集S和过程集P。

Markov Reward Processes

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第4张图片
马尔可夫奖励过程(MRP)与马尔可夫过程(MP)相比多了一个奖励函数和一个折扣银子。折扣银子表示未来奖励对于现在的影响大小(0到1之间)。
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第5张图片
回报是从时间t开始的一直到终止整个过程中全部的折扣奖励,这里的奖励是从t+1开始计算,可以看到距离当前时间最近的奖励是最被看重的。
myopic 近视的;短视的;目光短浅的
far-sighted 有远见的;深谋远虑的
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第6张图片
MRP的价值方程给出了状态s的一个长期价值。
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第7张图片
贝尔曼方程很好推导出来,分为当前的reward和折扣因子下的下一状态值,两部分加和的期望即为状态s的值函数。
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第8张图片
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第9张图片

贝尔曼方程的矩阵表示形式,也可以被直接解出来。

Markov Decison Processes

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第10张图片
马尔可夫决策过程(MDP),相比MRP多了action。
MDP是执行一个动作action得到的,儿MRP进入状态就可得到。
MDP中执行一个动作得到的结果不一定相同,所以也是以概率P的形式存在,这点与MRP中状态转换以P的形式存在同理。

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第11张图片Policy是根据跟定状态下action的分布
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第12张图片
MDP的价值方程分为状态价值和行为价值两种,这里的函数值是与策略相关的,方程根据某一状态和行为下得到的回报(折扣奖励的总和)的期望得到。

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第13张图片
MDP的贝尔曼方程同样也分为状态价值方程和行为价值方程。这是因为状态和行为的交替产生的,每一种行为都可以产生不同概率的状态,在同一状态下也可能做出不同的行为。
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第14张图片
从行为(黑点)推状态(圆圈),得到状态的价值方程。
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第15张图片
从圆圈推行为,得到行为的状态价值方程。

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第16张图片
在状态-行为-状态的结构中,得到的状态方程如上。

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第17张图片
在行为-状态-行为的方程中,得到的方程如上。

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第18张图片
最优价值方程

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第19张图片
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第20张图片

最优策略,找到行为a可以时行为价值方程的函数值最大,将这个行为设为1,其他设为0。

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第21张图片
解决最优贝尔曼方程的途径

Extensions to MDPs

David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第22张图片
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程_第23张图片

(no exam)

你可能感兴趣的:(强化学习,概率论,强化学习,人工智能)