Markov Processes

马尔科夫决策过程

参考链接:强化学习系列(三):马尔科夫决策过程

一、前言

1.多臂老虎机只有一个state,没有考虑在不同state下对于action的选择问题
2.associative problem,即不需要考虑状态间的转移,以及action对一系列state的影响
3.本章介绍Markov Decision Processes

二、Markov Processes

2.1 马尔科夫性

1.未来独立与过去,仅仅与现在有关
2.Markov Processes_第1张图片
Markov Processes_第2张图片

2.2 马尔科夫过程

1.具有马尔科夫性的量随机组成的记忆链,这些量之间有转移概率
2.定义
Markov Processes_第3张图片

2.3 student Markov Chain

so funny
具体见原博。

三、MDP:Markov Decision Prosess

3.1 MRP:Markov Reward Process

1.MRP是关于价值的马尔科夫链
2.定义
Markov Processes_第4张图片

3.1.1.1 Return

1.总体的Reward之和:
在这里插入图片描述
2.γ出现的原因
Markov Processes_第5张图片

3.1.1.2 value Function

1.举个,看3.1.1.1中reward之和是如何计算的
详细过程见原博
2.Definition of value Function
MRP的状态值函数v(s)是从状态s开始的预期返回。
Markov Processes_第6张图片
3.将value function 带入到Student MRP中可以得到State-Value Function for Student MRP
图示见原博。
个人觉得圆框中的数值都是期望的近似值。

3.1.1.3 Bellman等式

1.描述的是value function的迭代公式,即v(s)与v(s+1)的关系
Markov Processes_第7张图片
2.Bellman在RL中常用backup图表示,如下
Markov Processes_第8张图片
更直观易懂,见原博。
3.用矩阵形式表示Bellman
Markov Processes_第9张图片
但是不能通过矩阵求解的形式来求解,因为:

  • 这个问题的计算复杂度为O(n3),我们只能对维度较小的MRP直接求解
  • 另外有很多迭代的方式可以求解:Dynamic programming(动态规划)、Monte-Carlo、evaluation(蒙特卡洛)、Temporal-Difference learning(时间查分)

3.2 MDPs:Markov Decision Process

1.与MRPs的关系:比MRPs多了一个采取动作的过程,这个动作就是Decision
2.定义:
Markov Processes_第10张图片
3.student MDP
和student MRP 比较,增加了动作量。图见原博。

3.2.1 Policy

1.定义:策略policy表示在状态s下采取动作a的概率
Markov Processes_第11张图片
2.策略π下的state转移概率和reward符号表示
Markov Processes_第12张图片

3.2.2 value function

1.状态价值函数v(s)
Markov Processes_第13张图片

2.动作价值函数q(s,a)
Markov Processes_第14张图片
在这里插入图片描述

3.2.3 Bellman Expectation Equation贝尔曼期望方程

1.从state到action
Markov Processes_第15张图片

2.从action到state
Markov Processes_第16张图片
3.从state到state
Markov Processes_第17张图片
4.从action到action
Markov Processes_第18张图片

3.2.4 最优价值函数

Markov Processes_第19张图片

3.2.5 最优策略

在这里插入图片描述
Markov Processes_第20张图片
Markov Processes_第21张图片

3.2.6 Bellman最优公式

1.state到action
在这里插入图片描述

Markov Processes_第22张图片
2.从action到state
当我们选择了一个动作后,自然产生一个reward,然后我们会有一定几率转移到状态s’,注意,这里没有一个最大化的过程。
Markov Processes_第23张图片
3.state到state
Markov Processes_第24张图片
结合上面两个Backup图可得。
4.从action到action
Markov Processes_第25张图片
5.Bellman最优方程是非线性的,不能根据矩阵直接求解,有以下求解公式

  • Value Iteration
  • Policy Iteration
  • Q-learning
  • Sar sa

你可能感兴趣的:(Reinforcement,Learning,人工智能,python,数据挖掘)