参考链接:强化学习系列(三):马尔科夫决策过程
1.多臂老虎机只有一个state,没有考虑在不同state下对于action的选择问题
2.associative problem,即不需要考虑状态间的转移,以及action对一系列state的影响
3.本章介绍Markov Decision Processes
1.具有马尔科夫性的量随机组成的记忆链,这些量之间有转移概率
2.定义
so funny
具体见原博。
1.举个,看3.1.1.1中reward之和是如何计算的
详细过程见原博
2.Definition of value Function
MRP的状态值函数v(s)是从状态s开始的预期返回。
3.将value function 带入到Student MRP中可以得到State-Value Function for Student MRP
图示见原博。
个人觉得圆框中的数值都是期望的近似值。
1.描述的是value function的迭代公式,即v(s)与v(s+1)的关系
2.Bellman在RL中常用backup图表示,如下
更直观易懂,见原博。
3.用矩阵形式表示Bellman
但是不能通过矩阵求解的形式来求解,因为:
1.与MRPs的关系:比MRPs多了一个采取动作的过程,这个动作就是Decision
2.定义:
3.student MDP
和student MRP 比较,增加了动作量。图见原博。
1.定义:策略policy表示在状态s下采取动作a的概率
2.策略π下的state转移概率和reward符号表示
2.从action到state
3.从state到state
4.从action到action
2.从action到state
当我们选择了一个动作后,自然产生一个reward,然后我们会有一定几率转移到状态s’,注意,这里没有一个最大化的过程。
3.state到state
结合上面两个Backup图可得。
4.从action到action
5.Bellman最优方程是非线性的,不能根据矩阵直接求解,有以下求解公式