目录
马尔可夫决策过程MDP: a Markov reward process with decisions
策略
值函数
Bellman 期望公式
Bellman期望公式 的矩阵形式
最优值函数 Optimal Value Function
最优策略
Bellman最优方程Optimality Equation
MDPs 的扩展
Ergodic Markov Process 遍历马氏过程
Average Reward Value Function
给定状态s下的动作的分布函数就是policy ,它完全定义了agent的行为。
MDP过程仅取决于当前的状态,而不是历史信息H,也就是说,策略是稳态分布(stationary ,time-independent)
其中
根据策略 采取的行为不同,所得的回报也不尽相同。
状态-值函数反映了在状态s处,根据策略 对所有的动作采样,的结果会有多好。
Example: State-Value Function for Student MDP
Example: Bellman期望公式 in Student MDP
只考虑红色圆圈的这个state,它表示class 3 ,我们要验证 用Bellman期望公式计算的值函数无恶是维7.4.
在class 3 这个状态下,去pub 和学习的概率各为50%, 在这个策略下,以50%的概率去pub后又各以0.2,0.4,0.4的概率去class1,class2, class3, .
求出解的形式:
根据MDP可以得到不同的策略,最优值函数指出了MDP中的最佳表现,当我们已知一个MDP的最优值 时,可认为已经求解出这个MDP了。
最优策略对应的V值就是最优V值,对应的Q值就是最优Q值。
最优状态-值函数: the maximum value function over all policies
最优动作-值函数: the maximum action-value function over all policies
怎样可以判定一个策略要优于另一个策略?这需要我们先对所有策略定义一个偏序[ partial ordering]:其中表示任意的两个策略,在所有状态s下,一个策略的值函数都大于等于另一个策略的值函数时,我们认为,
Theorem
对任一MDP,总存在一个最优策略 要优于其他所有策略:
当有多个最优策略时,所有的最优策略的最优值函数相等:
当有多个最优策略时,所有的最优策略的最优动作-值函数相等:
怎么求出最优策略? —— 最大化 ,
对任一的MDP,总存在一个确定的最优策略,如果已知,那么最优策略可立即求解。
贝尔曼最优方程描述了如何求解MDP方程,如何把它们和最优值函数联系起来。
贝尔曼最优方程时非线性的,通常没有闭解【closed form solution】,但是有很多迭代方法可以求解:Value Iteration值迭代、 Policy Iteration策略迭代、 Q-learning 、Sarsa。
无限可数的状态/动作空间;
连续的状态/动作空间:线性二次模型的闭解形式【linear quadratic model (LQR)】
连续时间:需要用偏微分方程、Hamilton-Jacobi-Bellman (HJB)方程、当时间步趋于0时是贝尔曼方程的极限情形。
Belief States
history 是动作、观测和回报构成的序列:
- belief state b(h) 是基于历史数据H的状态的概率分布,
Reductions of POMDPs
历史信息满足马尔可夫性;信念状态 也满足马尔可夫性;
POMDP 可以被分解为一个 (infinite) history tree 和 belief state tree
Theorem
一个遍历马氏过程具有一个极限稳态分布 ,它满足以下性质:
如果一个马氏链 是由一个有遍历性的策略推导而来,那么这个MDP具有遍历性【ergodic.】
对任一策略,一个遍历MDP的 是独立于起始状态的, 是每个时间步的平均回报。
undiscounted, ergodic MDP 的值函数可以表示为平均回报的函数。
是以s为起始状态的超额回报【extra reward】
相应的平均回报的贝尔曼方程可表示为