【CS229 lecture17】连续马尔科夫决策过程

lecture17

recap MDP
how to generalize these idea (MDP) to continuous states?

Continuous state MDPs (上节课讲的是离散的)
-Discretization
-Models/Simulator
-Fitted value iteration
-Q function
-Approximate policy iteration

(Q function and Approxiamte policy iteration are built on Fitted value iteration)

examples: car, helicopter, inverted pendulum

【CS229 lecture17】连续马尔科夫决策过程_第1张图片

怎样解决这些连续状态的问题呢?很简单,把状态集离散化就可以了。比如对于car的三维状态集或者helicopter的六维状态集,把它离散化就可以用finite states MDP了。

【CS229 lecture17】连续马尔科夫决策过程_第2张图片

但正如黑板上写的,离散化会有两个问题:不光滑和维数灾难。

the other method for continuous MDP, 比如利用物理知识,建立确定性的模型,也可以使用stochastic model(随机模型)。

【CS229 lecture17】连续马尔科夫决策过程_第3张图片

通过多做几次trajectory去learn a model. 具体的算法LWR表现不错,下节课再展开讲。

【CS229 lecture17】连续马尔科夫决策过程_第4张图片

having learned a model with parameters A and B, then you have a model:

【CS229 lecture17】连续马尔科夫决策过程_第5张图片

下面开始approximate the optimal value function (和linear regression的思想一样,图中的 ϕ  函数体现出了核技巧的意思,可以实现非线性approximation),
第二张图先写value iteration, 然后再写一个approximate value iteration(fitted value iteration,拟合值迭代算法).

【CS229 lecture17】连续马尔科夫决策过程_第6张图片
【CS229 lecture17】连续马尔科夫决策过程_第7张图片

上面第二张图的Fitted value iteration写得不完整,清晰,直接用讲义的陈述了:


【CS229 lecture17】连续马尔科夫决策过程_第8张图片

Unlike value iteration over a discrete set of states, fitted value iteration cannot be proved to always to converge.

特别地,对于一个确定性的MDP模拟器,可以降低samples m至1
下面讲如何根据optimal value function 去找 optimal policy


DONE ! 详见讲义notes12
听说下节课接着讲continuous MDP的求解算法。

你可能感兴趣的:(机器学习)