【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)

刚看完了lecture16,借马尔科夫决策过程入门强化学习,趁热打铁把知识梳理一下(以Andrew的课为线索):

lecture 16 马尔科夫决策过程
今天开始ML新的一章,讲强化学习。
agenda
-MDPs
-Value Function
-Value iteration
-Policy iteration
后面两个都是解决强化学习的算法。

几个强化学习的例子:
斯坦福直升机 ,因为不好给定训练数据,所以只能使用奖惩信号。
计算机下棋;
强化学习就像训狗一样;

强化学习的难点(相较于监督学习)在于它是一个渐进决策过程(sequential decision making),而不是像监督学习一次性的决策。比如说下棋,第60步输了,那么credit 分配又是一个问题,因为不知道之前的60步到底哪一步错了,怎么奖惩。

给出正式的定义:
Reinforcement learning problems model the worlds using something called the MDP or the Markov Decision Process formalism. (马氏决策过程)

马尔科夫决策过程是一个五元组,偷个懒。。。

这里说一下第四个元素 γ  ,后面会见到,它的作用就是用来调节,,怎么说,折现率吧,意思是今天的一块钱和一年后的块钱在价值上是不能等同的,随着马尔科夫链的延伸,越到后面reward的影响就越小,所以好的决策应该尽早做,不能输在起跑线上。。。个人理解。

那么根据刚才的五元组,怎么构造一个马尔科夫决策过程呢?

好,以上就把马尔科夫决策过程大致是怎样的搞明白了。
在具体求解Markov优化问题前,我们需要在学习几个定义:policy,value function… 都比较容易理解。
下面第一句:强化学习的目的就是求解MDP的最优策略(policy)!

【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)_第1张图片

下面说到的Bellman equations确实妙!让不同states的value function关联了。
Bellman equations主要是后面会讲到的value iteration(两种求解MDP的算法之一)中会用得着。

【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)_第2张图片

下面再把opitmal value function 和相应的optimal policy定义完就完事了(可以开始探讨求解算法了)。

opitmal value function
【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)_第3张图片

相应的optimal policy

终于等到求解算法了!
两种求解有限类MDP的算法:value iteration和policy iteration
具体的文字这里就不截图了,只把算法给出,详细的可以看讲义notes12

1.value iteration

蓝字说的同步异步和批/随机梯度下降差不多意思。

2.policy iteration

【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)_第4张图片

 由于以上两种算法都是收敛的,于是课上有同学问了:算法convergence那么这是一个凸优化问题吗?
 Andrew:算法确实收敛到全局最优解,但是证明过程比较长(并不麻烦)且与凸优化不同。
 我:证明过程到底是啥,EM吗???

下面这段话说了,两种算法难分伯仲。

【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)_第5张图片

课程的最后讲learning a model for a MDP(省略部分文字)

【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)_第6张图片

【CS229 lecture16】强化学习-马尔科夫决策过程(MDP)_第7张图片

That’s all !

你可能感兴趣的:(机器学习)