CS229-17讲离散和维度灾难思路整理

机器学习16主要讲的是对离散的状态和行为如何进行强化学习,得到一个优化后的V*,但是,对连续的状态进行强化学习,是本节课的重点。连续状态如果简单的进行离散化处理,会出现维度灾难,并且效果也并不理想,最容易想到的方法就是和监督学习的方式一样,通过对连续的状态进行采样,同时,通过线性拟合得到整个最优的Reward(总收益)。
那么这里面首先有第一个问题:
1.如何进行连续状态下的离散采样?因此这里面吴恩达介绍了两种方法分别是确定化的物理模型方法和线性拟合的方法。因为物理模型的方法,因此是一个确定性状态转移函数,而线性拟合的方法,可以做成确定性的状态转移,也可以做成+sigma形式的随机状态转移函数.通过这些随机状态转移函数或是确定性状态转移函数,我们就可以进行确定状态s0下不同的行为alpha的状态取样了。
2.估计最优值函数。
因为状态是一个连续的,同时,我们的最优值也就变成了连续的。之前讲过通过线性拟合获取到最优的总收益,因此,我们首先要有个一已知状态,能过获取到这个状态的最优值函数的模型。也就是视频中进行的第二步,获取最优值函数。
图中最后的v(s)就是最优值函数模型。
3.通过模型得到S0状态在不同的行为alpha下的状态转移S1',s1''等等,通过这些sample估计sample的最优收益v*,同时,通过线性模拟的方法,得到对应的sita值。
CS229-17讲离散和维度灾难思路整理_第1张图片看到第4行,using model 这个model就是我们在第一步中获取到的model,分为确定性model和随机model。
这样得到sita值之后,将任意一步的s状态带入,就可以直接得到每一步,在每一个行为alpha下的的最优reward值,可以进行策略的选取了。如果是随机模型,则需要和图中一样,去求平均,如果是确定模型,那就直接可以得到在不同的行为alpha下的不同q值,取最大值即可。

 

原文地址:http://blog.163.com/silver9886@126/blog/static/35971862201531310324388/

你可能感兴趣的:(CS229-17讲离散和维度灾难思路整理)