2018-05-14

大数据存储课--单撸大程 ojbk

蒙特卡洛 启动!

////////////////////////////////////////////////////////

前面基本就是一些简单的介绍?然后提到了两个东西:

first-visit MC method

every-visit MC method


我总感觉这个first-visit MC method有点问题,在第9-12章再说吧


2018-05-14_第1张图片

这是first-visit MC prediction的一个伪代码

///////////////////////////////////

这里有一个关于蒙特卡洛的思考:

我们知道DP问题其实就基本等同于RL问题,但是有一些情况DP真的不好用,最最最关键的是它要知道p(s',r|s,a) 这个状态转移是精髓,但是当每一步的r很难确定的时候,或者说这个概率p也很难形容的时候,DP就不好用了----就比如这个21点,我现在手中点数是12点,OK这个我可以当成是一个state--下一步抽出一个牌X,12+X也是一个state--OK这个也没问题,但是,这个r怎么说??因为21点这个游戏其实是到最后一步才给我一个整体的reward,中间步骤的r很难定义,这样状态值函数和动作值函数都特么很难搞。。。或者说强行定义代价太大----

这个在第五章的序里面提到了:“Monte Carlo methods can thus be incremental in an episode-by-episode sense, but not in a step-by-step (online) sense”

它是针对以episode为单位的东西,显然DP去搞以step为单位的会容易很多----Monte Carlo更像是一锤子买卖....特么这个episode结束之后再BB

再拿之前我写过的flappy bird的说,那个可以定义每过一个柱子给一个正的reward 或者按照存活时间给正向reward,然后最后死了给个大的负的reward  OK  step-by-step

//针对21点这个游戏的一些分析,我直接记在书上了

///////////////////////////////////////////////////////////////////////////////////////////////////

Backup Diagram(备份图算法) && Monte Carlo

//备份图的总体思路是在顶部显示要更新的根节点,并在下面显示其奖励和估计值有助于更新的所有转换和叶节点。


2018-05-14_第2张图片


2018-05-14_第3张图片

这是Backup Diagram针对蒙特卡洛和DP的两个例子

区别就是:DP图显示了下一步所有可能的转换(DP考虑下一步的所有情况,所以是个很矮很宽的树--枝繁叶茂),但蒙特卡罗图仅显示在一个episode中采样的那些(也就是说,对于蒙特卡洛而言,它不是去预测什么,对于这一个episode而言,它所走过的才是真实,才是它去考虑的,所以它是一条直通到底,没有所谓概率的直线--一枝独秀)。 DP图只包含一步转换,蒙特卡洛图一直到本集结尾。 这些图中的这些差异准确反映了算法之间的基本差异。

//////////////

蒙特卡洛是个MDP,这个OK

还有一小段有点不太理解,先记下来:

In particular, note that the computational expense of estimating the value of a single state is independent of the number of states. This can make Monte Carlo methods particularly attractive when one requires the value of only one or a subset of states. One can generate many sample episodes starting from the states of interest, averaging returns from only these states ignoring all others. This is a third advantage Monte Carlo methods can have over DP methods

大致意思说的是蒙特卡罗可以更有针对性的研究某一个state吧  能做针对性训练?而不是像DP是广撒网。

////////////////////////////////////////////////////////////////////////////////////////

大概就是这些吧~

加油减肥,期待七月~

你可能感兴趣的:(2018-05-14)