David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测

Lecture 4: Model-Free Prediction 无模型预测
https://www.davidsilver.uk/wp-content/uploads/2020/03/MC-TD.pdf

Introduction

David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第1张图片
上节课中我们讲了动态规划方法,DP既可用于预测(使用固定的policy,只更新值函数),又可用于控制(值函数和policy都更新)。但DP是需要知道转移矩阵P和奖励函数R的,这两者组成的元组就是模型model。现实生活中,大部分强化学习的情况是不知道模型的,model free就用于解决这类问题。即MF不需知道具体的MDP,包括状态转移概率内的,同时不能像动态规划那样一下吧所有的状态全部更新。

Monte-Carlo Learning 蒙特卡洛方法

David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第2张图片
蒙特卡罗法的名字来源于世界著名的赌城蒙特卡罗。是用随机数来解决计算问题,即以概率为基础的方法。
蒙特卡洛方法流程:生成随机样本–>试验多次–>总结经验
MC法直接根据"经验(experience)"中的"一幕幕(episodes)"进行学习
Episodes:在不清楚MDP状态转移概率及即时奖励的情况下,直接从经历完整的Episodes来学习状态价值。完整的Episodes不要求起始状态一定是某一个特定的状态,但是要求agent最终进入环境的某一个终止状态。由于不知道状态转移矩阵,每一幕都需要经历到终点,从而在终点得到总回报。

Experience:即一组episodes的集合,其实就是训练样本;在完整的eposide中,用平均回报代替价值v。比如在某一状态下,遵循策略π,最终获得了总回报G,这就是一个样本;若有许多这样的样本,就可以估计在状态s下,遵循策略π的期望回报,也就是V(s).eposide越多,则结果越准确。我的理解是MC法通过episodes中的经验代替期望。
当一个episode中状态s出现了两次,First-Visit Monte-Carlo Policy Evaluation:只用第一次出现的Gt进行计算。 2)Every-Visit Monte-Carlo Policy Evaluation:则两次都参与计算。最终结果都是用总回报众泰除以状态次数,得到回报均值。
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第3张图片
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第4张图片

Temporal-Difference Learning 时间差分法

无模型预测的另一种方法是TD,同样的从episode中进行学习,但TD方法并不需要完整的episode,它是bootstrapping的。

David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第5张图片

David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第6张图片
比较MC和TD,我们发现区别在于将实际的Gt换成了对于回报的估计,这个估计值叫TD target
在这里插入图片描述
这个值与当前函数值v(st)的差值叫TD error。
TD可以在每一个时间部队值函数进行更新,MC必须要等episodes跑完才能更新。所有TD可以在没到终止结果的环境中使用。
TD的结果并不是无偏估计,并非是Vs的真实函数值,这个地方我也不是很理解。

这里silver哥用三张图形象的表示出来TC、TD和DP的区别。
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第7张图片
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第8张图片David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第9张图片
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第10张图片
MC和TD的更新都表示一个期望,DP需要单独再求期望

TD(λ)

TD(n) 包括了 TD(0) 和 MC,当n等于0时就是TD(0),当n为无穷时就是MC。
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第11张图片
而 TD(λ)表示对n从0到无穷的TD(n)的返回值做了加权平均,λ值越大越看重长远的值,更靠近MC。λ指的就是资格迹(Eligibility trace)的使用,资格迹把TD和MC方法统一了起来。
无所知讲,现在考虑更新目标不仅仅是一个n步反馈值,而是不同的n的n步反馈的平均值。比如一个两步反馈的一半加上一个四步反馈的一半组合成的一个新的反馈值。任意的n步反馈的集合可以通过这种形式进行平均,只要最终的系数和为1。合成的反馈值能够和单个的n步反馈一样处理TD error因此能够作为一个保证算法收敛的更新目标。这种平均的形式能够得到一系列新的算法。比如可以通过将一步TD的反馈和无穷步反馈MC反馈进行平均得到一种新的组合TD算法和MC算法的方式。理论上甚至可以将基于模型得到的DP反馈和实际经验得到的反馈进行简单的结合。
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第12张图片
前向视角:更容易直接理解,要等到整个episode结束
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第13张图片

后向视角:更容易实现,可以在每一个时间步进行更新
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第14张图片
资格迹:
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第15张图片
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测_第16张图片

参考资料:
https://blog.csdn.net/qq_25037903/article/details/82756629

你可能感兴趣的:(强化学习,概率论,强化学习,人工智能,算法,马尔可夫链蒙特卡洛方法)