David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制

Lecture 5: Model-Free Control
https://www.davidsilver.uk/wp-content/uploads/2020/03/control.pdf

Introduction

David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第1张图片
同策略和异策略概念,同策略说的是用于采样sample的p和要学习更新的policy一致,即learn on the job。异策略知道是学习和采样用不同的策略。

On-Policy Monte-Carlo Control

David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第2张图片
MC策略迭代在估计中用q函数 ,在策略改进中用的在这里插入图片描述
David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第3张图片
GLIE用于解决学习开始时有足够的探索,最终得到的策略没有探索,是一个确定策略的问题。最终收敛到的greedy策略即为确定性策略。

On-Policy Temporal-Difference Learning

David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第4张图片
更改同策略MC控制中对值函数的估计的MC方法换位TD方法,将每个片段对值函数更新一次换位每个时间步更新一次。这里策略估计方法是sarsa。
David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第5张图片
与TD类似 n步 sarsa
David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第6张图片

David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第7张图片
Sarsa(λ)算法

Off-Policy Learning

David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第8张图片
异策略学习的好处

David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第9张图片
这里是Q-learning的定义,学了这么多终于将回到q-learning了。具体的解释可以看之前博文的第一篇人工智能学习笔记一之强化学习(Q-learning)
https://blog.csdn.net/dzcera/article/details/122634257
其中最显著的好处在于使用一个探索性策略的同时学习了一个确定性策略。
David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第10张图片
David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第11张图片
David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第12张图片

Summary

David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第13张图片
David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制_第14张图片

你可能感兴趣的:(强化学习,强化学习,人工智能,深度学习)