学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • 3.1节 蒙特卡罗法简介
    • 3.2节 蒙特卡罗策略评估
    • 3.3节 蒙特卡罗强化学习
    • 3.4节 异策略蒙特卡罗法

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。
如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。
学习深度强化学习---第3部分----RL蒙特卡罗相关算法_第1张图片
学习深度强化学习---第3部分----RL蒙特卡罗相关算法_第2张图片
无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):学习深度强化学习---第3部分----RL蒙特卡罗相关算法_第3张图片
学习深度强化学习---第3部分----RL蒙特卡罗相关算法_第4张图片
学习深度强化学习---第3部分----RL蒙特卡罗相关算法_第5张图片

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)
法2:免模型强化学习法(即蒙特卡罗方法)
学习深度强化学习---第3部分----RL蒙特卡罗相关算法_第6张图片
一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

你可能感兴趣的:(强化学习,强化学习)