强化学习之值函数估计

目录

 

值函数估计介绍

增量方法


值函数估计介绍

大规模的MDP,存在两个缺点:

  1. 状态和动作过多。
  2. 计算太慢以至于不能学习到每个状态的值。

强化学习之值函数估计_第1张图片

三种估计的方式。

强化学习之值函数估计_第2张图片

函数逼近的方法

强化学习之值函数估计_第3张图片

增量方法

强化学习之值函数估计_第4张图片

强化学习之值函数估计_第5张图片

强化学习之值函数估计_第6张图片

强化学习之值函数估计_第7张图片

表格查找法是值函数估计的特殊情况:

强化学习之值函数估计_第8张图片

增量预测算法

强化学习之值函数估计_第9张图片

基于MC的值函数估计

强化学习之值函数估计_第10张图片

 

强化学习之值函数估计_第11张图片

广义策略迭代方法

强化学习之值函数估计_第12张图片

动作值函数估计

 

强化学习之值函数估计_第13张图片

控制算法的收敛性

 

强化学习之值函数估计_第14张图片

 

批强化算法

强化学习之值函数估计_第15张图片

 

随机梯度下降 使用经验池

 

强化学习之值函数估计_第16张图片

 

DQN,经验池的应用

 

强化学习之值函数估计_第17张图片

DQN使用效果

 

强化学习之值函数估计_第18张图片

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(机器学习笔记,强化学习,值函数估计)