重磅 | 经典教材 R. Sutton《增强学习导论》最新版(548PDF)

第二版引言

第一版引言

符号总结

摘要

1. 增强学习的问题

1.1 增强学习

1.2 案例

1.3 增强学习要素

1.4 限制和范围

1.5 一个延伸案例:Tic-Tac-Toe

1.6 小结

1.7 增强学习的历史

列表法

2. 多臂赌博机(Muti-arm Bandits)问题

2.1 K-臂赌博机问题

2.2 行动值方法

2.3 The 10-armed Testbed

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

2.4增量实现

2.5 追踪一个非稳态解

2.6 优化初始值

2.7 置信上界行动选择

2.8 梯度赌博机算法

2.9 关联检索

2.10 小结

3. 有限马尔科夫决策过程

3.1 代理(agent)环境交互

3.2 目标和回馈

3.3 返回

3.4 为插入或连续性任务统一符号

3.5 策略和价值函数

3.6 优化策略和价值函数

3.7 优化和近似

3.8 总结

4. 动态编程

4.1 策略估计

4.2 策略改进

4.3 策略迭代

4.4 迭代值

4.5 异步动态编程

4.6 泛化的策略迭代

4.7 动态编程的效果

4.8 总结

5. 蒙特卡洛方法

5.1 蒙特卡洛预测

5.2 蒙特卡洛对行动价值的评估

5.3 蒙特卡洛控制

5.4 不读取(Explore)开始条件下的蒙特卡洛控制

5.5 通过重要抽样进行无策略(off-Policy)预测

5.6 增量实现

5.7 Off-Policy 蒙特卡洛控制

5.8 *Discounting-aware Importance Sampling

5.9 *Per-decision Importance Sampling

5.10 总结

6. 时间差分(TD)学习

6.1 时间差分预测

6.2 时间差分预测方法的优势

6.3 TD(o)的最佳性

6.4 Sarsa:在策略(On-Policy) TD 控制

6.5 Q-Learning:连策略TD 控制

6.6 期待的Sarsa

6.7 偏差最大化和双学习

6.8 游戏、afterstates 和其他具体案例

原文链接

你可能感兴趣的:(重磅 | 经典教材 R. Sutton《增强学习导论》最新版(548PDF))