RLAI读书笔记-第十二章-Eligibility Traces

12 Eligibility Traces
10章的近似函数扩展
Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223
1.α是步长 误差{Vπ(St) - V^(S,W)}变大 则α需要变小
2.Vπ(St) 即Gt通过本章的λ-return计算
3. ▽wV^(S,W) 通过资格迹来优化看第九章
资格迹==优化后的函数微分(因为TD算法的 V^(S,W)估计值是不精确的)

12.1 λ-return
1. 实际价值函数Vπ(S)没有实际的价值函数,我们需要近似处理,再通过监督数据学习近似函数的参数
2. λ=1 λ-return就是MC算法
https://www.cnblogs.com/steven-yang/p/6617134.html
3.它是由它后面的所有G(n)tGt(n)的加权平均值(感觉和重要性采样思想差不多)
图片理解 P312
e.g. 3-step的第3步的weight=(1-λ)*λ^2
==>forward view 思想 P314

12.2 TD(λ)
https://zhuanlan.zhihu.com/p/38862299
P315
1.时间t时刻 使用得到的Rt构建λ-return,去更新t时刻之前的所有值函数
2.远离t时刻的值函数的更新幅度 * 指数衰减的权重(Eligibility Traces)
==》 权重W的更新 P315
Eligibility Traces作为原来的梯度 ▽wV^(S,W)
et - 第t步资格迹向量(eligibility trace rate)—包含了以前的微分值。
资格迹向量是近似价值函数的优化微分值
资格迹和一般的逼近法区别
https://www.zhihu.com/question/60612010/answer/482730680?utm_source=qq&utm_medium=social&utm_oi=633379564970315776
资格迹考虑到了过去的价值梯度 而一般的逼近法(第九章)只有当前t的导数▽

12.3 n-step Truncated λ-return Method
略过 没看
12.4 Redoing Updates: Online λ-return Algorithm
略过 没看
12.5 True Online TD(λ)
略过 没看
12.7 Sarsa(λ)
反向认识的Sarsa(λ)
P329 伪代码

12.8 variable λ and γ
略过 没看
12.10 Tree-Backup(λ)
略过 没看

summary 12.13 Conclusion
P339

你可能感兴趣的:(强化学习基础)