强化学习 ——On-Policy与Off-Policy

本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解

目录

 

1.on-policy与off-policy

2.Sarsa与Q-learing

3.Q-learing与环境的交互

3.1根据Q表格选动作

3.2更新Q表格


1.on-policy与off-policy

Sarsa(on-policy)优化的是实际上执行的策略,拿下一步一定执行的action来优化Q表格,Sarsa知道自己 下一步会跑到悬崖去,所以在这一步它会尽可能的离悬崖远一点,保证下一步即使是随机动作,也会在安全区域内。

off-policy在学习的过程中,保留2种策略:1)希望学到的最佳的目标策略 (target policy),2)探索环境的策略(behavior policy),大胆探索环境为了给目标学习,off-policy由于将目标与行为策略分离开,Q-learing可以大胆的去探索经验轨迹来优化

强化学习 ——On-Policy与Off-Policy_第1张图片

 

2.Sarsa与Q-learing

Sarsa在公式中的A'为下一个state的实际action

Q-learing中更新Q表格时用到的Q值对应的action不一定是下一个state的实际action

强化学习 ——On-Policy与Off-Policy_第2张图片

两者的更新公式都相同,只是Target不同。

Q-learing默认下一个action是Q值最大的动作,不受探索的影响。

强化学习 ——On-Policy与Off-Policy_第3张图片

3.Q-learing与环境的交互

和Sarsa对比,Q-learing不需要知道next_action

强化学习 ——On-Policy与Off-Policy_第4张图片

3.1根据Q表格选动作

强化学习 ——On-Policy与Off-Policy_第5张图片

3.2更新Q表格

强化学习 ——On-Policy与Off-Policy_第6张图片

强化学习 ——On-Policy与Off-Policy_第7张图片

你可能感兴趣的:(强化学习)