model free TD-control(Sarsa、Q-learning)

文章目录

  • 前言
  • On-policy TD-Sarsa
    • 1.TD vs MC
    • 2.Sarsa
  • Off -policy Q-learning
    • 行为策略与目标策略
  • Q-learning vs Sarsa
    • 悬崖行走的例子
        • 总结


前言

RL学习、基于TD的方法求解最优策略,包括Sarsa与Q-learning


On-policy TD-Sarsa

1.TD vs MC

与MC相比,TD具有低方差、在线学习、利用不完整序列进行学习的优点,因此将TD应用于 Q ( S , A ) Q(S,A) Q(S,A)当中,使用 ϵ − G r e e d y \epsilon-Greedy ϵGreedy策略进行优化,针对每一时间步进行更新

2.Sarsa

model free TD-control(Sarsa、Q-learning)_第1张图片
名字由来:可以从图中的采样序列看到,S,A R S A组合起来就是sarsa,sarsa利用episode中每一步的采样结果进行更新Q,如下图所示
model free TD-control(Sarsa、Q-learning)_第2张图片
具体流程:
model free TD-control(Sarsa、Q-learning)_第3张图片
Sarsa收敛性说明:满足以下条件便可达到收敛
model free TD-control(Sarsa、Q-learning)_第4张图片


Off -policy Q-learning

行为策略与目标策略

行为策略:需要优化的策略,根据经验来学习最优的策略
目标策略:探索环境的策略,与环境交互产生经验的策略,将经验喂给行为策略进行优化
model free TD-control(Sarsa、Q-learning)_第5张图片
Q-learning有两种策略:行为策略与目标策略。
目标策略采用贪心算法选择使Q值最大的动作,行为策略采用 ϵ − G r e e d y \epsilon-Greedy ϵGreedy探索环境产生经验。优化过程中,行为策略与目标策略都进行优化,共享Q。
model free TD-control(Sarsa、Q-learning)_第6张图片
Q-learning具体流程:
model free TD-control(Sarsa、Q-learning)_第7张图片

Q-learning vs Sarsa

model free TD-control(Sarsa、Q-learning)_第8张图片
对Q-learning 进行逐步拆解,Q-learning与 Sarsa 唯一不一样的就是并不需要提前知道 A 2 A_2 A2 ,就能更新 Q ( S 1 , A 1 ) Q(S_1, A_1) Q(S1,A1)在一个回合的训练当中,Q 学习在学习之前也不需要获取下一个动作 A ′ A' A,它只需要前面的 ( S , A , R , S ′ ) (S, A, R, S') (S,A,R,S) ,而Sarsa需要到达 S ′ S' S状态后采用策略选择动作 A ′ A' A后才能得到 Q ( S ′ , A ′ ) Q(S',A') Q(S,A)进行更新。

悬崖行走的例子

model free TD-control(Sarsa、Q-learning)_第9张图片

Sarsa结果是Safe path,而Q-learning的结果是optimal path,原因是Sarsa采用的 ϵ − G r e e d y \epsilon-Greedy ϵGreedy策略,需要兼顾探索与利用,因此在训练时比较胆小,尽可能远离悬崖,而Q-learning将行为策略与目标策略进行分离,能够大胆探索环境,得到最最优解。

总结

针对TD与DP进行比较,sarsa相当于采用贝尔曼期望方程进行迭代,而Q-learning采用贝尔曼最优方程进行迭代。
model free TD-control(Sarsa、Q-learning)_第10张图片

你可能感兴趣的:(强化学习,人工智能,机器学习)