强化学习中Q-learning和SARSA的区别,以及与马尔可夫决策过程,贝尔曼方程之间的关系

首先,Q-learning与SARSA的最大不同就是更新Q表的方式不同。具体地,表现如下:

1)首先理解什么是Q表

Q表是指构建一个表格,行:某时刻的状态s(state),列:该时刻该状态下可能采取的所有动作a(action),Q(s,a)的值是该状态下,采取该动作能够获得收益的期望,并通过每个动作带来的奖赏更新Q表,如下表格所示:

Q表 a 1 a_1 a1 a 2 a_2 a2 a n a_n an
s 1 s_1 s1 Q ( s 1 , a 1 ) Q(s_1,a_1) Q(s1,a1) Q ( s 1 , a 2 ) Q(s_1,a_2) Q(s1,a2) Q ( s 1 , a 1 ) Q(s_1,a_1) Q(s1,a1)
s 2 s_2 s2 Q ( s 2 , a 1 ) Q(s_2,a_1) Q(s2,a1) Q ( s 2 , a 2 ) Q(s_2,a_2) Q(s2,a2) Q ( s 2 , a n ) Q(s_2,a_n) Q(s2,an)
s m s_m sm Q ( s m , a 1 ) Q(s_m,a_1) Q(sm,a1) Q ( s m , a 2 ) Q(s_m,a_2) Q(sm,a2) Q ( s m , a n ) Q(s_m,a_n) Q(sm,an)

2)Q-learning采用的off-policy,SARSA采用的是on-policy,两者的区别如下:
强化学习中Q-learning和SARSA的区别,以及与马尔可夫决策过程,贝尔曼方程之间的关系_第1张图片
此处引用别人的一句解释:“因为强化学习的训练样本是需要agent与环境(仿真环境)交互获得的,如果直接使用学习获得的当前最优策略(目标策略,target policy)当做与环境交互获得训练样本的策略(行为策略,behavior policy),那么这种方法就是on-policy的;如果目标策略与行为策略不同,则是off-policy的。”

参考: https://www.zhihu.com/question/57159315/answer/385357567

具体的算法表现更加直观:

强化学习中Q-learning和SARSA的区别,以及与马尔可夫决策过程,贝尔曼方程之间的关系_第2张图片
故Q-learning更新Q表的公式:
Q ( S , A ) ← Q ( S , A ) + α [ R + γ max ⁡ a Q ( S ′ , a ) − Q ( S , A ) ] Q(S,A) \leftarrow Q(S,A)+\alpha[R+\gamma \max_a Q(S',a)-Q(S,A)] Q(S,A)Q(S,A)+α[R+γmaxaQ(S,a)Q(S,A)];
SARSA更新Q表的公式:
Q ( S , A ) ← Q ( S , A ) + α [ R + γ Q ( S ′ , A ′ ) − Q ( S , A ) ] Q(S,A) \leftarrow Q(S,A)+\alpha[R+\gamma Q(S',A')-Q(S,A)] Q(S,A)Q(S,A)+α[R+γQ(S,A)Q(S,A)];

3)为什么引入马尔可夫决策过程(Markov Decision Process,MDP)

参考:https://www.cnblogs.com/pinard/p/9426283.html

实际环境模型中,做出某一个状态s的概率不仅跟上一次的状态有关,也与上上次,甚至一开始的状态都有关系,所以这样的建模求解方式太过复杂,于是简化模型,假设此刻的状态s仅与上一个状态有关,即为马尔可夫决策过程。

利用MDP会让代理(agent)接收reward,则在时刻t的将来回报为
R t = ∑ k = 0 T γ k r t + k + 1 R_t=\sum\limits_{k=0}^T{ \gamma^k r_{t+k+1}} Rt=k=0Tγkrt+k+1, γ ∈ ( 0 , 1 ] \gamma \in (0,1] γ(0,1]为折扣因子。

此时的MDP的价值函数为: R t R_t Rt在策略π下的期望,即
q π ( s , a ) = E π ( G t ∣ S t = s , A t = a ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s , A t = a ) q_{\pi}(s,a) = \mathbb{E}_{\pi}(G_t|S_t=s, A_t=a) = \mathbb{E}_{\pi}(R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3}+...|S_t=s,A_t=a) qπ(s,a)=Eπ(GtSt=s,At=a)=Eπ(Rt+1+γRt+2+γ2Rt+3+...St=s,At=a)

利用贝尔曼方程有:(一个状态的价值由该状态的奖励以及后续状态价值按一定的衰减比例联合组成)
q π ( s , a ) = E π ( R t + 1 + γ q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ) q_{\pi}(s,a) = \mathbb{E}_{\pi}(R_{t+1} + \gamma q_{\pi}(S_{t+1},A_{t+1}) | S_t=s, A_t=a) qπ(s,a)=Eπ(Rt+1+γqπ(St+1,At+1)St=s,At=a)

总结:MDP的作用是为了简化模型,贝尔曼方程的引用是为了呈现t时刻与t+1时刻的价值函数的关系。

【以上为参考后总结,附有相关链接】

你可能感兴趣的:(RL)