policy-gradient和q-learning区别

其中一个区别就是, q-learning总是用 Q现实 -  Q估计 来获得loss,从而更新参数。 但基础版本的policy-gradient都不用这些。人家是直接用  normalization后的vt去调整其概率值。


 所以基础版的PG算法,不涉及  求  s的next observation s_的问题。

但是,从A2C开始,就是PG和q-learning的结合了,也就是把loss由上面公式中的vt,变成了TD_error(TD_error是单步更新的)  所以呢又涉及求s_的问题,不过,大部分s_都可以由 env.step求得。

有了s_ ,那么如何求TD_error呢,用的就是  v_s_  的折扣值 + reward - v_s 

你可能感兴趣的:(policy-gradient和q-learning区别)