Policy Gradient连续动作 tf.distributions.Normal log_prob = self.normal_dist.log_prob(self.a) 的解释

self.normal_dist = tf.distributions.Normal(self.mu, self.sigma) 根据Mu和sigma求出一个正太分布,这个是随机的正态分布

我们的目的是要用这个随机的去逼近真正的选择动作action的正太分布

所以
log_prob = self.normal_dist.log_prob(self.a)
log_prob 是a在前面那个正太分布的概率的log ,我们相信a是对的 ,那么我们要求的正态分布曲线中点应该在a这里,所以最大化正太分布的概率的log, 改变mu,sigma得出一条中心点更加在a的正太分布。

前面我们假设a是对的但是a不一定是对的 所以后面有个
self.exp_v = log_prob * self.td_error

你可能感兴趣的:(记录)