【强化学习】策略梯度policy gradient原理

【强化学习】策略梯度policy gradient原理_第1张图片

eta为学习率。

R_theta的梯度为什么是R(t^n)grad(p(a_t|s_t,theta)?

首先,我们来解释下grad(p(a_t|s_t,theta)是怎么来的。先看下面的一个分类问题。

【强化学习】策略梯度policy gradient原理_第2张图片

从上可知,分类的损失函数采用交叉熵,最小化交叉熵相当于最大化log(y_i)

再来看为什么要乘上一个R(t^n)。从下面可知,乘上一个R(t^n),说明回报越大的状态动作对将被训练的次数越多,即对策略theta的影响更多。

【强化学习】策略梯度policy gradient原理_第3张图片

你可能感兴趣的:(强化学习)