强化学习-学习笔记14 | 策略梯度中的 Baseline

引入 baseline ,可以通过降低随机梯度造成的方差来加速强化学习的收敛,介绍了两种算法Reinforce with baseline 以及 A2C。

你可能感兴趣的:(强化学习-学习笔记14 | 策略梯度中的 Baseline)