【强化学习】17 ——DDPG(Deep Deterministic Policy Gradient)
文章目录前言DDPG特点随机策略与确定性策略DDPG:深度确定性策略梯度伪代码代码实践前言之前的章节介绍了基于策略梯度的算法REINFORCE、Actor-Critic以及两个改进算法——TRPO和PPO。这类算法有一个共同的特点:它们都是在线策略算法,这意味着它们的样本效率(sampleefficiency)比较低。本章将要介绍的深度确定性策略梯度(deepdeterministicpolicy