DDPG简单解释

DDPG是DQN连续动作的扩展版本。

DDPG全称Deep Deterministic Policy Gradient

Deep:使用到了深度神经网络

Deterministic: DDPG输出确定性策略,输出Q值最大动作,可以用于连续动作的一个环境

Policy Gradient :使用策略网络进行更新

DDPG简单解释_第1张图片

 DDPG需要一边学习Q网络。一边学习策略网络。图示结构称为Actor-Critic结构

你可能感兴趣的:(强化学习基础,大数据,人工智能)