【连续控制问题1】DPG Deterministic Policy Grandient确定策略梯度

DPG是一种Actor-Critic 方法。由一个策略网络和一个价值网络组成
【连续控制问题1】DPG Deterministic Policy Grandient确定策略梯度_第1张图片
策略网络的输入是状态S,输出是一个确定的动作(两个小方块表示自由度为2)。价值网络的输入是动作和状态,输出是一个打分。

使用TD算法更新价值网络

【连续控制问题1】DPG Deterministic Policy Grandient确定策略梯度_第2张图片

策略网络的训练

与之前使用的随机策略梯度不同,这里需要用到确定策略梯度(价值Q关于策略网络 θ \theta θ的梯度)。
【连续控制问题1】DPG Deterministic Policy Grandient确定策略梯度_第3张图片
梯度从价值V传播到动作A,再从动作A传播到策略网络。

改进Bootstrapping问题:Target Networks

用一个新的Target Networks来改进自举的问题
【连续控制问题1】DPG Deterministic Policy Grandient确定策略梯度_第4张图片
【连续控制问题1】DPG Deterministic Policy Grandient确定策略梯度_第5张图片
总体流程
【连续控制问题1】DPG Deterministic Policy Grandient确定策略梯度_第6张图片

随机策略网络与确定策略网络对比

【连续控制问题1】DPG Deterministic Policy Grandient确定策略梯度_第7张图片

你可能感兴趣的:(深度强化学习,深度强化学习)