强化学习系列 7 : Deep Deterministic Policy Gradient (DDPG)

<7>Deep Deterministic Policy Gradient (DDPG)

改进版 Deep Deterministic Policy Gradient (DDPG):

将 DQN 网络加入进 Actor Critic 系统中, 这种新算法叫做 Deep Deterministic Policy Gradient,  DDPG 最大的优势就是能够在连续动作上更有效地学习.成功的解决Actor-Critic的问题:连续动作预测上的学不到东西问题!

分析:

DDPG吸收了 Actor critic 让 Policy gradient 单步更新的精华, 而且还吸收让计算机学会玩游戏的 DQN 的精华, 合并成了一种新算法.

Deep

Deep 顾名思义, 就是走向更深层次,  DQN 使用一个记忆库和两套结构相同, 但参数更新频率不同的神经网络能有效促进学习. 那我们也把这种思想运用到 DDPG 当中, 使 DDPG 也具备这种优良形式. 但是 DDPG 的神经网络形式却比 DQN 的要复杂一点点.

Deterministic Policy Gradient:

Policy gradient 相比其他的强化学习方法, 它能被用来在连续动作上进行动作的筛选 . 而且筛选的时候是根据所学习到的动作分布随机进行筛选,Deterministic 改变了输出动作的过程, 斩钉截铁的只在连续动作上输出一个动作值.

DDPG 神经网络:

需要有基于策略Policy 的神经网络和基于价值Value的神经网络, 但是为了体现 DQN 的思想, 每种神经网络我们都需要再细分为两个, Policy Gradient 这边, 我们有估计网络和现实网络, 估计网络用来输出实时的动作, 供 actor 在现实中实行. 而现实网络则是用来更新价值网络系统的.

价值系统这边, 我们也有现实网络和估计网络, 他们都在输出这个状态的价值, 而输入端却有不同, 状态现实网络这边会拿着从动作现实网络来的动作加上状态的观测值加以分析, 而状态估计网络则是拿着当时 Actor 施加的动作当做输入.

你可能感兴趣的:(强化学习)