Q学习延伸至DDPG算法公式

Q learning原始损失函数定义:

Q的贝尔曼方程:

确定性策略的Q定义:

  • 其中的action a就是由确定的。而

DPG的轨迹分布函数定义:


DDPG改进:

  • 利用分布式独立探索,在策略中加入一个来自轨迹N的噪音
  • Loss function:

  • 参数更新方式,2个部分:

策略梯度的只管解释
随机策略梯度的计算公式为:

经验平均估计策略的梯度:

是方向向量,而且其方向是对于参数 变化最快的方向,参数在这个方向上更新可以增大或者降低 ,也就是能增大或者降低轨迹的概率

你可能感兴趣的:(Q学习延伸至DDPG算法公式)