Double Deep Q Network 算法

  Deep Q Network 算法:直接从下一个状态的Q目标值,选择动作概率的最大值。

 (Y值通过Q目标值的一张网络计算)

 Double Deep Q Network 算法:计算下一个状态的Q评估值的最大值,然后从下一个状态的Q目标值,选择动作q_next。

(Y值通过Q评估值、Q目标值的双网计算)

符号:

  :表示Q目标值神经网络(target_net)的网络参数

: 表示Q评估值神经网络 (eval_net) 的网络参数

论文:Deep Reinforcement Learning with Double Q-Learning Hado van Hasselt , Arthur Guez, and David Silver
Google DeepMind   https://www.aaai.org/

你可能感兴趣的:(AI,&,Big,Data案例实战课程)