TD3算法

TD3算法

全称Twin Delayed DDPG,是对DDPG算法的继承、发展和改进,论文

改进如下:

  • T w i n \mathcal{T}win Twin:使用了两个critic来评估actor的动作价值,对应两个critic target,一个actor target,因此总共有6个神经网络。
  • D e l a y e d \mathcal{D} elayed Delayed:critic参数更新几次之后,才更新actor参数,并把参数同步给各自的target
  • 使用较小的 Q t a r g e t Q_{target} Qtarget值更新critic参数,这是为了防止critic "评分"过高,使得actor “骄傲”

算法伪代码

TD3算法_第1张图片

你可能感兴趣的:(强化学习,人工智能,深度强化学习,算法)