SAC算法

SAC算法

全称Soft Actor-Critic算法,为优化目标引入了熵约束项,增大了动作的探索性,避免陷入局部最优解,原论文

  • 继承了Soft Q-Learning
  • 提出了Soft Policy Iteration,进而推导了Soft Actor-Critic
  • 参数更新时机:每走N步数,更新M次参数

算法伪代码

SAC算法_第1张图片

你可能感兴趣的:(强化学习,算法,强化学习)