深度强化学习算法的参数更新时机

深度强化学习算法的参数更新时机

深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。

算法 参数更新时机 架构
DQN 先收集一定经验,然后每步更新 Off Policy Value-Based
DDPG 先收集一定经验,然后每步更新 Off Policy Actor-Critic
TD3 先收集一定经验,然后每步更新 Off Policy Actor-Critic
SAC 先收集一定经验,然后每步更新 Off Policy Actor-Critic
REINFORCE 每步更新 On Policy Policy Gradient
VPG 每个episode更新一次 On Policy Actor-Critic
A2C/A3C 每步更新 On Policy Actor-Critic
PPO 每个episode采集结束后,集中抽样更新多次 On Policy Actor-Critic
TRPO 每个episode采集结束后,集中抽样更新多次 On Policy Actor-Critic

你可能感兴趣的:(强化学习,强化学习,人工智能,算法)