强化学习&基于值6.4 | Deep Q-Learning 算法伪代码

LEARN和SAMPLE流程并非相互依赖,可以完成多个取样步骤然后完成一个学习步骤或者具有不同随机批次的多个学习步骤。强化学习&基于值6.4 | Deep Q-Learning 算法伪代码_第1张图片
phi表示预处理和堆叠图像操作;

你可能感兴趣的:(游戏AI,强化学习)