Policy Gradient (策略梯度算法)

Policy Gradient (策略梯度算法)前置基础知识:

  • Reinforcement Learning 基本概念
  • Q Leaning算法原理
  • 深度学习神经网络知识
  • Tensorflow、Pytorch、Python
  • 概率论与数量统计、马尔可夫链、期望、方差
  • 微积分、梯度求导

策略梯度算法:直接根据当前的状态来选择动作。策略梯度的算法是回合更新,在回合中的中每一步记录状态、动作、奖励,在一个回合完成以后,目标损失函数预测回合中每步状态的动作,与已执行的动作做交叉熵,如果一个动作得到的奖励多,那么这个动作出现的概率增加,如果一个动作得到的奖励少,那么这个动作出现的概率减小。

Q learning算法:基于值的强化学习算法,单步更新,每一步都及时更新Q表中的值。

策略梯度算法

Policy Gradient (策略梯度算法)_第1张图片

公式的来历,美国加州大学伯克利分校CS294(CS285)课程提供的推导如下:

Policy Gradient (策略梯度算法)_第2张图片

你可能感兴趣的:(AI,&,Big,Data案例实战课程)