策略梯度简明逐步公式推导

策略梯度算法是众多强化学习算法的基础,但公式推导通常不集中,这里将其集中到一起,便于前后对照查看。
主要思路:

  1. 参数化表示轨迹回报的期望,由轨迹概率和轨迹回报表示
  2. 希望用梯度上升形式最大化轨迹汇报的期望,所以需要求解参数化形式轨迹回报期望的梯度
  3. 由于轨迹概率梯度和轨迹回报难以直接计算,引入重要性采样机制,将其转变为对数轨迹概率下的期望
  4. 将轨迹拆分为策略和状态转移,其中状态转移与策略参数无关
  5. 明确结果为对数策略的梯度乘以轨迹回报便可用作最终的累计回报期望的梯度
  6. 进行参数更新
    策略梯度简明逐步公式推导_第1张图片
    图片中的所有公式均依赖于《深入浅出强化学习原理入门》一书。

你可能感兴趣的:(机器学习,强化学习)