Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC

问题

  • 采样复杂.
    • 无偏的batch policy-gradient 提供了稳定学习.但是high variance.
  • 使用 泰勒展开 ….
  • 没看懂

你可能感兴趣的:(视觉-增强学习)