5. 蒙特卡洛方法

蒙特卡洛方法

    • 5. 离轨策略
      • 5.1 策略评估(基于重要度采样)
        • 5.1.1 计算目标策略下的状态值
        • 5.1.2 蒙特卡洛算法(状态值估计)
        • 5.1.3 增量式的实现
      • 5.2 策略迭代
      • 5.3 减少重要性采样方差的方法
        • 5.3.1 折扣敏感的重要性采样
        • 5.3.2 每决策重要性抽样

5. 离轨策略

所有控制方法存在探索与利用的问题:一方面,希望学到的动作使得随后智能体的行为最优; 另一方面,需要采取非最优的行动,来探索所有的动作(来保证找到最优的动作)。

如何既能够学到最优策略,又能够在实际中多探索呢?

同轨策略:实际上是一个妥协,学习的并非最优策略的动作值,而是学习一个接近最优但仍然保留了探索的策略的动作值。

离轨策略:更直截了当&

你可能感兴趣的:(强化学习与多智能体,算法)