6. 时序差分学习

第六章 时序差分学习

  • 第六章 时序差分学习
    • 6.1 策略评估
      • 6.1.1 TD预测
      • 6.1.2 优势分析
        • 6.1.2.1 适用性
        • 6.1.2.2 收敛性和收敛速率
    • 6.2 策略迭代
      • 6.2.1 同轨策略(Sarsa:Q值)
        • 6.2.1.1 动作价值估计(基于Sarsa的预测)
        • 6.2.1.2 Sarsa控制算法
      • 6.2.2 离轨策略(Q学习:Q最大值)
      • 6.2.3 期望Sarsa(Q期望值)

第六章 时序差分学习

时序差分 (TD)学习是强化学习的最核心和新颖的思想。 TD学习是蒙特卡洛思想和动态规划(DP)思想的结合。

  • 蒙特卡洛方法

你可能感兴趣的:(强化学习与多智能体,学习,算法,人工智能)