9&10. 基于函数逼近的同轨策略方法

基于函数逼近的同轨策略方法

  • 9. 策略评估
    • 9.1 基于参数化的函数逼近
      • 9.1.1 参数求解方法
        • 9.1.1 训练样本
        • 9.1.1.2 预测目标
        • 9.1.1.3 更新方法
      • 9.1.2 参数化函数逼近方法
        • 9.1.2.1 线性方法
        • 9.1.2.2 非线性方法(神经网络)

在本书的第二部分,我们扩展了第一部分中介绍的表格方法,以适用于 任意大的状态空间的问题。

  • 在我们想要应用强化学习的许多任务中,状态空间是组合的和巨大的;例如,可能的相机图像的数量远大于宇宙中的原子数。

思路:在这种情况下,即使在无限时间和数据的限制下,也不能期望找到最优策略或最优值函数; 目标是使用有限的计算资源找到一个好的近似解决方案

大状态空间的问题不仅仅是大表格所需的内存,而是准确填充它们所需的时间和数据。

近似解决方案<

你可能感兴趣的:(强化学习与多智能体,算法,人工智能)