强化学习(五)——Value Function Approximation

文章目录

  • Reference
  • 1. Incremental Methods
    • 1.1 梯度下降(Gradient Descent)
    • 1.2 增量预测算法(Incremental Prediction Algorithm)
    • 1.3 增量控制算法(Incremental Control Algorithm)
  • 2. Batch Methods
    • 2.1 最小二乘法预测(Least Squares)
    • 2.2 经验回放随机梯度下降
    • 2.1 DQN

Reference

[1] David Silver: https://youtu.be/UoPei5o4fps

在强化学习(四)中,我们学习了在Model Free环境下分别使用MC, TD进行策略评估的策略控制方法。并按照学习方式划分为On Policy和Off Policy两种类型,比如Sarsa和Q-Learning两类表格型方法。
表格型方法在大规模强化学习环境中表现不好。因为需要保存所有的状态动作对的价值所以会耗费很大的时间与空间。
强化学习(五)——Value Function Approximation_第1张图片
因此我们可以采用函数近似代替表格型方法,同时采用MC或TD方法更新近似参数 w w w。近似函数需要满足可导条件,我们常使用线性函数或者神经网络进行函数近似。
强化学习(五)——Value Function Approximation_第2张图片
下面我们将讨论如何使用MC和TD方法,对价值近似函数进行优化,以及如何使用近似价值函数进行策略迭代。

1. Incremental Methods

增量方法采用梯度下降算法优化价值函数近似。

1.1 梯度下降(Gradient Descent)

(1)定义
强化学习(五)——Value Function Approximation_第3张图片

(2)目标函数
假设已知真实的价值函数,我们希望最小化真实的价值函数 v π ( s ) v_\pi(s) vπ(s)与近似函数的均方误差的期望,从而实现对价值函数的近似。
强化学习(五)——Value Function Approximation_第4张图片

(3)随机梯度下降
随机梯度下降是直接使用采样的梯度对参数进行更新,当采样数量足够大时参数也将趋向收敛。
强化学习(五)——Value Function Approximation_第5张图片

1.2 增量预测算法(Incremental Prediction Algorithm)

原理
是一种近似函数优化算法。因为在RL环境中真实的价值函数 v π v_\pi vπ是未知的(不同于有监督学习),因此我们需要找到替代品。我们可以采用强化学习(三)中提到的MC或者TD算法,将真实的价值 v π ( s ) v_\pi(s) vπ(s)替代为回报或TD Target
强化学习(五)——Value Function Approximation_第6张图片
这样我们就可以通过随机梯度下降+MC/TD更新函数近似,使得近似函数贴近真实的价值。

1.3 增量控制算法(Incremental Control Algorithm)

(1)动作价值函数近似
在强化学习(四)中我们了解到,在未知MDP环境中无法使用V函数进行策略改进。同理我们可以通过函数近似真实的Q值。
强化学习(五)——Value Function Approximation_第7张图片
强化学习(五)——Value Function Approximation_第8张图片

(2)原理
以Sarsa为例,迭代算法并没有发生本质的改变,算法仍然是由策略评估和策略迭代两部分组成。不同于之前的是,因为使用函数近似表格价值,策略评估采用了函数近似。因此在函数的整体流程中也增加了优化近似函数的部分

  • 策略评估:价值预测 + 近似函数优化。
    在这里插入图片描述
  • 策略改进: ϵ − g r e e d y \epsilon - greedy ϵgreedy探索 + 价值函数优化
    在这里插入图片描述

强化学习(五)——Value Function Approximation_第9张图片

注意: 需要将策略优化与近似函数优化区分开。

  • 函数近似优化是使得近似函数贴近真实的价值,用于策略评估
  • 策略优化是通过不断迭代评估与改进价值函数值,直到收敛获得最优价值与最优策略。

2. Batch Methods

增量方式采用随机梯度下降的方式优化近似函数,但是在单步采样数据中学习效率低下。所以我们可以尝试从一批历史数据中学习,来达成近似函数优化。

2.1 最小二乘法预测(Least Squares)

目标函数设置为在同一批次内,真实价值函数与近似函数的均方误差。
强化学习(五)——Value Function Approximation_第10张图片

2.2 经验回放随机梯度下降

在历史经验中采样,通过随机梯度下降优化近似函数。
强化学习(五)——Value Function Approximation_第11张图片

2.1 DQN

强化学习(五)——Value Function Approximation_第12张图片
DQN不同于Sarsa在线学习修正,一边更新参数w的同时一边更新函数价值。DQN分为taget和evaluation网络,每次在评估函数上进行参数更新,并在一定时间步后对目标函数进行更新。这样便实现了近似函数优化与最优价值函数优化。

你可能感兴趣的:(强化学习,算法,RL,强化学习,pytorch,深度学习)