基于Pytorch的强化学习(DQN)之 REINFORCE with baseline

目录

1. 引言

2. 估计

2.1 估计期望

2.2 估计价值函数

2.3 估计状态函数

3. 算法

3.1 策略网络

3.2 价值网络


1. 引言

我们上次讲到了baseline的基本概念,今天来讲讲使用到baseline的常用算法:REINFORCE

2. 估计

我们之前得到了状态价值函数的梯度表达式 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))]

我们希望使其梯度上升,现状就需要解决这么几个难题:等式右侧是一个期望表达式,不好计算;含有未知的 Q_{\pi}(s_t,a_t) ;含有未知的 V_{\pi}(s_t),现在我们来解决这几个问题。

2.1 估计期望

首先解决期望问题,我们上次引入了随机梯度函数 g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))

根据 a\sim \pi(a|s) 抽取 a_t 使用蒙特卡罗算法近似这个期望,则 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}\approx g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t)),这样就解决了期望的问题。

2.2 估计价值函数

我们虽然解决了期望的问题,但是等式右侧还有 Q_{\pi}(s_t,a_t) ,由于 Q_{\pi}(s_t,a_t) 是return的期望,于是我们可以考虑使用观测到的return来近似 Q_{\pi}(s_t,a_t),在一把对局结束之后我们获得一个trajectory (s_1,a_1,r_1,...,s_n,a_n,r_n),我们就可以计算 Q_{\pi}(s_t,a_t)\approx u_t=\sum_{i=t}^{n}\gamma^{i-t}r_i,这样一个未知量就被解决了,这种方法也是蒙特卡罗算法。

2.3 估计状态函数

最后一步就是近似 V_{\pi}(s_t),这里我们使用神经网络 v(s;w) 来近似状态价值函数 V_{\pi}(s),即 V_{\pi}(s)\approx v(s;w)

3. 算法

我们的算法中出现了两个神经网络,于是我们需要分别更新两个网络的参数

3.1 策略网络

第一个网络近似的是策略函数 \pi(a|s)  状态价值函数 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta} 的梯度用 \frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(u_t- v(s;w)) 近似。令 u_t- v(s;w)=-\delta_t

基于Pytorch的强化学习(DQN)之 REINFORCE with baseline_第1张图片

我们需要价值函数变大,所以我们使用梯度上升来更新策略网络\theta\leftarrow \theta-\beta\,\delta_t\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}

3.2 价值网络

第二个网络就是我们引入近似 V_{\pi}(s) 的神经网络 v(s;w) 

基于Pytorch的强化学习(DQN)之 REINFORCE with baseline_第2张图片

 由于 V_{\pi}(s_t)=E[U_t|s_t]\approx u_t 我们要使 v(s;w)\rightarrow V_{\pi}(s),只需要 ,也就是减小

\delta_t=v(s;w)-u_t,于是我们定义loss函数 \frac{\delta^2}{2} 并做梯度下降 w\leftarrow w-\alpha\delta_t\,\frac{\partial \,v(s_t;w)}{\partial \,w}

 

 

你可能感兴趣的:(深度学习,深度学习)