基于Pytorch的强化学习(DQN)之 Dueling Network

目录

1. 引言

2. 数学推导

2.1 最优价值函数

2.2 最优状态函数

2.3 优势函数

3. 网络结构

3.1 优势网络

 3.2 状态网络

 3.3 新的DQN


1. 引言

我们之前学习了许多DQN的优化技巧,现在我们再来看看一种有趣的DQN的优化:Dueling network

2. 数学推导

2.1 最优价值函数

我们之前已经学过了最优价值函数 Q^*(s,a)=\underset{\pi}{max}Q_{\pi}(s,a),这里的Q_{\pi}(s,a) 是动作价值函数,最优指的是对策略 \pi 求最优。

2.2 最优状态函数

类比于最优价值函数,我们给出最优状态函数的定义,我们对状态函数V_{\pi}(s)=\underset{a}{max}Q_{\pi}(s,a) 也关于 \pi 求最优便得到 V^*(s)=\underset{\pi}{max}V_{\pi}(s) ,它可以衡量当前局势的好坏。

2.3 优势函数

我们定义优势函数 A^*(s,a)=Q^*(s,a)-V^*(s),下面给出两个引理及其证明

  1. V^*(s)=\underset{a}{max}Q^*(s,a)Proof:\underset{a}{max}Q^*(s,a)=\underset{a}{max}\underset{\pi}{max}Q_{\pi}(s,a)=\underset{\pi}{max}\underset{a}{max}Q_{\pi}(s,a)=\underset{\pi}{max}V_{\pi}(s)=V^*(s)
  2. \underset{a}{max}A^*(s,a)=0 Proof:\underset{a}{max}A^*(s,a)=\underset{a}{max}Q^*(s,a)-\underset{a}{max}V^*(s)=V^*(s)-V^*(s)=0

通过移项和添项我们得到:Q^*(s,a)=A^*(s,a)+V^*(s)-\underset{a}{max}A^*(s,a) 

这给我们提供了一种新的DQN的构建方式,下面具体介绍用这个基于这个公式的神经网络Dueling network的具体结构。 

3. 网络结构

3.1 优势网络

我们用网络A^*(s,a;w^A)来近似 A^*(s,a),它输入当前状态,输出一个动作得分向量。注意优势网络输出的是一个向量

基于Pytorch的强化学习(DQN)之 Dueling Network_第1张图片 

 3.2 状态网络

我们用网络V^*(s;w^V) 来近似 V^*(s) ,它输入当前状态,输出一个对当前局势的打分。注意状态网络输出的是一个实数而非向量。

基于Pytorch的强化学习(DQN)之 Dueling Network_第2张图片 

 3.3 新的DQN

 我们用 Q^*(s,a;w)=A^*(s,a;w^A)+V^*(s;w^V)-\underset{a}{max}A^*(s,a;w^A)\qquad(w=(w^A,w^V))

 来近似 Q^*(s,a)=A^*(s,a)+V^*(s)-\underset{a}{max}A^*(s,a) ,它输入的是当前状态,输出由三部分组成:一个向量、一个实数、向量中最大得到分量(实数) 。输出也是一个向量,其中向量加上实数就是将向量的每一个分量都加上这个实数。基于Pytorch的强化学习(DQN)之 Dueling Network_第3张图片

现在出现一个问题:我们为什么要在网络中加入 \underset{a}{max}A^*(s,a;w^A) 这一项呢?我们先考虑Q^*(s,a;w)=A^*(s,a;w^A)+V^*(s;w^V) ,很容易知道 Q=A+V 这个分解不唯一,这说明AV这两个网络会不稳定,它们只需要分别加减某个常数即可保持 Q 不发生改变,我们希望得到的两个网络是唯一的,于是我们引入\underset{a}{max}A^*(s,a;w^A),网络 A 的变化也会使它变化,比如说 A 变大10,那么A中最大分量也会变大10,两者相减这个变化就被抵消了,那么V也就不发生改变了,保证了两个网络的稳定性。但是在实际应用中实践证明 使用 \underset{a}{mean}A^*(s,a;w^A) 而不是\underset{a}{max}A^*(s,a;w^A)效果会更好。

你可能感兴趣的:(深度学习,深度学习)