【DQN高级技巧3】Dueling Network

回顾

折扣回报
动作价值函数
状态价值函数
【DQN高级技巧3】Dueling Network_第1张图片
最优动作价值函数
最优状态价值函数
【DQN高级技巧3】Dueling Network_第2张图片

优势函数

定义
【DQN高级技巧3】Dueling Network_第3张图片
表示动作a相对于baseline V ∗ V^* V的优势,动作越好,优势越大
性质
在这里插入图片描述
在定义式两边关于a做最大化,式子依然成立,又带入性质1得到 m a x A ∗ ( s , a ) = 0 maxA^*(s,a)=0 maxA(s,a)=0

【DQN高级技巧3】Dueling Network_第4张图片
再由定义式出发,移项得
【DQN高级技巧3】Dueling Network_第5张图片
带入刚刚推导的 m a x A ∗ ( s , a ) = 0 maxA^*(s,a)=0 maxA(s,a)=0,得到性质2
【DQN高级技巧3】Dueling Network_第6张图片

Dueling Network

回顾DQN

【DQN高级技巧3】Dueling Network_第7张图片
DQN用神经网络对 Q ∗ Q^* Q做近似,这里我们不对 Q ∗ Q^* Q做近似,我们对 A ∗ A^* A做近似,网络结构不变
【DQN高级技巧3】Dueling Network_第8张图片
再用一个网络近似 V ∗ V^* V,其输出式一个实数,可以和 A ∗ A^* A的网络共享卷积层。
【DQN高级技巧3】Dueling Network_第9张图片
此时搭建Dueling Network
它跟DQN作用相同,表示相同,都是最优动作价值函数的近似
【DQN高级技巧3】Dueling Network_第10张图片
训练过程也和DQN完全一样,都是TD算法。

为什么要加 m a x A maxA maxA这一项

为了解决不唯一性的问题
【DQN高级技巧3】Dueling Network_第11张图片
等式1存在不唯一性的问题:若两个网络都有波动,但波动恰好抵消,则输出无影响。
【DQN高级技巧3】Dueling Network_第12张图片
但添加最大化项可以解决这个问题
将最大化项换为平均项,效果会更好(经验结论)
【DQN高级技巧3】Dueling Network_第13张图片

你可能感兴趣的:(深度强化学习,深度强化学习,TD算法,机器学习,人工智能)