DQN 以及 DQN的扩展

本文主要记录关于DQN(Deep Reinforcement Learning)的相关论文以及loss function 以及 近几年在DQN的基础上进行改进的算法。若要了解强化学习或者DQN本身原理的,可以出门左拐。

DQN paper Playing Atari with Deep Reinforcement Learning
loss function

(Rt+1+γt+1maxaqθ¯(St+1a)qθ(St,At))2

其中,t 为数据集中任意一个时刻,通过反向传播求解在线网络的参数 θ ,在线网络即代替了之前的决策网络。 θ¯ 是在目标网络的参数,最优化求解方法RMSprop。

Double Q-learning paper:Deep Reinforcement Learning with Double Q-learning

Convntional Q-learning(即DQN) 因为最大化目标函数而受高偏执影响。Double Q-learning 采用bootstrap 去解决此问题。

loss function:
(Rt+1+γt+1qθ¯(St+1,argmaxa(St+1,a)qθ(St,At)))2

Prioritized replay

(未完待续)

你可能感兴趣的:(算法)