论文链接:Noisy DQN(MeireFortunato et al., 2019)
在深度强化学习智能体中引入了参数噪声—— NoisyNet,并且该智能体策略的随机性可以用来帮助有效的探索。利用梯度下降法学习噪声参数和剩余网络权值。对于 A3C,DQN,Dueling Agent,可以使用这个 NoisyNet 来替代传统的探索启发式方法(如,熵奖励和 ϵ − g r e e d y \epsilon-greedy ϵ−greedy)。而且具有 NoisyNet 的 Agent 在 Atari 游戏中的表现常常会有很大的提升,并且超过人类的水平。
NoisyNets 是指权值和偏差受噪声参数函数扰动的神经网络。这些参数是通过梯度下降来调整的。定义由噪声参数 θ \theta θ 的向量参数化的神经网络:
一般的,线性的神经网络层表示为:
相应地,带噪声的线性层定义为:
在有噪声网络的线性层的噪声分布可以有两种选择:
噪声网络的损失函数(噪声的期望)及其梯度:
对上面的梯度使用蒙特卡罗近似:
NoisyNet-A3C 算法伪代码: