The Primacy Bias in Deep Reinforcement Learning(论文笔记)


首因偏见(The primacy bias)
在认知科学中,人类会在第一个事实的基础上产生概括,而较少关注后面的事实。
在RL中,智能体倾向于早期与环境的交互,而忽略后来有用的数据。
由于在不断增长的数据集上进行训练,深度RL智能体会产生过拟合早期经验的风险,从而对学习过程的其余部分产生负面影响。如下图

1.首因偏见

The Primacy Bias in Deep Reinforcement Learning(论文笔记)_第1张图片

2.

 首要性偏差并不是没有收集到合适的数据本身,而是没有从中学习。存储在重放缓冲区中的数据原则上足够具有更好的性能,但过拟合的agent缺乏将其提炼为更好策略的能力。

The Primacy Bias in Deep Reinforcement Learning(论文笔记)_第2张图片

 

解决方案:通过重置agent的一部分来解决首要性偏差。受首要地位偏见影响的深度RL智能体可以在继续学习过程之前忘记通过过度拟合早期经验而得到的解决方案的部分。

重置过程:

                  1.我们周期性地重新初始化代理神经网络的最后一层
                  2.同时保持缓冲区内的经验。

 需要实现的选择:神经网络的哪些部分需要重置以及重置它们的频率

重置策略:
引入超参数:

1.重新初始化agent的神经网络的层数,建议从重置最后1 ~ 3层开始探索这个超参数。
2.重复周期

SPR: 在相隔2 × 104步的训练过程中重置5层Q网络的最终线性层
DRQ:将策略和价值网络的7层中的最后3层重置,其周期为2 × 105 step1
SAC:每隔2 × 105步重置agent的所有网络

SAC和DrQ重新初始化目标网络和两个Q网络

重放缓冲区在重置之间被保留;
SPR和SAC在缓冲区中存储所有的先验交互.而DrQ由于存储图像观测值的内存限制,只包含最近的100k次跃迁。SAC和DrQ样本从缓冲区均匀过渡,而SPR使用优先经验重放

 

你可能感兴趣的:(人工智能)