深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等
高性能的ReplayBuffer应该满足以下三点:随机采样randomsample的速度要快,尽可能加快读取速度(最为重要)减少保存的数据量,增加吞吐效率(对分布式而言重要)保存能简化计算的变量(对特定算法而言重要)为了达成以上要求,我建议做出以下修改:把ReplayBuffer的数据都放在连续的内存里,加快读取速度按trajectory的顺序保存envtransition,避免重复保存nexts