【论文笔记】 Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning

Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning

作者通过为不常访问的州添加“ beta / sqrt(count(state))”形式的伪奖励来鼓励探索。 根据特定于环境的功能表示形式(例如原始像素或自动编码器表示形式),使用局部敏感哈希(LSH)对状态访问进行计数。 作者表明,这种简单的技术可以在各种经典的RL控制任务和ATARI领域的几款游戏中获得收益。

尽管算法本身很简单,但是现在还有更多的超参数可调整:额外系数“ beta”,LSH哈希粒度(用于哈希的位数)以及根据其计算哈希的特征表示类型 ,其本身可能具有更多参数。 实验并不能画出一致的图像,而且不同的环境似乎需要千差万别的超参数设置,我认为这将使该技术在实践中难以使用。

你可能感兴趣的:(【论文笔记】 Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning)