【强化学习】Human-level control through deep reinforcement learning(2015)

Human-level control through deep reinforcement learning(2015)

强化学习中,智能体面对的一个问题是:它们必须从高维输入得到有效的环境表示,并且可以把这些传递给新的环境中。

当非线性方程approximator例如神经网络被用于表示Q function,强化学习酒会不稳定甚至发散,不稳定性有以下原因:

  1. 在观察序列中的相关性。
  2. Q的小的更新可能会严重的改变策略,从而改变数据分布,action-value(Q)和target value之间的联系(为什么??)

作者用了一个新型的Q-learning的变体来解决这种不稳定性

  1. 用了经验回放机制,随机选择数据,从而消除了序列的相关性并且smooth了数据分布的变化。
  2. 用的调整Q到target的更新是周期性的,因此减少了和目标之间的关联

改进:

  1. 仅仅在训练(?)中对reward做了改变,因为每个游戏分数的范围是不一样的,把所有的positive reward都变成1,negative reward变成=1,0代表了reward不变,用这种方式限制reward有助于限制error derivation的范围并且可以对不同的游戏应用相同的学习率。同时它会影响agent的表现因为它不能区分不同
    Because the absolute value loss function jxj has a derivative of -1 for all negative values of x and a derivative of 1 for all positive values of x, clipping the squared error to be between -1 and 1 corresponds to using an absolute value loss function for errors outside of the (-1,1) interval. This form of error clipping further improved the stability of the algorithm. (??)
  2. 用了RMSprop优化算法

你可能感兴趣的:(强化学习)