强化学习速度复习-DQN

DQN,就是用神网来代替Q表,有两种形式(都是QLeaning改进,不过用SARSA也是可以的)
第一种:输入状态与行为,生成一个Q值(通常不用)
第二种:输入状态,输出每种行为的Q值(就是Q表的一行),然后用强化学习的方法去选择(以一定概率选择最优的行为,低概率随机)

以第二种方法为例,输入S2,即当前行为转移到的下一状态,得到Q表中S2所有行为的Q值,取最出大值,输入S1,即当前状态,得到Q表中S所有行为的Q值,取当前行为那个,然后通过表达式(q(s1,a1)=q(s1,a1)+lr*(max(q(s2,ai))-q(s1,a1))更新Q值,或者说求与新q(s1,a1)与老q(s1,a1)之差,反馈到神网进行训练

另外添加的算法:

记忆库,神经网络计算Q值,暂时冻结q_target参数(切断相关性)

 

你可能感兴趣的:(强化学习速度复习-DQN)