【强化学习】 时序差分TD error的通俗理解

引用:https://www.youtube.com/watch?v=jflq6vNcZyA&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU&index=2


在我们优化dqn的时候,损失函数式TD error。

那么为什么可以用这样的方式进行优化呢。

【强化学习】 时序差分TD error的通俗理解_第1张图片

这里有个例子,就是最开始模型预估 NYC 到 Atilanta的路程时间是1000分钟,然后我们实际从NYC到DC走了300分钟,并且模型预估DC到atlanta需要600分钟,那么这里面NYC到DC是真实的时间,所以预估结果和真实结果是有差距的。

【强化学习】 时序差分TD error的通俗理解_第2张图片

所以也可以理解为最开始模型预测NYC到DC是要花400分钟的,但是现在实际时间是300分钟,所以算法是要让预计时间和实际时间相等,如果要计算mse loss,所以这里是让预估时间趋向真实时间。

所以在强化学习中,DQN最后是用r + gamma*Q 作为target是一个道理。这里的r就是真实值。

【强化学习】 时序差分TD error的通俗理解_第3张图片

 

你可能感兴趣的:(强化学习,强化学习)