强化学习五 || TD算法

强化学习五 || TD算法

回顾TD算法

强化学习五 || TD算法_第1张图片

Sarsa算法

画出一张表格

强化学习五 || TD算法_第2张图片

强化学习五 || TD算法_第3张图片

在计算TD target时,需要查表,找出蓝色圈出的式子

image-20220219153658979

还能通过查表找到TD error

image-20220219153746418

更新权重


如果参数过多,无法画表,则利用神经网络模拟Q函数

强化学习五 || TD算法_第4张图片

强化学习五 || TD算法_第5张图片


Q-learning

Q-learning和sarsa算法的区别是,Q-learning学习Q*函数,要求最大化

强化学习五 || TD算法_第6张图片

强化学习五 || TD算法_第7张图片

强化学习五 || TD算法_第8张图片

我们可以通过查表找出蓝色框出来的最大值

强化学习五 || TD算法_第9张图片

强化学习五 || TD算法_第10张图片


神经网络形式的Q-learning

强化学习五 || TD算法_第11张图片


Multi-Step Return 批量梯度更新

强化学习五 || TD算法_第12张图片

还可以继续递归下去,然后得到多步回报公式

强化学习五 || TD算法_第13张图片

强化学习五 || TD算法_第14张图片

强化学习五 || TD算法_第15张图片

多步TD target往往比 一步的效果要好

你可能感兴趣的:(算法,深度学习,强化学习)