强化学习-学习笔记9 | Multi-Step-TD-Target

这篇笔记依然属于TD算法的范畴。Multi-Step-TD-Target 是对 TD算法的改进。在调整合适的i情况下,多步较于单步性能好很多。

你可能感兴趣的:(强化学习-学习笔记9 | Multi-Step-TD-Target)