《Grokking Deep Reinforcement Learning》笔记(Chapter 8-10)
《GrokkingDRL》笔记(Chapter8-10)第8-10章重点讲解了基于值的RL算法。Chapter8本书依然聚焦于强化学习问题中智能体与环境交互之后得到的feedbacksignal的形式,前7章包含了sequentialandevaluativefeedback,而DRL的目标是构建一个能够从sequential,evaluativeandsampledfeedback中学习的智能体