深度强化学习(理论篇)—— 从 Critic-only、Actor-only 到 Actor-Critic
来源于Tangowl的系列文章https://blog.csdn.net/lipengcn/article/details/81253033自己第一篇paper就是用MDP解决资源优化问题,想来那时写个东西真是艰难啊。彼时倒没想到这个数学工具,如今会这么火,还衍生了新的领域——强化学习。当然现在研究的内容已有了很大拓展。这段时间会做个深度强化学习的专题,包括基础理论、最新文献和实践三大部分。1概述