深度强化学习极简入门(七)——小结:表格型强化学习

为学日益,为道日损。——《老子》第四十八章

不知不觉已经将强化学习中的表格型方法主要内容写完了。这可是走过了RL发展的好几十年的历史呢!老子说,为学日益,为道日损。知识应当多多益善,但是如何从形式上的知识转化为自己真正认同的道呢?
{}
介绍了强化学习发展历史,强化学习问题的形式化描述(马尔可夫决策过程贝尔曼方程)、蒙特卡洛思想和算法、记忆时间差分思想和算法,还通过编程实现了相关算法并解决OpenAI Gym中的一些棋牌游戏和路径规划问题。内容汇总如下:
深度强化学习极简入门(一)——强化学习发展历史简述
深度强化学习极简入门(二)——使用马尔可夫决策过程(MDP)描述强化学习

你可能感兴趣的:(深度强化学习极简入门,机器学习,人工智能,强化学习,深度强化学习,多智能体强化学习)