免费新书《强化学习:简介》

最近又买了两本新书，希望以后能有读后感，说起来，还得感谢首都经济贸易大学投资系副主任余颖丰教授，真心感谢！之前，我们推荐过免费好书“免费: 大赏新书CASI”，这里我们再推荐一本好书！Richard 和 Andrew的 “强化学习：简介”。在阅读原文里面可以下载！

前言

Richard 大神是斯坦福毕业的。目前在University of Alberta，对强化学习里面的Policy Gradient方法有着巨大的贡献，并且博士毕业论文里面提出了牛掰的“actor-critic”架构，他在不遗余力的创新和推广强化学习。

另外一个作者是， Andrew Barto，他是University of Massachusetts Amherst的教授，他在强化学习方面获得过IEEE的先驱大奖。他对TD算法和大脑中的“恋爱化学元素” 多巴胺之间的联系有独特的解释。他至今为止还没有招收过中国学生，有兴趣的可以试试！

两位开创性大神写的简介，绝对不仅仅是简介！目前国内还没有好的强化学习的材料，这本书绝对是首选！在第一版之后，现在正在修改第二版，还没有定稿，大家可以读了反馈修改意见，哈哈！

三大部分

从历史到基础的方法作为第一部分，这个部分是经典，讲明了强化学习诞生的背景知识。第二部分，是基础到实际应用，强化学习独立于其他算法，在于各种切合实际的模型诞生。第三部分，是未来，再从心理学和应用展望强化学习的未来。

一，基于表的解决方式

强化学习属于机器学习范畴，离不开概率统计分析的背景，从Multi-arm Bandits这个经典的概率问题出发引入。

然后开始介绍强化学习的理论基础，有限马尔可夫决策过程，介绍从马尔可夫过程到马尔可夫决策过程来说明目标和奖励为什么是强化学习的核心。

在这个理论基础上，介绍TD这个经典的强化学习模型，而TD是动态规划和蒙特卡洛方法的结合，所以又先介绍动态规划和蒙特卡洛方法。

有了TD这个强化学习的基础模型，开始介绍表数据TD算法的常见思路和问题，为下一章近似求解打下基础。

二，近似求解方式

在近似求解，就开始介绍On-Policy 和 Off-Policy下预测和控制的不同近似.

最后, 引入Policy Gradient这个革命性的模型。

并且在这个里面，提出了Actor-Critic框架。

三，深入联系和展望

最后联系心理学Rescorla-Wagner模型和强化学习的TD模型，神经科学和Actor-Critic架构，和各种实际应用：游戏，Go等等。

最后，做了点展望，这部分还没有写。

小结

这么好的书，不容错过！同时也推荐karpathy的深度强化学习简介 http://karpathy.github.io/2016/05/31/rl/。你可以点击下面的阅读原文来下载《强化学习:简介》[11.2M] ，请耐心下载！