在这里分享一些2022年比较推荐的强化学习相关书籍,从初学者到进阶读者都可以使用的。
一、Reinforcement Learning, second edition: An Introduction (Adaptive Computation and Machine Learning series)
强化学习是人工智能中最活跃的研究领域之一,它是一种计算学习方法,通过这种方法,智能体试图在与复杂、不确定的环境交互时最大化其获得的奖励总量。在强化学习中,Richard Sutton 和 Andrew Barto 清晰而简单地介绍了该领域的关键思想和算法。
第一部分涵盖了尽可能多的强化学习,而不会超出可以找到精确解决方案的表格案例。这部分介绍的许多算法是第二版的新算法,包括 UCB、Expected Sarsa 和 Double Learning。
第二部分将这些想法扩展到函数逼近,增加了关于人工神经网络和傅里叶基等主题的新章节,并提供了对离策略学习和策略梯度方法的扩展处理。
第三部分有关于强化学习与心理学和神经科学关系的新章节,以及更新的案例研究章节,包括 AlphaGo 和 AlphaGo Zero、Atari 游戏和 IBM Watson 的投注策略。最后一章讨论了强化学习的未来社会影响。
二、Deep Reinforcement Learning Hands-On: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more
Deep Reinforcement Learning Hands-On, Second Edition 是最新强化学习 (RL) 工具和技术的畅销指南的更新和扩展版本。它向您介绍了 RL 的基础知识,以及编写智能学习代理代码以执行一系列实际任务的动手能力。 有六个新章节专门介绍 RL 的各种最新发展,包括离散优化(解决魔方)、多智能体方法、Microsoft 的 TextWorld 环境、高级探索技术等,您将离开从本书中深入了解这一新兴领域的最新创新。 此外,您将获得对诸如深度 Q 网络、策略梯度方法、连续控制问题和高度可扩展的非梯度方法等主题领域的可行见解。 简而言之,Deep Reinforcement Learning Hands-On,第二版,是您驾驭 RL 令人兴奋的复杂性的伴侣,因为它可以帮助您通过真实世界的示例获得经验和知识。
三、Grokking Deep Reinforcement Learning
Grokking 深度强化学习使用引人入胜的练习来教您如何构建深度学习系统。本书结合了带注释的 Python 代码和直观的解释来探索 DRL 技术。您将了解算法如何发挥作用,并学习使用评估反馈开发您自己的 DRL 代理。
这种常见模式是深度强化学习的基础:构建基于环境响应进行探索和学习的机器学习系统。 Grokking 深度强化学习介绍了这种强大的机器学习方法,使用示例、插图、练习和清晰的教学。
当您深入探索强化学习基础知识、有效的深度学习技术以及在这个新兴领域的实际应用时,您会爱上完美节奏的教学和巧妙、引人入胜的写作风格。
四、Python Reinforcement Learning: Solve complex real-world problems by mastering reinforcement learning algorithms using OpenAI Gym and TensorFlow
学习路径首先介绍 RL,然后是 OpenAI Gym 和 TensorFlow。然后,您将探索各种 RL 算法,例如马尔可夫决策过程、蒙特卡洛方法和动态规划,包括价值和策略迭代。
您还将处理各种数据集,包括图像、文本和视频。这个示例丰富的指南将向您介绍深度 RL 算法,例如 Dueling DQN、DRQN、A3C、PPO 和 TRPO。您将获得多个领域的经验,包括游戏、图像处理和物理模拟。
您将探索 TensorFlow 和 OpenAI Gym 来实现预测股票价格、生成自然语言甚至构建其他神经网络的算法。您还将了解想象力增强代理、从人类偏好中学习、DQfD、HER 以及 RL 的许多最新进展。
在学习路径结束时,您将拥有在项目中实施 RL 和深度 RL 所需的所有知识和经验,并进入人工智能世界以解决各种现实生活中的问题。
五、Handbook of Reinforcement Learning and Control (Studies in Systems, Decision and Control 325)
本手册介绍了强化学习的最新研究,重点介绍了其在动态系统的控制和博弈论中的应用以及相关研究和技术的未来方向。
本书收集的内容涉及使用学习和适应方法解决学术和工业问题时面临的挑战,例如在动态环境中使用单个和多个代理进行优化、收敛和性能分析以及在线实施。他们探索了解决这些困难的方法,并涵盖了广泛的相关主题,包括:
机器学习、博弈论和自主控制领域的实践工程师和学者会发现《强化学习与控制手册》发人深省、具有指导意义和信息丰富。
六、Reinforcement Learning and Optimal Control
这本书考虑了大型且具有挑战性的多阶段决策问题,这些问题原则上可以通过动态规划来解决,但它们的精确解决方案在计算上是难以处理的。它可以作为教科书使用,也可以结合教学视频和幻灯片以及其他支持材料自学,这些材料可从作者的网站获得。
本书讨论了依靠近似来产生具有足够性能的次优策略的解决方法。这些方法有几个本质上等效的名称:强化学习、近似动态规划和神经动态规划。
除其他外,它们是最近在国际象棋和围棋等游戏背景下自学取得令人瞩目的成功的基础。本书的目标之一是探索人工智能与最优控制之间的共同边界,并为具有任一领域背景的工作者搭建一座桥梁。
另一个目标是连贯地组织广泛的方法,这些方法在实践中证明是成功的,同时具有坚实的理论和/或逻辑基础。这可以帮助研究人员和从业者在构成当前艺术状态的竞争思想的迷宫中找到自己的方式。
本书的数学风格与同一作者的其他书籍有些不同。虽然我们提供了关于有限和无限视界动态规划理论的严格但简短的数学说明,以及一些基本的近似方法,但我们更多地依赖于直观的解释,而不是基于证明的见解。我们还通过许多示例算法和应用程序来说明该方法。
七、Reinforcement Learning and Stochastic Optimization: A Unified Framework for Sequential Decisions
强化学习和随机优化提供了一个单一的规范框架,可以使用五个核心组件对任何顺序决策问题进行建模:状态变量、决策变量、外生信息变量、转移函数和目标函数。
本书重点介绍了可能进入任何模型的十二种类型的不确定性,并将用于决策的各种方法(称为策略)汇总为四个基本类别,涵盖学术文献中建议或实践中使用的每种方法。
强化学习和随机优化是第一本对建模和解决顺序决策问题的不同方法进行平衡处理的书籍,遵循大多数机器学习、优化和模拟书籍所使用的风格。
该演示文稿专为具有概率和统计课程以及对建模和应用感兴趣的读者而设计。线性规划偶尔用于特定的问题类别。本书是为刚接触该领域的读者以及在不确定性下进行优化的读者而设计的。
在本书中,读者将找到超过 100 种不同应用的参考,涵盖纯学习问题、动态资源分配问题、一般状态相关问题以及混合学习/资源分配问题,例如在 COVID 大流行中出现的问题。
共有 370 个习题,分为七组,从复习题、建模、计算、问题解决、理论、编程练习和读者在本书开头选择并用作基础的“日记题”对于本书其余部分的问题。
八:Mastering Reinforcement Learning with Python: Build next-generation, self-learning models using reinforcement learning techniques and best practices
本书建立在坚实的理论基础之上,采用实用的方法,并使用受现实行业问题启发的示例来向您介绍最先进的 RL。
本书从老虎机问题、马尔可夫决策过程和动态规划开始,深入回顾了经典的强化学习技术,例如蒙特卡洛方法和时间差分学习。之后,您将了解深度 Q 学习、策略梯度算法、actor-critic 方法、基于模型的方法和多智能体强化学习。然后,您将了解最成功的 RL 实施背后的一些关键方法,例如域随机化和好奇心驱动的学习。
随着您的进步,您将使用现代 Python 库(例如 TensorFlow 和 Ray 的 RLlib 包)探索许多具有高级实现的新算法。您还将了解如何在机器人技术、供应链管理、营销、金融、智慧城市和网络安全等领域实施 RL,同时评估不同方法之间的权衡并避免常见陷阱。
九、Foundations of Deep Reinforcement Learning: Theory and Practice in Python (Addison-Wesley Data & Analytics Series)
深度强化学习的基础是对深度强化学习的介绍,它独特地结合了理论和实现。它从直觉开始,然后仔细解释深度 RL 算法的理论,讨论其配套软件库 SLM Lab 中的实现,最后介绍深度 RL 工作的实际细节。
本指南非常适合熟悉基本机器学习概念并对 Python 有实际理解的计算机科学专业学生和软件工程师。
当然这九本书还有不足的地方,除了各书之间交叉的知识点很多之外,还有不少强化学习的相关领域没有涵盖到的地方,比如对于多智能体强化学习研究的较少。有关于多智能体决策的书籍可以参考:Multi-Agent Coordination: A RL approach这本书。