强化学习:资料整理

强化学习(英語:Reinforcement learning,簡稱RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益[1]。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡[2],强化学习中的“探索-利用”的交换,在多臂老虎机(英语:multi-armed bandit)问题和有限MDP中研究得最多。

其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。

在机器学习问题中,环境通常被抽象为马尔可夫决策过程(Markov decision processes,MDP),因为很多强化学习算法在这种假设下才能使用动态规划的方法[3]。传统的动态规划方法和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。[4]

强化学习已经在诸如博弈论、控制论、运筹学、信息论、仿真优化、多智能体、群体智能和统计学等领域有了深入研究。在运筹学和控制文献中,强化学习被称为近似动态规划神经动态规划。强化学习所感兴趣的问题在最优控制(一种关注最优解的存在性、表示和求解的理论,但较少涉及学习和近似)中也有所研究,尤其是环境的数学模型难以求得的时候。在经济学和博弈论中,强化学习可能被用来解释在有限的理性(rationality)下如何达到平衡状态。

常用算法编辑

蒙特卡洛学习 Monte-Carlo Learning

Temporal-Difference Learning

SARSA算法

Q学习

强化学习工具箱

使用强化学习设计和训练策略

Reinforcement Learning Toolbox™ 提供应用程序、函数和 Simulink ®模块,用于使用强化学习算法(包括 DQN、PPO、SAC 和 DDPG)训练策略。您可以使用这些策略为复杂的应用程序(例如资源分配、机器人和自治系统)实施控制器和决策算法。

该工具箱让您可以使用深度神经网络或查找表来表示策略和价值函数,并通过与在 MATLAB® 或 Simulink 中建模的环境进行交互来训练它们。您可以评估工具箱中提供的单智能体或多智能体强化学习算法或开发自己的算法。您可以通过应用程序以交互方式或以编程方式试验超参数设置、监控训练进度并模拟训练有素的代理。为了提高训练性能,模拟可以在多个 CPU、GPU、计算机集群和云上并行运行(使用 Parallel Computing Toolbox™ 和MATLAB Parallel Server™)。

通过 ONNX™ 模型格式,可以从 TensorFlow™ Keras 和 PyTorch(使用 Deep Learning Toolbox™)等深度学习框架导入现有策略。您可以生成优化的 C、C++ 和 CUDA ®代码,以在微控制器和 GPU 上部署经过训练的策略。

学习文档可参考:

Reinforcement Learning ToolboxDocumentation- MathWorks 中国Reinforcement Learning Toolbox provides an app, functions, and a Simulink block for training policies using reinforcement learning algorithms, including DQN, PPO, SAC, and DDPG.icon-default.png?t=M666https://ww2.mathworks.cn/help/reinforcement-learning/index.html

你可能感兴趣的:(算法,机器学习,人工智能)