强化学习模块基础概念及相关知识

|更新:2020.10.28 | [email protected]


文章目录

  • 强化学习:
    • 1. 马尔科夫决策(MDP):
    • 2. 思想:
    • 3. 基本原理:
    • 4. 结构:eg. 游戏是环境,人是智能体
    • 5. DQN:
    • 6. Model-based vs. Model-free:
    • 7. on-policy vs. off-policy:
  • 其他相关知识
    • 1. Multi-task learning vs. Single-task learning
    • 2. Multi-objective Optimization vs. Single-objective Optimization:

强化学习模块基础概念及相关知识_第1张图片

强化学习:

学习者不会被环境告知执行哪个行动,而是自己去发现哪种行动将产生最大回报。强化学习中由智能体的“评判器-行动器”结合环境收益信号提供的强化信号(TD误差δ)是Agent对所产生动作的好坏作一种评价(标量信号,正或负),而不是如何产生正确的动作。强化学习系统学习的目标是动态地调整参数,以达到强化信号最大。

1. 马尔科夫决策(MDP):

马尔科夫决策过程指接下来的所有状态和决策只取决于当前的状态和决策。比如你下象棋,你走第四步时,影响你决策和接下来状态的只有第三步。

2. 思想:

智能体对环境执行一个动作,环境接收动作后把当前状态和奖励返回给智能体;然后智能体根据环境返回的状态和奖赏执行下一个动作。

3. 基本原理:

如果Agent的某个行为策略(behavior policy)导致环境的正奖赏,那么以后产生此行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略(target policy)以使期望的折扣奖赏和最大。Agent选择的动作不仅影响立即强化值,且影响环境下一时刻的状态及最终强化值。

4. 结构:eg. 游戏是环境,人是智能体

智能体(Agent):智能体可以是一个神经网络,亦可一个简单的算法,输入通常是状态State,输出通常是策略Policy。如果停止,y等于本次的reward;如果没有停止,就等于这次的reward加下次的价值Q(贝尔曼方程)。
动作(Actions):动作空间。如玩游戏,只有上下左右可移动,那Actions就是上下左右。
状态(State):就是智能体的输入。
奖励(Reward):进入某个状态时,能带来正奖励或负奖励。
环境(Environment):接收action,返回state和reward。

5. DQN:

深度强化学习基本上是没有转移概率的,所以不能直接有贝尔曼方程求解。
1、强化学习的主要挑战:讨论credit assignment问题和exploration-exploitation困境。
2、用数学来形式化强化学习:定义Markov Decision Process并对强化学习进行分析推理。
3、指定长期的策略:定义discounted future reward。
4、估计或近似未来收益:给出简单的基于表的Q-learning算法的定义和分析。
5、状态空间是非常巨大:基于表的Q-table就可以使用(深度)神经网络来替代。
6、将这个模型真正可行:采用Experience replay技术来稳定神经网络的学习。
7、exploration-exploitation的解决方案:探索是随机选择;开发是选择最优解。

6. Model-based vs. Model-free:

机器已对环境进行了建模,能够在机器内模拟出与环境相同或近似的状况。在已知模型的环境中学习称“有模型学习”,即model-based learning。如在任意状态x下执行动作a转移到状态x’的概率p(转移概率)是已知,转移带来的奖赏R也是已知。相对应,不知道状态转移概率p,则是Model-free learning。DQN一般都是Model-free。
(躲避已知障碍物位置的game是model-based,不知任务状态的game是model-free)。

基于模型的强化学习算法是智能体通过与环境交互获得数据,根据数据学习和拟合模型,智能体根据模型利用强化学习算法优化自身的行为。无模型的强化学习算法是指智能体从环境中获得的数据并不拟合环境模型,而是直接拿过来优化智能体的动作。

7. on-policy vs. off-policy:

一个策略的好坏需进行评估,然后对学习到的差策略需进行改进和完善。若用于实际决策的待评估或改进的target policy(目标策略或最优策略)和生成采样数据序列的behavior policy(与环境交互)是同一个策略,就属于on-policy,否则off-policy。

其他相关知识

1. Multi-task learning vs. Single-task learning

多任务学习(Multi-task learning,MTL)通过共享相关(related)任务之间的表征,可使模型更好地概括原任务,称多任务学习,是迁移学习算法的一种。有时优化多个损失函数就等同进行多任务学习。有时即使只优化一个损失函数,也可借助辅助任务来改善原任务模型。

单任务学习(Single-task learning,TL)忽略了来自相关任务的训练信号,可能帮助优化度量指标。联邦/联合学习(Federated/joint learning)、元学习(learning to learn)和带辅助任务的学习(self-supervised learning with auxiliary task)等都可以指MTL。

2. Multi-objective Optimization vs. Single-objective Optimization:

多目标优化问题(Multi-objective Optimization Problem,MOP)是研究多于一个目标函数在给定区域上的最优化,又称多目标最优化。单目标优化问题(Single-objective,SOP)。

多目标优化的本质:大多数情况下,同时使多个目标均达到最优是不可能的,只能在各目标之间进行协调权衡和折中处理,使所有目标函数尽可能达到最优。

常用处理过程:通过非负加权求和把多目标优化转化为单目标问题,其最大区别在于多目标优化是一个向量优化,需比较向量之间的大小,向量之间仅仅存在偏序关系,就导致该优化问题的性质非常不好。

你可能感兴趣的:(强化学习,强化学习)