1.简介--阅读笔记【Reinforcement Learning An Introduction 2nd】

简介

强化学习的概念与重要特征:

  • 1.强化学习是一种学习如何将状态映射到动作,以获得最大奖励的学习机制。
  • 2.强化学习的重要特征:强化学习过程中,其动作不仅直接影响到当前奖励,还可能会影响下一个状态,从而通过下一个状态,影响随后的奖励。因此,试错法和延迟奖励(trial-and-error search and delayed reward ) 是强化学习最重要的两个特征。
    强化学习的另外一个重要特征如下所示:
    1.简介--阅读笔记【Reinforcement Learning An Introduction 2nd】_第1张图片
    这段话就是说强化学习可以用于研究对象整体,也可以用于研究对象的一部分(比如机器人整体/机器人路径规划)
    同时强化学习是在交互中学习;能够解决一定的维度灾难问题。

强化学习的数学描述

如何数学化的描述强化学习问题?具体来说,是一个不完全已知马尔科夫决策过程的最优控制问题。一个智能体在某种程度上必须能够感知环境的状态,然后能够采取动作影响当前状态。智能体同时也必须有一个与环境状态相关的目标。马尔科夫决策过程旨在以一种最简洁的形式综合感知、动作和目标这三个要素,同时不至于使他们琐碎。

强化学习与无监督学习

  • 3.强化学习与无监督学习的区别:无监督学习通常是用于寻找隐藏在未标记数据集合中的结构/信息。监督学习和无监督学习似乎已经对机器学习范式进行了详尽的分类,但实际并非如此。强化学习是以最大化奖励信号为目的,并不是去设法寻找隐藏的结构/信息。可以说,强化学习是当前机器学习中的第三种范式,可能还会有其他范式。

强化学习面临的最大挑战

  • 4.强化学习中的挑战
  • 如何权衡探索exploration和利用exploitation? trade-off between exploration and exploitation
    为了获得大量奖励,智能体倾向于过去已经尝试过并且能够获得有效收益的行动,要发现这样的行为,智能体必须尝试以前没有选择过的行为。同时还必须充分利用已有经验来获得收益,但是也必须进行探索,以便在未来能够做出更好的动作选择。困境在于,任何探索和利用都难免会失败。

强化学习的要素

  • 5.强化学习的要素elements:sutton将强化学习分为四个要素:策略、奖励信号、价值函数以及可选的环境模型(因为有些场景是采用model free的方法)
    5.1策略:定义了智能体在给定时间内的学习方式。简单的说,策略就是从感知的环境状态到在这些状态下所要采取的动作的映射。
    5.2奖励信号:定义了强化学习问题的目标。智能体的唯一目标就是最大化长期收到的总奖励。奖励信号是智能体对所面临的问题的直接和明确的特征。策略的变化取决于奖励信号。
    5.3值函数:奖励信号表明了直接意义上的好坏,但是值函数就可以反映长期收益。粗略的说,一个状态的价值等于智能体从该状态开始在未来可以预期累积获得的收益总值。一个状态可能会产生较低的即使奖励,但是仍然具有很高的价值,这是因为该状态会影响后续状态,从而使后续状态产生高回报。
    与人相比,奖励像是人处于快乐或痛苦的状态;而价值则对应于我们对接下来环境处于高兴或不满的状态的更精确和更有远见的判断。
    奖励与价值之间的关系:没有奖励就没有价值,估算价值的目的是为了获取更多奖励。但是在评估决策时我们最关心的还是价值。因为价值反映的是长远以来可以获得的回报。奖励基本上可以由环境直接反馈得到,但是确定价值要比确定奖励困难得多。
    5.4环境模型:基于模型的方法,给定状态和动作,模型可以预测出下一个状态和奖励的结果,模型用于规划,即在实际行动之前对未来的动作进行预判。无模型的方法可以看作是有规划的反面,通过试错进行学习。

你可能感兴趣的:(#,RL,An,Introduction,2nd读书笔记,强化学习,深度学习)