基础阶段(一)——强化学习的基本认识

提示:转载请注明出处,若本文无意侵犯到您的合法权益,请及时与作者联系

基础阶段(一)——强化学习的基本认识

  • 前言
  • 一、强化学习的定位
  • 二、强化学习的定义
    • 2.1 强化学习的英文含义
    • 2.2 强化学习的灵感来源
    • 2.3 强化学习的研究内容
  • 三、强化学习的特点
  • 总结


前言

随着人工智能的不断发展,强化学习这门技术也越来越重要,很多人都开启了学习强化学习,本文简单介绍了强化学习的基础内容来帮助新手建立对强化学习的印象。


提示:以下是本篇文章正文内容

一、强化学习的定位

传统的机器学习算法大致可以分为三类:

  1. 有监督学习(Supervised learning)
  2. 无监督学习(Unsupervised learning)
  3. 强化学习(Reinforcement Learning)

目前流行的强化学习方式是将强化学习与深度学习融合,即深度强化学习(DRL)。
它们之间的关系如下:
基础阶段(一)——强化学习的基本认识_第1张图片

机器学习算法的大致分类如下:

二、强化学习的定义

2.1 强化学习的英文含义

强化学习的英文是Reinforcement Learning,简称RL,其英文含义就是通过某种方式来讲话或者鼓励某个人或者事务以更高的可能性产生同样的行为。

2.2 强化学习的灵感来源

强化学习的灵感来自于心理学中的行为主义理论,每个人都是过去经验的总和,你的经验造就现在的你。

2.3 强化学习的研究内容

定义: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

强化学习研究的是一个智能体通过强化学习算法去学会在什么状态下应该采取什么样的行为才能获得最佳回报,即我们要获得一个从环境状态到智能体动作映射,这个映射叫做策略

强化学习研究的是智能体如何在环境中采取一系列行为,从而获得最大的累计回报

三、强化学习的特点

将强化学习与机器学习中常见的监督学习进行对比,就会发现其具有以下特点:

  1. 强化学习是试错学习(Trail-and-error),其要学习到的最优策略大多是未知的,需要自己探索,由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最优策略

  2. 强化学习是延迟回报的,强化学习的指导信息很少,而且往往是在事后(最后一个状态)才能知道该策略是否优秀的,比如下围棋,只有在最后一刻才知道自己的输赢,这就导致了一个问题,就是我们要如何设计这个奖励机制使得智能体可以学会不到最后一刻才知道自己是否做的正确,这是强化学习任务中我们必须要解决的问题。

总结

以上就是强化学习的基本概念,接下来我们将会介绍如何通过数学模型来为强化学习问题进行建模,进而获得求解强化学习问题的基本算法。

你可能感兴趣的:(机器学习之强化学习,机器学习,强化学习)