强化学习——day10 强化学习简介

强化学习

  • 两种机器学习类型![在这里插入图片描述](https://img-blog.csdnimg.cn/fbdd2ab2b80545d681c4507a6b1e7cc4.png)
  • 强化学习定义
  • 强化学习交互过程
  • 强化学习系统要素
    • 历史(History)
    • 状态(state)
    • 策略(Policy)
      • 确定性策略
      • 随机策略
    • 奖励(Reward)
    • 价值函数(Value Function)
    • 环境的模型(Model)
  • 举例
  • RL智能体分类
    • Atari游戏
  • RL智能体分类

两种机器学习类型强化学习——day10 强化学习简介_第1张图片

强化学习定义

强化学习——day10 强化学习简介_第2张图片

强化学习交互过程

强化学习——day10 强化学习简介_第3张图片

强化学习系统要素

历史(History)

强化学习——day10 强化学习简介_第4张图片

状态(state)

强化学习——day10 强化学习简介_第5张图片

策略(Policy)

强化学习——day10 强化学习简介_第6张图片

确定性策略

π是一个确定性函数,一个参数对应一个策略

随机策略

s——》a的条件概率分布

奖励(Reward)

  • 一个定义强化学习目标的
  • 标量能立即感知到什么是“好”的

价值函数(Value Function)

  • 状态价值是一个标量,用于定义对于长期来说什么是“好”的·价值函数是对于未来累积奖励的预测
  • 用于评估在给定的策略下,状态的好坏
    在这里插入图片描述
  • γ∈(0,1)

环境的模型(Model)

用于模拟环境的行为
-作用:强化学习——day10 强化学习简介_第7张图片

举例

强化学习——day10 强化学习简介_第8张图片

RL智能体分类

基于模型的强化学习

  • 策略(和/或)价值函数环境模型
  • 比如:上述迷宫游戏,围棋等
    模型无关的强化学习
  • 策略(和/或)价值函数
  • 没有环境模型
  • 比如: Atari游戏的通用策略

Atari游戏

强化学习——day10 强化学习简介_第9张图片

RL智能体分类

强化学习——day10 强化学习简介_第10张图片

你可能感兴趣的:(强化学习,深度学习)