一、RL基础概念介绍

1.基本概念

  • Agent:智能体
  • System Environment:系统环境/实验的操控者
  • Observation/State:观察值(Agent眼中环境的状态)
  • Action:行动/Agent的反映
  • Reward:回报/反馈

在经典强化学习中,智能体要和环境完成一系列交互
(1)在每一个时刻,系统都将处于一种状态
(2)智能体将设法得到环境当前状态的观察值
(3)智能体根据观察值,结合自己历史的行为准则(策略,Policy)做出行动。
(4)这个行动会影响环境的状态,是环境发生一定的改变。Agent将从改变后的环境中得到两部分信息:新的环境观测值和行为给出的回报。Agent可以根据新的观测值做出新的行动。

2.强化学习两个特点

(1)不断试错
(2)看重长期回报

你可能感兴趣的:(一、RL基础概念介绍)