【强化学习】基本概念

基本大概框架

【强化学习】基本概念_第1张图片强化学习的主要角色是 智能体 (agent)和 环境,环境是智能体存在和互动的世界。智能体根据当前的环境做出action,action影响环境。然后智能体根据新的环境再进行action。

基础用语

  • 状态(state, s):当前环境的一个客观描述
  • 观察(observation, o):当前环境的一个描述,可能会漏掉部分信息
  • 策略(policy):决定下一步执行何种行动的规则
  • 回报(reward):某种状态进行某种动作产生的真值
  • 轨迹(trajectory):包含状态动作回报的一个链
  • 返回值(return):一个轨迹的所有回报的总和

你可能感兴趣的:(强化学习,机器学习)