【强化学习】(一)RL基本概念

目录

    • 预备知识
      • 数学相关
    • 相关概念
      • Return
      • Value Function 价值函数
      • RL随机性的两个来源
    • Example
    • GYM

入门学习资料,莫烦Python RL系列,王树森深度强化学习

预备知识

数学相关

  • 概率密度函数(PDF)

    随机变量在某个确定的取值点附近的可能性的函数
    性质:将随机变量X所有的可能的取值都算上,连续性则求导,离散型则求和,结果都为1

  • 期望

    是试验中每次可能结果的概率乘以其结果的总和

  • 随机抽样

相关概念

  • state:状态
  • action:行为
  • agent :智能体,实施行为的对象,玩家
  • policy : 策略,根据state,作出相应的决策,控制agent的行为。policy函数是强化学习的学习目的
    【强化学习】(一)RL基本概念_第1张图片
  • reward:奖励,学习目标,获得的奖励尽量要高
  • state transition:状态转移,也是一个概率密度函数,因为环境的变化也存在随机性,所以状态的转移是随机的。在当前的状态为s,动作为a的条件下,状态变成s’的概率。这个函数只有环境自己知道,玩家不知道、
    在这里插入图片描述

Return

  • Return: cumulative future reward 未来累积奖励
    从t时刻开始,agent获得的奖励之和,一直到游戏结束
    【强化学习】(一)RL基本概念_第2张图片

  • Discounted return: 折扣回报
    根据经验分析,认为未来的奖励没有现在的奖励更有价值,所以建模return的时候,根据时刻t的不同,给未来不同时刻的奖励赋予不同的权重,于是折扣回报就成了未来奖励的加权求和。其中γ是一个超参数,需要自己调整。
    【强化学习】(一)RL基本概念_第3张图片

  • Return 也是一个随机变量,因为和R有关。
    Ri , 取决于Si,Ai,S,A都是随机变量。
    所以Return Ut和未来所有的状态S与所有的状态A都有关系。

Value Function 价值函数

  • Action-Value Function:对随机变量Ut求期望,将除了当前的t时刻的状态和动作通过积分变为常量(???),生成Qπ,Qπ, 依赖于(St,At)
    【强化学习】(一)RL基本概念_第4张图片
    动作价值函数Qπ的意义: 在当前状态下,Qπ能够给所有的动作a打分,对动作进行评价。

  • Optimal action-value function:Q 最优动作价值函数
    Qπ 动作价值函数,不仅与当前状态和采取行为有关,也和策略函数π有关,因为在积分计算中通过π将除了t时刻以外的action消掉了。
    将π去掉的方法:选择能够使得Qπ最大化的策略函数π,表示我们的要选择当前让动作价值最大的、最好的策略函数。
    agent根据Q,选择最优策略

  • State-value function:Vπ,与π和s有关,是Qπ 对A求期望
    Vπ 告诉我们当前的局势如何
    【强化学习】(一)RL基本概念_第5张图片

  • 总结。。。好好体会 【强化学习】(一)RL基本概念_第6张图片

RL随机性的两个来源

  1. agent 的 action 具有随机性。因为动作是根据策略函数,随机抽样得到。策略函数,用π标识
  2. 状态的转移具有随机性,下一个状态是环境根据概率密度函数随机抽样得到。状态转移函数,用p标识
    【强化学习】(一)RL基本概念_第7张图片

Example

用例子理解概念
游戏——超级玛丽

  • agent:智能体,游戏的主人公玛丽
  • Environment:环境,玛丽所处的游戏世界
  • State,Action,Reward,三个变量和时间有关,State是当前屏幕显示的游戏画面;Action是玛丽可以采取的行为;Reward是在当前状态下、采取了特定行为后,获得的奖励(比如玛丽吃到了硬币,或者玛丽取得了游戏胜利)
  • 策略函数
  • 状态转移函数
  • Return Ut
  • Action-value function
  • Optimal action-value function
  • State-value function

GYM

OpenAI Gym 是一个工具包,提供了广泛的模拟环境.
官网link

你可能感兴趣的:(强化学习,人工智能)