【强化学习】基础知识

强化学习基础

基本元素:

  • Agent/Actor(智能体):
    可以采取Action的智能个体
    目标:最大化Reward的期望
  • State(状态)
    Agent所处的具体即时状态
  • Action(行动)
    Agent可以采取的行动的集
  • Reward(奖励)
    是衡量智能体行动成败的反馈,由Environment给出
  • Environment(环境)
    将Agent当前state下的action作为输入,输出是reward和下一步的state(类似于神经网络中映射函数的作用)
  • Policy(策略)
    基于当前状态作出下一步行动所用的策略
  • Value(价值)
    期望的长期收益

强化学习过程描述:
Actor通过过去一系列的positive reward和negative reward来学习可以使reward最大化的一系列action

特点

  • Actor与Environment的互动会影响学习的成果:试错学习(trail-and-error)
  • Reward delay(延迟回报)
    RL往往是在最后一个状态才给出整体的Reward,这就导致了一个问题:获得正回报或负回报以后,如何将回报分配给前面的状态。

类型

Model-free and Model-based
Model指的是环境的动态模拟,即模型学习从当前状态和动作到下一个状态的转移概率。Model-free算法依赖试错来更新知识。因此不需要空间来存储所有状态和动作的组合

Model-free

经典算法
Policy-based(PPO)
Value-based(Q-learning)
Actor+Critic(A3C)

Policy-based:

过程:
- 1.定义一系列函数,可以用神经网络作为一个Actor。
- 2.评价函数的效果(goodness)(公式)对所有动作的奖励总和求平均,利用梯度上升策略,目标是最大化reward
- 3. 选取最好的函数。

Value-based:

To Do

你可能感兴趣的:(【强化学习】基础知识)