(RL强化学习)强化学习基础知识

文章目录

  • Basic Components
    • Actor
    • Critic
      • 网络训练
      • Q-learning
    • Actor + Critic
      • A2C Advantage Actor-Critic
      • A3C Asynchtonous Advantage Actor-Critic
  • Back propagation
  • Inverse RL
  • Policy Gradient
    • Policy
    • Example
    • Gradient

Basic Components

  • 以Video Game为例

    • Actor:遥杆

    • Env:游戏界面

    • Reward Function:杀一个怪得20分

(RL强化学习)强化学习基础知识_第1张图片

Actor

  • 一个神经网络

  • 输入游戏画面 输出action
    (RL强化学习)强化学习基础知识_第2张图片

Critic

  • 给定一个actor的一个observation

  • Critic给出从现在到结束的reward的概率

  • Critic衡量Actor的好坏 但不决定action

  • example:打怪游戏:当当前的observation里面还很多怪 那给出的reward 概率就会高

    当当前的observation剩一点点怪 那么reward就低 因为到游戏结束也不会获得很高的分数
    (RL强化学习)强化学习基础知识_第3张图片

    网络训练

    • MC

      • 给定一个state 得到这个state开始到游戏结束的reward G
      • 然后将这个state输入到Vπ 得到的值跟G越接近越好
        (RL强化学习)强化学习基础知识_第4张图片
    • TD

      • 给定相邻的两个state分别送进去网络
      • 得到的差值越接近这个state后actor的得到的reward越好
        (RL强化学习)强化学习基础知识_第5张图片

    Q-learning

    • Q function

      • 给定state 和 action

      • 给出这个state采取这个action的reward

      • 只适用于离散的action

(RL强化学习)强化学习基础知识_第6张图片

  • 迭代过程

    • 给定一个actor π

    • 给出 state action 算出Q-value

    • 通过TD/MC更新Q function

    • 得到一个更好的actor π1

    • π1替换π
      (RL强化学习)强化学习基础知识_第7张图片

Actor + Critic

  • 仅仅actor会根据当前observation得到一个reward 但这样子做随机性会很大
  • 故提出AC Critic指导Actor的行动

A2C Advantage Actor-Critic

(RL强化学习)强化学习基础知识_第8张图片

A3C Asynchtonous Advantage Actor-Critic

  • 有一个global actor 和 critic
  • 建立一些分身进行跟环境互动 平行运算
  • 反馈参数到global

(RL强化学习)强化学习基础知识_第9张图片

Back propagation

  • 为了maximize R(涛) 需要反向传播到Reward,Env ,Actor
  • 但是Reward,Env并不是网络
  • 所以需要用Policy Gradient去实现反向传播
    (RL强化学习)强化学习基础知识_第10张图片

Inverse RL

  • 很多时候并不知道reward function
  • 需要一个跟环境互动过的专家Expert反推 reward function
  • 使用reward function 找到最好的Actor

(RL强化学习)强化学习基础知识_第11张图片

  • 具体流程
    (RL强化学习)强化学习基础知识_第12张图片
    (RL强化学习)强化学习基础知识_第13张图片

Policy Gradient

Policy

  • 输入一个代表observation的矩阵或者向量

  • 输出端每一个action对应输出层的一个神经元
    (RL强化学习)强化学习基础知识_第14张图片

Example

  • Actor 得到 S1 放入 Policy
  • 得到概率最高的action a1
  • 采取action后获得这个action的reward r1

(RL强化学习)强化学习基础知识_第15张图片

  • 一直循环直到游戏结束 整个过程称为一个episode 所有reward的总和称为total reward

  • Actor的目的就是让total reward最大化
    (RL强化学习)强化学习基础知识_第16张图片

  • (s1,a1,s2,a2…)的集合称为trajectory

  • 可以计算这个trajectory的概率
    (RL强化学习)强化学习基础知识_第17张图片

  • Expected Reward

    • sample 一个 trajectory 乘上这个trajectory的total reward

    • sample所有的trajectory 并以total reward为权值加权起来就是 Expected Reward
      (RL强化学习)强化学习基础知识_第18张图片

    Gradient

  • 目标是maximinze Expected Reward

  • gradient计算公式
    (RL强化学习)强化学习基础知识_第19张图片

  • 具体流程
    (RL强化学习)强化学习基础知识_第20张图片

你可能感兴趣的:(强化学习,深度学习,计算机视觉,机器学习)