【Reinforcement Learning】--- 初窥强化学习

一. 前言

通常将强化学习简称RL

强化学习用于对特定的评估方法进行特定的模型改进以期望在该评估方法下可以表现得更加完美

二. 概念:

  • 通过不断地尝试和犯错来确定哪些功能会带来最大的reward
  • 是在尝试的过程种学习如何在特点的情境下选择某种行动才能获得最大的回报(reward)

三. 特点:

  • 没有监督者,只有一个reward信号,而信号的反馈是延迟的,非立刻生成
  • RL采用的是边获得样例边学习的方法,由获得的样例来跟从自己的模型,然后根据更新后的模型来指示下一步的行动,下一步的行动执行完毕会获得reward之后再更新模型,通过不断地迭代重复直到模型收敛
    • 探索(exploration):选择之前未执行过的actions,从而探索出更多的可能性
    • 开发(exploitation):选择已执行过的actions,来对已知的actions的模型进行完善

四. 组成:

  • agent:是Learning(学习)/Decision(决策)的执行者
  • environment:表示agent所感兴趣的
  • action:表示agent为了感兴趣的事情所做的动作

五. 四个重要组件:

1. 规则(policy)

概念:
  • 定义agent在特定时间特定环境下的行为方式,可视为是从环境状态到行为的映射
  • 常用 π π π表示
种类:
  • Deterministic policy: a = π ( s ) a=\pi(s) a=π(s)
    • a a a:某个特定的action
    • s s s:某个特定的状态
  • Stochastic policy: π ( a ∣ s ) = P [ A t = a ∣ S t = t ] \pi(a|s)=P[A_t=a|S_t=t] π(as)=P[At=aSt=t]
    • t t t是时间点, t = 0 , 1 , 2 , . . . t=0,1,2,... t=0,1,2,...
    • S t ∈ S S_t \in S StS
      • S S S是环境状态的集合
      • S t S_t St t t t时刻的状态
    • A t ∈ A ( S t ) A_t \in A(S_t) AtA(St)
      • A ( S t ) A(S_t) A(St)是状态 S t S_t St决定下的action的集合
      • A t A_t At是时刻 t t t的行为

2. 奖励信号(Reward signal)

概念
  • 每个time step中的环境根据agent的行为会返回给agent一个Reward signal
  • Reward signal定义了该environment下执行该行为的好坏
  • 然后agent根据reward来调整自己的policy
  • 常用 R R R表示

3. 值函数(Value function)

概念
  • 是累计的reward,若reward定义的是即时收益,则value function定义的是长期收益
  • 常用 v v v表示

4. 环境模型(Environment model)

概念
  • 定义了整个agent和environment的交互的过程
【Reinforcement Learning】--- 初窥强化学习_第1张图片

六. 参考资料

[1]. https://blog.csdn.net/coffee_cream/article/details/57085729

你可能感兴趣的:(机器学习)