强化学习1

强化学习 -1

  • 强化学习基本概念
      • AGENT
      • VALUE
      • ACTION
      • POLICY
      • STATE
      • MODEL
      • MDP
      • EXPLORE 与 EXPLOIT

强化学习基本概念

这是第一篇强化学习的学习笔记,会覆盖几个基本的概念。

AGENT

程序本身,接受环境的信号,作出行动,影响环境,形成一个闭环。

VALUE

价值函数,通过VALUE来评估哪一些状态和动作是好的,选择那些能够提高VALUE的动作和状态。

ACTION

动作,当AGENT观察到环境的状态后,可以作出一些行动去影响环境,比如自动驾驶的汽车看到路面的标识作出判定是加速还是减速,拐弯或是保持。

POLICY

策略,是AGENT根据当前的状态按照一定的几率选择动作的方案,通常是一个基于状态的几率矩阵。

STATE

状态,是AGENT对当前环境所有情况的一种概况和总结,围棋中的每一步棋的局面对应一种状态。

MODEL

模型,AGENT认知世界的一种模型,这种模型通常是人类去建立的,可能是一种高斯合作线性模型,属于人类先验的知识的设置,AGENT训练的是模型中的参数。

MDP

马尔科夫决策过程,表示下一刻的状态只和当前的状态相关,和过往的历史完全没有关系,表示过往的历史知识所有都表征在当前这个状态中了,比如棋盘中,下一刻的落子和当前的棋局相关,和上一步怎么走的没什么关联。

EXPLORE 与 EXPLOIT

探索,在AGENT选择动作的策略时,可以一直去选择最优的动作,也可以增加一点随机性,比如中午吃饭,可以选择一直吃的中最好吃的一家,这就是EXPLOIT,也可以随机选择一家从未吃过的,这就是EXPLORE。

你可能感兴趣的:(RL,RL)