<强化学习>基本概念

马尔可夫决策过程MDP,是强化学习的基础。

MDP ---

 

AGENT

STATE

ENV 

REWARD   ,agent处于状态s下,采取action之后离开状态获得一个reward。即f:S x A --->R

所有强化学习问题解决的目标都可以描述成最大化累积奖励。All goals can be described by the maximisation of expected cumulative reward。即我们的目标是最大化G

<强化学习>基本概念_第1张图片

 

ACTION     ,离散分布,或者连续分布。

POLICY     ,策略。 π :S x A --->[0,1] 

VALUE       ,有state value V(s)和state-action value Q(s,a)两种。

<强化学习>基本概念_第2张图片

 

History & Observation & State三个概念辩解:

  

  

 

你可能感兴趣的:(<强化学习>基本概念)