强化学习术语

episodic tasks 情节性任务,指会在有限步骤下结束

continuing tasks 连续性任务,指有无限步骤

episode 情节,指从起始状态(或者当前状态)到结束的所有步骤

tabular method 列表方法,指使用了数组或者表格存储每个状态(或者状态-行动)的信息(比如:其价值)

approximation methods 近似方法,指用一个函数来计算状态(或者状态-行动)的价值

model  环境的模型,可以模拟环境,模拟行动的结果 Dynamic Programming need a model

model-based methods 基于模型的方法,通过模型来模拟,可以模拟行动,获得状态或者行动的价值

model-free methods 无模型的方法,使用试错法(trial-and-error)来获得(状态或者行动)价值

bootstarpping 引导性 (状态或者行动)价值是根据其他的(状态或者行动)价值计算得到的

sampling 取样性  (状态或者行动)价值,或者部分值(比如:奖赏)是取样得到的。引导性和取样性并不是对立的,可以是取样的,并且是引导性的

planning method 计划性方法,需要一个模型,在模型里,可以获得状态价值,比如:动态规划

learning method 学习性方法,不需要模型,通过模拟(或者体验),来计算状态价值,比如:蒙特卡洛方法,时序差分方法

on-policy method  on-policy方法,评估的策略和优化的策略是同一个

off-policy method off-policy方法,评估的策略和优化的策略不是同一个,意味着优化策略使用来自外部的样本数据

predication algorithms 预测算法,计算每个状态的价值v(s),然后预测能得到最大回报的最优行动。

control algorithms 控制算法,计算每个状态下每个行动的价值q(s,a)

target policy 目标策略π,off-policy方法中需要优化的策略

behavior policy 行为策略μ,off-policy方法中提供样本数据的策略

importance sampling 行为策略μ的样本数据

importance sampling rate 由于目标策略π和行为策略μ不同,导致样本数据在使用上的加权值

ordinary importance sampling 无偏见的计算策略价值的方法

weighted importance sampling 有偏见的计算策略价值的方法

MSE(mean square error) 平均平法误差

MDP(markov decision process) 马尔科夫决策过程

the forward view 通过往前看,直到将来,根据其回报和状态来更新每一步的状态,

the backward or mechanistic view  根据current TD error集合上过往的有效跟踪(eligibility traces)来更新当下的有效跟踪

  e0 ≈ 0

  et ≈ ▽v^(St,θt) + γλet-1

你可能感兴趣的:(强化学习术语)