参考链接:强化学习系列(一):强化学习简介
感谢原博宝贵的学习资料!
1.RL描述的是一个与环境交互的学习过程
2.以人开车为例,分析agent、environment、action、state、reward。其中,reward指导agent的action。
(1)监督学习:学习的数据都有labels。常用于回归、分类问题。
(2)无监督学习:学习的数据都没有labels,通过学习无标签的数据探索数据的特性。常用于聚类。
labels是在学习前就已存在于数据中;reward是在当前时刻t的状态st下,执行了相应的动作at,才会在下一时刻(t+1时刻)获得一个对t时刻的reward Rt+1。就好像有延迟一样。
reward是一种延迟奖励的机制。
有些action通过对环境的state影响,可以影响到好多步之后的rewar。RL的目标是最大化reward之和,而不是单步reward。
介绍除了reward外其他几个组成部分是如何影响RL工作的
注意到agent收到的是t-1时刻environment更新的Ot,environment在t时刻更新的是下一个时间t+1时刻的Ot+1。reward同observation。
(1)state是用来决定下一步做什么的信息量。将state看做history的函数
则St=f(Ht)。
(2)state分为environment state、agent state、information state。其中agent state是RL算法直接采用的信息,可表示为历史的任意函数,Sat=f(Ht) 。information state包括历史数据中所有有用的信息,如果state满足Markov条件,则下一时刻状态完全由当前时刻决定。
(3)environment分为可完全观测环境(Fully Observation Environment)和部分可观测环境(Partially Observation Environment)。
- 当fully observation,有如下特点:
- 当partly observation,有如下特点:
(1)agent的行为准则,对应着action和state之间的关系
(2)种类
(1)how good is each state and/ or action
(2)RL的目标是reward之和最大化,但reward之和不能简单计算,需要用一个value function估计,后续详细讲
根据包不包含policy和value function,分类
根据是否建模,分类
个人理解:exploration是不断探索新的领域,扩展state(state包含了历史数据),通过action完成。exploitation是在已搜索到的state中开发出reward最大的action。