[强化学习]易混知识勘误_from李宏毅P5——Sparse Reward的解决方法(目标太难怎么办)

本文以这篇文章为纲,以问答的形式对其进行补足。

知识勘误其他笔记链接

易混知识勘误_from李宏毅P1-----Policy Gradient

易混知识勘误_from李宏毅P2——PPO\Off-policy\On-policy

易混知识勘误_from李宏毅P3——Q_Learning

易混知识勘误_from李宏毅P4——Actor-Critic/A3C

易混知识勘误_from李宏毅P5——Sparse Reward的解决方法(目标太难怎么办)

易混知识勘误_from李宏毅P6——Imitation Learning 模仿式学习


目录

1.什么叫reward的分布非常分散(sparse,这里其实翻译成稀疏更恰当)?

2.ICM的两个Network,分别是干啥用的?

3.Curriculum Learning的理念就是,从缩小后的动作空间开始,逐渐扩大动作空间

4.Hierarchical Reinforcement Learning(级联强化学习)中的层是什么玩意

5.Hierarchical Reinforcement Learning的理念就是,把困难的目标拆分,拆成多个可能完成的目标然后叫agent去执行

1.什么叫reward的分布非常分散(sparse,这里其实翻译成稀疏更恰当)?

是这样,agent的动作空间很大,但是只有极个别的动作可以获得reward,也就是说在对于最初的大部分动作,它的reward都是0,这样一来agent在最初的许多步可能是根本无法进行学习的。比如:你期望机器人用扳手起钉子,但是机器人最开始只会随机的乱动,到底要乱动到什么时候才能拿起扳手获得第一个reward,这太玄了。

2.ICM的两个Network,分别是干啥用的?

第一个,接收当前的动作和状态,输出对下一个状态的预测,架构中将比较真实的下一状态和预测的下一状态,若其不同给大的reward。所以说第一个Network单纯的是用来预测下一状态的,而后面的架构说明,算法鼓励agent做出不可预测的动作。

第二个Network,接收当前状态的特征和下一状态的特征(啥特征现在不知道),输出预测的当前的动作,若预测的当前的动作和实际的当前的动作差别小则给大的reward。就是希望输入(作动作前后的状态的特征)是和当前动作是相关的。为什么状态和动作是不相关的呢?因为环境有时候会有很多随机性(比如风吹草动等),而这些也会导致Network所鼓励的不可预测,通过提取与动作相关的特征,就可以把这些无聊的东西滤掉。

3.Curriculum Learning的理念就是,从缩小后的动作空间开始,逐渐扩大动作空间

4.Hierarchical Reinforcement Learning(级联强化学习)中的层是什么玩意

首先,这个层是对agent的划分,依据是agent的任务的level(可以理解成前瞻性/抽象性),比如:最高级level是写论文;次一级是做实验,写,发表;再次一级是收集数据、标记babel、等。

其次要注意,上层与下层的关系是:上层将自己的任务拆分并下发给下层去做,这里要注意拆分后的任务下层agent需要可以完成;

5.Hierarchical Reinforcement Learning的理念就是,把困难的目标拆分,拆成多个可能完成的目标然后叫agent去执行

 

你可能感兴趣的:(强化学习)