强化学习 —— (5)Sparse Reward

1. Reward 问题

通常情况下,agent每一步操作有一个reward对应,但是,当reward非常稀疏时怎么办,可能三四步甚至更多才能产生reward。

1.2. reward shaping

环境有一个固定的reward,为了引导agent,需要我们自己设计规则制定reward。在设计类游戏中,人为指定的规则为:
强化学习 —— (5)Sparse Reward_第1张图片

1.2.1 增加好奇模块

强化学习 —— (5)Sparse Reward_第2张图片
强化学习 —— (5)Sparse Reward_第3张图片
在Intrinsic Curiosity Module中,输入三个值: a t , s t , s t + 1 a_t, s_t, s_{t+1} at,st,st+1,如果 s ^ t + 1 \hat{s}_{t+1} s^t+1 s t + 1 s_{t+1} st+1相差越大,则得到的奖励越大,鼓励agent采取不同的行为。

当然,为了保证每一个探索的action都是重要的,所以另外需要Feature Ext从state中抽取的特征,利用这个特征来对探索的action是否重要进行评估。
强化学习 —— (5)Sparse Reward_第4张图片

1.3. Curriculum Learning

强化学习 —— (5)Sparse Reward_第5张图片

2. Imitation learning

没有办法从环境中得到reward怎么办?

2.1 Behavior Cloning

将问题变成一个监督学习的问题,从现有的“专家”系统中学习action。
强化学习 —— (5)Sparse Reward_第6张图片

但是这个可能会有个问题,agent不知道极端情况下该怎么执行action,相当于没有负样本的情况。

2.2 Inverse Reinforcement Learning

强化学习 —— (5)Sparse Reward_第7张图片
默认experts是最佳的,设计一个reward funtion,计算结果永远要好于agent。

强化学习 —— (5)Sparse Reward_第8张图片

你可能感兴趣的:(强化学习)