李宏毅教授强化学习sparse reward课程笔记总结

Sparse Reward

在实际生活中,reward通常都非常稀疏,只对某一特定行为有reward,而其余的exploration均为0,因此agent往往难以训练

 

Reward Shaping(参考莫烦)

区别于真实环境中的reward,设计一些reward来引导agent

 

引入curiosity

李宏毅教授强化学习sparse reward课程笔记总结_第1张图片

最原始的形式:估计和实际的相差越大则reward越大(Network1需要另外训练)->鼓励冒险

李宏毅教授强化学习sparse reward课程笔记总结_第2张图片

但无法预测的状态并不一定是好的

李宏毅教授强化学习sparse reward课程笔记总结_第3张图片

利用Feature Ext将无用的信息过滤,令agent知道什么是真正重要的

*Network2的输入是∅(st) 和∅(st+1) ,并预测at ,再将其与真正的at 进行比较,希望其越接近越好

 

Curriculum Learning规划学习:从易到难

Reverse Curriculum Generation:从最终目标开始采样相近的目标,筛去离最终目标reward太大或太小的目标,接着以这些目标为中心开始下一轮采样

 

Hierarchical Reinforcement Learning:多个agent,其中一些agent用于定目标,另一些agent用于实现

上次agent的输入是上一级的愿景,输出是下一级应该怎么做

如果下层agent做不到上一层的愿景,那么上层会得到惩罚

假设下层agent完成了另一个目标,那么就将上层愿景调整为该目标

你可能感兴趣的:(强化学习笔记,强化学习,笔记总结)