强化学习笔记一(周博磊)

课程链接
github
知乎
推荐书籍

1.强化学习的问题

Trial-and-error exploration
Delayed reward
Time matters (sequential data, non i.i.d data)
Agent’s actions affect the subsequent data it receives (agent’s action changes the environment)

2.深度强化学习

在deep learning之前,传统CV往往是先提取特征,再训练分类器。RL遇到高维状态也是这样。有了DRL,可以构造一个端到端的模型,同时完成特征提取和“分类”。看了一些value based paper,感觉这类DRL更像是利用强化学习来构造标签,利用神经网络来学习。而policy based DRL更像是在普通分类问题上加了一个Reward作为更新步长的refine。

你可能感兴趣的:(强化学习(周博磊),人工智能,深度学习)