强化学习第2课:强化学习,监督式学习,非监督式学习的区别

强化学习第2课:强化学习,监督式学习,非监督式学习的区别_第1张图片

图片来源

现在让我们看一下强化学习和其他机器学习方法的对比。

强化学习第2课:强化学习,监督式学习,非监督式学习的区别_第2张图片

监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。

监督学习还有一个很重要的特点,就是它的数据要满足独立性。这对于使用SGD等算法,需要对数据进行采样时非常重要。

而在强化学习中却没有这些假设条件:
我们没有数据集,但是我们有一个系统,可以从中取样数据
我们也没有想要得到的结果标签,因为没有专家告诉我们要做什么。

不过我们可以自己尝试,通过采取一些行动,会有一个评判标准给我们正面或者负面的反馈
例如在广告点击率这个问题中,我们得到的反馈就可以是用户点击网页后我们得到的钱。

而且不管我们用什么算法,都应该把所有可能的行为都探索一下,以免我们错过了一个最优的方法,甚至从来没有学习过这个方法。

强化学习另一个问题是 agent。
agent 的观察会影响他的决策,他的决策也影响了他的观察
例如想让他学习骑自行车,如果每次总是向左转,那么就没有办法获得向右转的数据点。

同时还需要非常细心的去探索状态的空间,不然的话就会对问题有错误的解读,无法掌握问题的全局和完整性。


强化学习第2课:强化学习,监督式学习,非监督式学习的区别_第3张图片

非监督式学习也和强化学习有很大的不同。

虽然都没有专家告诉我们答案,但是非监督式学习在做不一样的事情。

它并没有像强化学习那样去学习一个优化的策略,而是尝试去描述数据,
尝试去寻找一些隐藏的结构,和寻找一个策略是不同的。
就相当于学会如何骑自行车要比懂得自行车的结构简单的多。


强化学习第2课:强化学习,监督式学习,非监督式学习的区别_第4张图片

虽然说了几点强化学习和监督式学习,非监督式学习之间的区别,
但在解决实际问题时,你会发现它们会混合起来使用,比如说在强化学习中会使用一些监督式学习或非监督式学习。


学习资料:
Practical Reinforcement Learning


推荐阅读
历史技术博文链接汇总
也许可以找到你想要的:
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]


Hello World !
This is 不会停的蜗牛 Alice !
? 要开始连载强化学习系列啦!
今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

你可能感兴趣的:(强化学习)