专栏介绍:本栏目为 “2022春季中国科学院大学王亮老师的深度学习” 课程记录,这门课程与自然语言处理以及机器学习有部分知识点重合,重合的部分不再单独开博客记录了,有需要的读者可以移步 自然语言处理专栏和机器学习专栏。 如果感兴趣的话,就和我一起入门DL吧
2018-2019 学年第二学期期末试题
![【一起入门DeepLearning】中科院深度学习_期末复习题2018-2019第七题:强化学习_第1张图片](http://img.e-com-net.com/image/info8/4b6af0b2cafb4102a05837e6b34a8167.jpg)
强化学习五要素:
- S:状态
- A:动作
- R:(s a)的奖励值分布
- P:转移概率
- γ:折扣因子
适合解决该问题的强化学习算法:
- Actor-Critic算法:该算法由两个部分组成,Actor部分用于生成智能体与环境交互的动作,Critic部分用于对Actor产生的动作进行评价。
强化学习与监督学习和无监督学习的不同,参考:
- 有监督学习和无监督学习的特点是基于已有的数据,去学习数据的分布或蕴含的其他重要信息。
- 强化学习它不是基于已有的数据进行学习,而是针对一个环境进行学习;
- 另外,它的目标不是学习数据中蕴含的信息,而是寻找能够在环境中取得更多奖励的方法。
- 通俗地说,监督学习的目标只是“弄清楚环境是什么样的”,而强化学习的目标是“在这个环境中生活得更好”。
概括地说,强化学习算法主要涉及到两个组成部分:
- 其一是通过与环境交互产生大量的数据
- 其二是利用这些数据去求解最佳策略。