第一章 绪论2

1.4 强化学习算法分类及发展趋势

一 分类

1.根据强化学习算法是否依赖模型 可分为:

基于模型的强化学习算法    、 ⽆模型的强化学习算法

共同点:通过与环境交互获得数据

不同点:利⽤数据的⽅式不同。

基于模型的强化学习算法利⽤与环境交互得到的数据学习系统或者环境模型,再基于模型进⾏序贯决策。

⽆模型的强化学习算法则是直接利⽤与环境交互获得的数据改善⾃⾝的⾏为。

比较:

⼀般来讲基于模型的强化学习算法效率要比无模型的强化学习算法效率更⾼;

⽆模型的强化学习算法不需要建模,所以和基于模型的强化学习算法相⽐,更具有通⽤性。

2.根据策略的更新和学习⽅法 可分为:

基于值函数的强化学习算法、基于直接策略搜索的强化学习算法、AC的⽅法

基于值函数的强化学习⽅法:指学习值函数,最终的策略根据值函数贪婪得到。也就是说,任意状态下,值函数最⼤的动作为当前最优策略

基于直接策略搜索的强化学习算法:⼀般是将策略参数化,学习实现⽬标的最优参数

基于AC的⽅法:联合使⽤值函数和直接策略搜索

3.根据环境返回的回报函数是否已知 可分为:

正向强化学习、逆向强化学习

正向强化学习:回报函数是⼈为指定的

逆向强化学习:回报⽆法⼈为指定

4.其他强化学习算法

分层强化学习、元强化学习、多智能体强化学习、关系强化学习和迁移强化学习等


二 趋势

强化学习的发展趋势

第⼀,强化学习算法与深度学习的结合会更加紧密

第⼆,强化学习算法与专业知识结合得将更加紧密

    把专业领域中的知识加⼊到强化学习算法中,没有统⼀的⽅法,⽽是根据每个专业的内容⽽变化。通常来说可以重塑回报函数,或修改⽹络结构

论文 :值迭代⽹络(Value Iteration Networks)  NIPS2016

第三,强化学习算法理论分析会更强,算法会更稳定和⾼效

第四,强化学习算法与脑科学、认知神经科学、记忆的联系会更紧密

    这个流派应该是以DeepMind 和伦敦⼤学学院为⾸

你可能感兴趣的:(第一章 绪论2)