深度强化学习(1) 什么是深度强化学习?

本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning


强化学习

一般来说机器学习模式可以分为三类:

  • 有监督学习: Supervised Learning
  • 无监督学习: Unsupervised Learning
  • 强化学习: Reinforcement Learning
image.png

强化学习与其他两种机器学习模式差距很大, 解决的问题也有很大不同。由于强化学习涉及概念比较多, 而且训练比较难, 所以在一般的机器学习书籍中, 都不会涉及强化学习, 而是由专门的书籍介绍。

有监督学习和无监督的学习的输出一般都是确定性的答案, 比如: 模型会给出数据归属于哪一个类型, 或者给出一个数值型的预测结果。 而强化学习的目标是训练一个 agent, 这个agent 会根据环境反馈, 输出一系列决策, 而不是只输出一个结果。 相比其他两种模型, 强化学习模型更加类似人类大脑, 可以根据环境, 不断的做出决策。

RL

深度强化学习 是把深度学习中的神经网络引入强化学习后得到的模型。

强化学习的应用大家其实并不陌生, 一下都是一些很有名的应用。

玩游戏

AlphaStar : 强化学习玩《星际争霸2》

AlphaStar
棋类游戏

最有名的就是击败了人类围棋高手的 AlphaGo

AlphaGo
自动驾驶

自动驾驶是司机(agent)在环境(道路)的反馈下, 做出一系列决策的过程。这个过程非常符合强化学习模型的决策过程。

自动驾驶
工业自动化

强化学习可以用来控制生产线上的各种工业机器人的活动。

机器人控制
自动化金融交易

金融交易其实也是基于金融市场的一系列的决策过程, 很符合强化学习的范式。 目前这个领域已经有了大量的研究成果。

自动化金融交易
自然语言处理 (Natural Language Processing, NLP)

由于语言资料也可以视为时序数据, 因此我们也可以用强化学习来解决 NLP中的问题。

image.png

相关研究文章

医疗决策

强化学习可以用来优化治疗手段, 这类研究被归为 dynamic treatment regimes (DTRs) 问题。

image.png
工业生产线

Meta 开发了 Horizon,一个开源的强化学习平台,用来提升大规模生产线的效率。 Horizon: The first open source reinforcement learning platform for large-scale products and services

推荐系统

由于强化学习可以对环境的变化做出很好的反馈, 所以相比较传统推荐系统, 基于强化学习的推荐系统可以更快的适应用户兴趣点的变化。

image.png
实时竞价

在线广告系统每秒中都会做出大量的决策, 强化学习可以帮助在线广告系统在短时间内快速的做出决策。


参考资料:

  • 10 Real-Life Applications of Reinforcement Learning
  • CS285: Deep Reinforcement Learning 01
  • Reinforcement Learning 101
  • Reinforcement Learning: The Business Use Case, Part 2
  • Awesome RL NLP
  • Reinforcement Learning in Healthcare: A Survey
  • Horizon: The first open source reinforcement learning platform for large-scale products and services

你可能感兴趣的:(深度强化学习(1) 什么是深度强化学习?)