14. 深度Q网络

深度Q网络

  • 14.1 用深度强化学习玩雅达利
    • 14.1.1 介绍
    • 14.1.2 背景
    • 14.1.3 相关工作
    • 14.1.4 深度强化学习
      • 1. 预处理和模型架构
    • 14.1.5 实验
  • 14.2 通过深度强化学习进行的人级控制
    • 14.2.1 深度Q 网络算法和实验
      • 1. 算法
      • 2. 实验
      • 3. 总结
    • 14.2.2 深度Q 网络方法
      • 1. 预处理

14.1 用深度强化学习玩雅达利

我们提出了第一个深度学习模型,使用强化学习成功地学习了直接从高维感官输入的控制策略。该模型是一个卷积神经网络,用Q学习的一个变体进行训练,其输入是原始像素,其输出是一个估计未来奖励的值函数。我们将我们的方法应用于来自Arcade学习环境中的7款雅达利2

你可能感兴趣的:(强化学习与多智能体,网络,深度学习,人工智能)