Deep Q Network 算法

 Deep Q Network 算法前置基础知识:

  • Reinforcement Learning 基本概念
  • Q Leaning算法原理
  • 深度学习神经网络知识
  • Tensorflow、Pytorch、Python
  • 概率论与数量统计、马尔可夫链、期望、方差

Q Leaning算法概述:

      Q Leaning算法 :在监督学习中,标签值y是一个固定的值,例如,输入一张图片,预测这张图片是一只猫,或者一只狗,y的标签是确定的。在强化学习Q Learning算法中,Q的目标值(maxQ(S',a) 是下一个状态的动作的最大值,洞察未来)是变化的,随着学习的迭代不断进行更新,Q的估计值(Q(S,A)是当前状态、动作的Q值,关注当下),Q的估计值按以下公式中的学习率、奖励、折扣因子、优势值(Q目标值减去Q估计值)进行更新。

Q Leaning算法的核心在于Q值表(状态、动作、Q值),前向从Q值表中根据状态选择动作,环境根据动作执行一步获得奖励、是否完成任务或掉坑、下一步的状态。反向:根据下一步的状态、动作按上述公式更新当前状态、动作的Q值表。不断迭代学习,最终更新整个Q learning的Q值表。

 Deep Q Network 算法概述:   

       Q Leaning算法的局限性在于静态的有限的Q值表,Q值表中的状态、动作的记录条数固定;设想一下5G自动驾驶的场景,从环境中观测的图片表示一个状态,输入图片是一个高维空间,输入的可能是无数个状态,每个状态有相应的动作,静态的Q值表已不能实现,因此,通过深度学习神经网络来拟合Q值表的状态动

你可能感兴趣的:(AI,&,Big,Data案例实战课程)