机器学习基础 之 强化学习

文章目录

  • 任务与奖赏
  • k-摇臂赌博机
  • 有模型学习
  • 免模型学习
  • 值函数近似
  • 模仿学习

转自: https://www.zhenxiangsimple.com/2019/04/12/tech-ml-qhxx


  强化学习的原理,就是通过结果的反馈来对有效规则进行强化,并弱化无效或者较差的规则的一种学习原理。跟常规的监督学习不同之处在于,在学习器的训练前没有标记样本的结果,而需要通过尝试来得到各行为的结果,进而来对训练本身进行反馈。

任务与奖赏

  任务与奖赏是强化学习的一个基础概念,就是基于一个状态下通过执行某个动作(任务)使得状态发生改变,通过对改变后的状态进行对比来决定当前任务的好坏,如果状态变得更好则对任务进行奖赏。

k-摇臂赌博机

  K摇臂赌博机是一种由K个摇臂的赌博机,玩家在放入游戏币后可以选择一个摇臂进行操作,而所有摇臂本身有不同的概率来赢得奖励,具体摇臂本身出的奖赏也只是一个概率值并非确定值,玩家需要自己根据尝试的结果来判断概率后,去最大化自己的奖赏。这个规则跟强化学习中的单步任务的模型一致,即在行为中仅考虑单步操作的最大奖赏,常用策略有 ϵ \epsilon ϵ贪心算法和Softmax算法。
   e p s i l o n epsilon epsilon贪心法是以一定的概率进行随机尝试,即当随机值的大于概率 ϵ \epsilon ϵ则在k个摇臂中随机选择一个进行尝试,当随机值小于概率 ϵ \epsilon ϵ时选择已尝试的摇臂中最大平均奖励的那个,当k个摇臂的概率分布较宽即不确定性较大时,概率值 ϵ \epsilon ϵ需要选择较大值,反之亦然。Softmax算法利用已有的结果中各摇臂奖赏的概率进行摇臂的选择迭代,即如果各摇臂的奖赏概率相当,则选择各摇臂的概率相当,若某个摇臂的奖赏出现次数明显较大,则其被选中的概率也较大。

有模型学习

  有模型学习是指在已知一个模型的环境中进行学习。该方法基于一个初始的模型(通常是随机模型),首先进行模型评估(代入模型计算奖励),然后基于最大化奖励的目标对模型参数进行改进,再对改进的模型进行评估,进而再对模型进行改进,不断迭代直到模型收敛或者不再改变为止。

免模型学习

  尽管有模型学习的计算比较理想,但现实中环境的的转移概率和奖赏函数往往很难确定,甚至很难直到环境中的状态数,因此常有学习算法不依赖于环境建模,这类学习被称为免模型学习。

值函数近似

  前面描述的学习都是基于状态空间有限的情况下,而在有限的状态空间内值函数对应于一个由县委的数组,如果状态空间本身不是有限的,比如本身是连续的,则可以直接对连续状态空间的值函数进行学习,由于本身真实的值函数是未知的,因此对该类问题的求解称为值函数近似。

模仿学习

  强化学习的经典任务中,需要对多步决策后的累计奖励结果进行反馈计算,但这种基于累积奖赏对很多步之前的决策进行学习和判断,其计算量和搜索空间比较大,因此引入一种模仿学习的概念,即不止是对最终结果的累积奖赏进行分析,而是在过程中引入参考项进行模仿学习,这样的操作就类似于监督学习了,则可以直接使用其他监督学习的工具。

点击查看 (人工智能) 系列文章


你可能感兴趣的:(人工智能,人工智能技术,强化学习,任务与奖赏,机器学习)