强化学习基本概念及与监督学习的区别

强化学习 研究的是智能体agent与环境之间交互的任务,也就是让agent像人类一样通过试错,不断地学习在不同的环境下做出最优的动作,而不是有监督地直接告诉agent在什么环境下应该做出什么动作。在这里我们需要引入回报(reward)这个概念,回报是执行一个动作或一系列动作后得到的奖励,比如在游戏超级玛丽中,向上跳可以获得一个金币,也就是回报值为1,而不跳时回报就是0。回报又分为立即回报和长期回报,立即回报指的是执行当前动作后能立刻获得的奖励,但很多时候我们执行一个动作后并不能立即得到回报,而是在游戏结束时才能返回一个回报值,这就是长期回报。强化学习唯一的准则就是学习通过一序列的最优动作,获得最大的长期回报。比较有挑战性的是,任一状态下做出的动作不仅影响当前状态的立即回报,而且也会影响到下一个状态,因此也就会影响整个执行过程的回报。

强化学习 是一个连续决策的过程,传统的机器学习中的有监督学习是给定标签但有时候,并不知道标签是什么,即一开始不知道什么是“好”的结果,所以RL不是给定标签,而是给一个回报函数,这个回报函数决定当前状态得到什么样的结果(“好”还是“坏”),其数学实质是一个马尔可夫决策过程。最终的目的是决策过程中回报函数期望最优。

这个过程有点像有监督学习,只是标签不是预先准备好的,而是通过一个过程来回的调整并给出标签,这个过程就是强化学习。


强化学习和监督学习的区别主要有以下两点:

  1. 强化学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。
  2. 延迟回报,强化学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。

大家加油!

你可能感兴趣的:(强化学习,强化学习,监督学习)