杂谈:机器学习之强化学习算法

  1. 马尔科夫决策过程Markov Decision Process(MDP)

  • 感谢马尔科夫,我们才能在状态之间游刃有余的切换:从状态s到状态s'我们不需要关心其他状态,只需要关心上一个状态。自然也就有了状态转移概率一说P(s'|s)。当然这里面又分为两种情况,就是挂在嘴边的有模型model-based和无模型mode-free。很显然,无模型,转移概率我们是要学习得来的。

  • 扰人的是,我从状态s转移到下一状态时,有时会有很多的继承状态,s1,s2,......。这便成了POMDP模型,即状态转移的不确定性。尽管不确定,这些概率之和还是确定的-----1。

2.     有了对MDP的认识,我们来把话题切到强化学习。

  • 在机器学习中主要有监督学习与非监督学习,它们的优缺点我就不赘述了。那么强化学习又是何方神圣。怎么个强化法,且小码农依依道来:

    1)我们小时后看到马戏团的狗尽然可以算加减法,鸽子也会走钢丝了,就差猪也会飞了(扯远了),这是如何做到的?其实啊,拿鸽子来说,每当鸽子走到钢丝尽头或者中间某时刻(可以设计)的时候,训练人员就会给它一些奖励,这些奖励的作用是让它“知道”,鸽子啊,你当才的动作是对的(或者是不错的,你要继续保持啊)。如此一来,鸽子无形之中就受到了暗示,我只要那样做,就有奖励(食物)吃。何乐而不为呢。如果你看懂了这段话,那么强化学习的通俗理解正是如此!好吧,还是专业点阐述一下^-^

    2)强化学习要素

  • 环境模型

  • Agent(也就是学习者)

  • 回报函数Reward Function(食物啦。。。。)

  • 策略

    来贴一张经典的图,来看看这些主要要素是怎么一个结构关系:

杂谈:机器学习之强化学习算法

  • Agent与环境一次完整的互动过程是这样的:根据Agent当前状态,选择了动作a,这时与环境发生了交互,Agent观测到下一个状态,并收到了一定的奖赏r(有好有坏)。

  • 如此反复的与环境进行交互,在一定条件下,Agent会学习到一个最优/次优的策略。是不是很神奇,完全是自主学习!!!

    3)经典的强化学习算法有TD算法,其实它是一个误差计算模型,比蒙特卡罗要好,因为它能在线计算!!!

  •  衍生出的一系列算法主要有:Q学习,SARSA。<---------------------向经典致敬!

    4)据说(不是据说,是事实),上面所说的强化学习是平坦式的Flat RL ,就是说处理状态空间的时候完全就是看做一张表。。。如果维数一上去,这状态得多大。。。。这就是维数灾难。。好歹大牛们又提出了分层强化学习,分层啊就是我找一找问题具不具有结构,层次。

 

----------------我觉得强化学习很有应用价值,因为它是最符合人类学习的模式。我在研究强化学习与机器人导航结合,欢迎知我者进行交流。

 

 

你可能感兴趣的:(算法,机器学习,强化学习)