[强化学习导论阅读笔记-1]什么是强化学习

扯淡:

平时学算法都是碎片化的学习,基本上都是看看博客,知乎和论文(博客和知乎看的最多),提升是有的,但是总觉得缺点什么,可能是缺少完整的知识体系。毕业本来想搞嵌入式的,因为会点AI小知识,分到了AI实验室。在这里跟许多优秀的人在一起,耳濡目染,潜移默化就get不少新的思路。业务上是一直帮产品线爸爸搞解单、拉通、验收、清洗和路测,相当辛苦,但是有机会接触新的论文,还能线上听很多专家学者的讲座,这让我很满足。对年轻人来讲,成长最重要,要看长远一些,看可以学到什么,在一个地方有没有发展的机会。工作后成长很快,但知识不够全面也不够深,买了一摞书,每天下班后开始看书。其中有一本书就像吃老干妈就米饭那么让人有食欲,让我对视觉感知体系更清晰了,阅读后就去github上学习代码工程,这是我在工作一年进步最快阶段。站在巨人的肩膀上才能看的更远。叮嘱自己要养成看书和看论文的习惯,但是书读一遍基本没太深的印象,记不住,就反复看。想通过写博客和笔记的方式帮助自己梳理学习思路。

本次分享书籍是强化学习经典书籍《REinforcement Learning An introduction》,由Richard S.Sutton和Andrew G.Barto两位大牛而写,现在已经出到了第二版。同时参考了郭宪博士的《深入浅出强化学习原理入门》,有些是自己理解部分,有些事直接摘抄精彩的部分,本博客主要用于学习,交流。如有侵权,及时删除。

导语:

AI近几年像风口上的猪,不因为风大,而是这个猪的确强,自己凭借仙气腾空而飞的。AI在慢慢走入生活的角落,无孔不入,人脸识别、无人驾驶、购物推荐到处都是AI的应用。拉屎都有AI的影子,有的马桶公司都用AI识别大便判定健康状况。

AI圈子不但大,而且乱,平时大家经常听到的神经网络、深度学习,都是“有监督学习”家族的大明星。今天主要介绍AI中的“葬爱”家族--“强化学习”,“葬爱”家族扛把子阿尔法狗名不虚传,打败李世石后名扬四海。昔日“葬爱”家族不再沉默,埋葬多年的爱被DeepMind 和OpenAI用铁锹挖出来了。高手出场总要搞点事来确定江湖的地位,采取合纵连横策略,紧跟武林盟主“深度学习”大哥,强强联手研究出DQN系列武林秘籍,打爆小霸王学习机所有的游戏。DOAT、星际、王者荣耀、英雄联盟这么牛B的游戏都被“葬爱”行云流水般的Action疯狂蹂躏。崛起的势力总是不甘于寂寞,联合“GAN”家族也在AI江湖搞出不少腥风血雨事,比如GAIL(Generative adversarial imitation learning)。但是强者也有强者苦,“葬爱”虽然在发型、battle和舞步方面独树一帜。但是江湖里都总觉它是二流子(只能在游戏世界玩),远远比不上是他们圈子里的“有监督学习”家族,人家门下CV,NLP人才辈出,遍布江湖。“葬爱”家族也是有骨气,一直努力走向现实,不能只停留在GAME里面,不然会各路好汉耻笑。真正的春天不是一枝独秀,而是百花齐放。就像AI江湖,也不是一个家族和门派就撑起来的,也不能只有感知,而没有决策。

[强化学习导论阅读笔记-1]什么是强化学习_第1张图片

图1 “葬爱”家族炫酷舞步

强化学习是机器学习的一个重要分支,强化学习能干什么呢,大家先看一下B站视频

《比深度学习还“恐怖”的技术是什么?有请“强化学习”登场》

比深度学习还“恐怖”的技术是什么?有请“强化学习”登场!_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com[强化学习导论阅读笔记-1]什么是强化学习_第2张图片

人成长过程一直不断的和环境交互,通过交互的反馈不断学习和积累经验。婴儿在没有指引和教导情况下,就会通过一些运动与外部环境交互产生联系,来认知这个世界。我们在做事的时候都能感受到外界环境对我们的响应,同事我们也会根据实际情况施加以写动作来影响结果。举个例子,冬天人靠火炉太近的时候会觉得太热,扛不住,这就是敏锐地感受到火炉对你靠近的行为的响应,这时候你对火炉做一个动作,走两步距离炉子远一些,这样温度适宜,你的感觉就舒服了。在交互中学习是几乎所有学习和智能体理论的基本思想。

[强化学习导论阅读笔记-1]什么是强化学习_第3张图片

1.强化学习

主要研究如何根据当前状况采取相应的行动使得数值化的收益最大。强化学习具有试错和延迟收益两个特征。智能体在不会被告知采取设么样的动作,必须自己通过不断的尝试去发现哪些动作会产生比较多的收益。当前的动作不仅会影响当前的收益,而且会影下一步的收益。具有学习能力的智能体 必须具备能够感知环境状态的能力,同时会根据环境的状态采取对应的行动来影响环境,也要有与环境有关状态相关的一个或者多个目标。马尔科夫决策的过程包括三个重要环节“感知”、“动作”、“目标。适用于解决此类问题的方法就是强化学习的方法。

机器学习包括有监督学习、无监督学习和强化学习,其中有监督学习应用比较广泛。有监督学习通过数据的标签(label)进行学习,学习数据的分布特征,系统根据当前的情景输出正确标签(动作行为)。有监督 学习让系统具备推断和泛化能力,根据不同的场景输出正确动作,即使这个场景没有学习过(没在训练集中出现过),但是无法从交互中学习。在交互中我们无法获取所有场景的下正确动作的标签。在未知领域探索,如果想获取最大收益,智能体需要从自身经验中学习。

[强化学习导论阅读笔记-1]什么是强化学习_第4张图片

图片来之 知乎用户 MOMO (侵删)

无监督学习是在没有标签的数据中寻找数据的结构特征,不依赖每个样本的标注。有人说机器学习的范式可以根据是否有标注,分为有监督学习和无监督学习,可以把强化学习归类到无监督学习 ,但是强化学习是目的是最大化收益,而非去寻找数据中的隐含结构和特征。

强化学习需要在“试探”和“开发”之间做一个平衡的选择。为了获取最大收益,智能会选择过去经验中那些产生过收益的动作,为了发现这些动作,智能体需要去尝试一下以前没有选择过得动作。智能体面临一个挑战,既要在以前的经验上开发来获取收益,同事也进行试探,寻找未来更好的动作空间。

你可能感兴趣的:(强化学习)