机器学习之路路阻且长,在我从本科到研究生期间也见过很多机器学习的算法,像很多都是CNN,ANN什么什么NN啥的。在刚开始入门深度强化学习的时候,我也觉得深度强化学习(Deep Reinforcement Learing)是一个很高级的东西,在网上查到谷歌的Deepmind搞出来的Alphago就是利用深度强化学习算法搞出来的。但是对于刚开始入门深度强化学习之前无任何机器学习经验的同学来说,可能就略显生疏,所以本篇博文就从我自己的理解来看让同学们快速对深度强化学习有一个表面认识。本文可能在某些理解或者知识点中有所欠缺,请在评论区予以指正,互相学习进步。
谈到深度强化学习,不例外肯定会让大家联想到深度学习和强化学习,这三者是否有什么不明不白的关系。其实你猜的没错,深度强化学习就是深度学习和强化学习的结合,将两种机器学习的算法合并起来并进行应用就会产生各种有趣的荷尔蒙/坏笑。其中最有名的就是谷歌的Alphago大战李世石的绝世佳话,但这已经被说烂了,那么深度强化学习还有什么实际应用呢?或许你没想到,还有。。。王者荣耀!
事实上,在AAAI-2020接受的论文中腾讯AI Lab实验室开发的绝悟王者荣耀AI程序已经与大量顶级业余玩家进行了2100场对战,并且胜率高达99.81%,这代表着可能以后你的游戏技术水平再高超,可能也打不过人机。/斜眼笑
上图即为AI程序控制的王者荣耀高难度英雄—露娜,跳跳虎以及算法流程图(我知道你看不懂,其实我也看不懂,但是不知道为什么放上去就对了)这水平称一句国服bot不过分吧。事实上AI绝悟也运用到了深度强化学习算法,很多游戏中人类不可能实现的操作和想法可能率先用AI实现,这已经成为了现实。是不是看到这里已经对深度强化学习算法已经有了些许的兴趣。那么下面就要从深度学习是什么,强化学习是什么,两者是如何结合让你连人机都打不过的呢,下面将从我个人的浅显理解来表述一下这其中的道道。
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。这是百度百科的第一句话,看起来好像是句废话,但是其实。。。其实确实没啥多大用。实际上,深度学习为什么叫深度学习,这个深是什么意思,我个人理解这个深的意思是网络层数之深,一般来说神经网络中层数越多越深,有可能提取特征效果越明显,越能提取出我们想用的东西,所以深度学习就叫“深”度学习,代表着层数深的意思(我瞎bb的)。深度学习一般是用来识别物体,也就是说,深度学习是用来辨物的,也就是说,人眼一眼看到人和猫就知道哪个是人哪个是猫,可是如何让电脑也识别出来,这就是深度学习的作用了。
这就是深度学习的作用,通过复杂的神经网络,把一个东西辨认出来是否是什么什么东西,其实不止辨物,比如人脸识别,面貌识别,动作识别等等都是运用到了深度学习的东西,但是你只要知道,深度学习就是让机器识别出画面所展示是什么东西就完事了,具体是如何实现以及其中的道道可以参考https://blog.csdn.net/LEEANG121/article/details/102633718该篇文章或许对你的深度学习入门有些许的引导作用,这里就不深究了,反正知道,深度学习是识别画面的就完事了。
ok,相信你对深度学习的作用已经有了一些理解,那么强化学习是干什么呢。
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。这是百度百科对于强化学习的介绍,如果你之前没有了解过强化的话,你可以把你的电脑当做你家的小狗。当你训练小狗的时候蹲下的时候,小狗正确蹲下,你就会给小狗一个小骨头,而小狗没有对你的指令做出正确的反应,那么你就什么都不做或者拍打他一下,那么时间久了,小狗就会因为你给予的奖励做出反应。其实这种奖励—动作—反馈的循环的过程就是强化学习。
强化学习最主要的就是依靠马尔科夫决策过程,在这里也不深究了,诸位可以自己去找些资料探索强化学习。
好,现在我们知道深度学习就是辨别物体,强化学习就是让计算机学会什么事情该怎么做,比如说围棋如何才能取胜,游戏如何才能赢。也就是说,深度学习可以让计算机感知到所要识别的环境,解决感知问题;强化学习可以对环境做出动作指导,解决策略问题,那么由此,深度强化学习就诞生了。
前面说过,强化学习是用来解决策略的,比如说现在有一个猜数字的小程序,现在计算机随机的数值是77,你向计算机中输入31,你得到反馈太小,然后41得到反馈还是太小了,这种得到反馈不断与计算机进行交互的过程其实就是强化学习,如果说现在有个小朋友不会使用计算机只会手写,那么此时计算机利用摄像头以及深度学习识别出小朋友写出来的数值再与随机到的数值进行对比并告诉小朋友反馈,小朋友再写再识别再反馈一直到猜到的数字正确为止其实就是深度强化学习了。
其实深度强化学习和强化学习的区别就是,深度强化学习利用了深度学习中的神经网络对环境进行感知,比如对王者荣耀画面进行识别,AI就知道敌人在哪里,小兵在哪里,塔的攻击范围等知识,再把信息交给强化学习由马尔科夫决策进行判断,该打兵还是打塔等复杂操作,该移动还是该放技能,做出判断后环境发生改变,深度学习又进行画面识别再把识别出来的信息叫给强化学习,不断循环,这个过程就叫做深度强化学习。
再举个例子,这段时间我一直在学习flappy bird项目,该游戏相信大家都有点印象。
该游戏比较简单,只有两个动作, 跳和不动。那么首先由深度学习的卷积神经网络对画面进识别,哪些是柱子,鸟在哪里,之后交给强化学习进行决策。跳!还是不跳!在刚开始的阶段可能小鸟像人工智障一样一个都过不了,嘎嘎往柱子上撞。
但是经过几个小时的训练之后,决策慢慢优化,强化学习经过长时间的学习,对小鸟的决策越来越正常,小鸟过的柱子也越来越多,到后面可能比99%的人玩的都要好。同样的,例如王者荣耀这样的游戏,动作更多,环境更复杂,并且整个游戏的流程更长。
深度强化学习现在算是比较新的AI算法,现在暂时更多的是运用到与游戏交互中去,可能未来还会有更好更多的应用场景等待我们去发掘应用。而深度强化学习暂时也发展为基于值函数的深度强化学习(Value-based)、基于策略梯度的深度强化学习(Policy-Based)、基于搜索与监督的深度强化学习。我的学习之路是先学习深度学习和强化学习再深究其中的联系,希望对大家有些帮助。
本文说的知识都比较浅显,如果让刚入门机器学习的人搞懂机器学习是干什么的是第一要义,请诸位机器学习的大佬勿喷,有任何意见也可以在评论区留言,给予指正,不给后人留弯路,respect!