【RL 第1章】强化学习的基本概念

        强化学习可以说是当下最热门的一种机器学习的方法,我们身边有很多东西都应用到了强化学习的方法,例如谷歌公司的AlphaGo、腾讯的觉悟Ai等,接下来从本章开始,我们将一起学习这个陌生的领域,来次够!

        在开始之前,咱们可以先举一个例子,比如说,你上完了一天的课,吃过晚饭后,你面临着着两种选择:a.去图书馆卷,b.回宿舍打游戏        

【RL 第1章】强化学习的基本概念_第1张图片

 

        好了,现在,你就是强化学习里的主体(agent),但你并不知道选哪个动作(action),比如说你试了一下a,发现去图书馆卷后,你的GPA提升了,这就相当于是一个奖励(reward = +1),假如你试了试b,回宿舍打游戏后,你发现你的GPA下降,这相当于是一个惩罚(reward = -1)

        回到正题,所谓的强化学习,也只是一个机器学习的模型,但不同于其他模型,在强化学习的过程中,我们并不会像其他机器学习方法一样提前告知系统应该做出什么样的行为,而是让系统不断的实验,基于环境的反馈,来尽可能的获取较大的奖励,比方说,你在不断试探的过程中,发现去图书馆卷,你的收益会更多,那么你就具备了经验(experience),为了让自己的收益更大,之后的步骤你更会选择a。

        当然,强化学习里最特殊的一点,是:当前的行为不仅仅会影响及时的奖励,也会影响后续的奖励,比方说,我是个卷王,我每天去图书馆卷,那么加入我第一天的奖励是1,那么第二天的奖励很可能因为我第一天选择了去卷而变成1.5,所以奖励(reward)的值也是会变的!!!!(强调)

        上文主要介绍了强化学习的基本信息,可能有同学已经注意到了,上面的括号里出现了很多英文单词,没错,接下来要向大家介绍的是强化学习的六大基本概念,这里我们以AlphaGo为例

        智能体(Agent):就是AlphaGo本身,需要通过不断学习增长经验的模型,也是我们操控的目标。

        状态(State):智能体当前所处的环境,比如在AlphaGo下棋时,某一刻所有白子黑子在棋盘上的分布。

        行为(Action):智能体在当前时刻所产生的动作,比如AlphaGo在下棋时落子,这就是一个动作。

        奖励(Reward):对于智能体的每一步操作,我们都有一个指标,去衡量这一步。

        策略(Policy):在当前状态,为了能尽可能获取更多的奖励,我们所制定的一系列动作

        强化学习的过程,简单来说就是:先观察,在行动,再观察.......以此往复

【RL 第1章】强化学习的基本概念_第2张图片

         按照前文最开始的例子,第一天,我并不知道去图书馆卷还是回宿舍打游戏,于是我随机的选择去图书馆卷,发现我的GPA提升了(reward = 1),我们用GPA的提升这一reward来衡量我们这一步的成功,那么第二天,因为我有了第一天的经验,所以我很大可能会继续去图书馆卷,第三天、第四天.....以此往复,当然,这只是一种非常非常简单的情况,实际问题可能会更加复杂,我们会有很多的Action可以走,不同的Action会将我们带到不同的State,在当前State下我们可以看当前的Reward怎么样,然后接着走,接着走,接着走....这样咱们就完成了一个不断迭代优化的过程。

        AlphaGo最开始知道怎么下棋吗?肯定不会的,但是他可以积累对局信息呀~,这一步怎么下,可以让我最后赢得这盘棋,不断积累知识经验,于是经过无数次的对局训练,最后打哭了我们的洁宝~

【RL 第1章】强化学习的基本概念_第3张图片

         最后给大家放一个例子,就是下图的这个摇摆车,我们的目标是让杆不倾斜,这个例子就很显而易见了:

【RL 第1章】强化学习的基本概念_第4张图片

        ok~第一章差不多就是这些内容,大家可以当看小品一样看完,后面应该就是开始讲各种算法啦,Q-Learning、DQN、Actor Critic等等,都是满满的干货(fighting!)

 

你可能感兴趣的:(RL,人工智能)