该文章转载自:https://www.cnblogs.com/y1ran/p/12155728.html,有点意思
这是我思维导论的第1期,灵感来自另一位博主。视频做完后会接着更新算法系列专栏~
我们玩王者荣耀,究竟是为了什么
对于非职业玩家来说,打王者荣耀,是为了什么?除去消遣时间这个普遍因素,是为了推掉对方水晶?还是拿到5杀?抑或只是为了和朋友一起,享受在游戏中畅快地倾泻技能的感觉?
这些都不是本质原因,单次的获胜,或者5杀,并不能促使我们不断打开下一局游戏。本质上,我们对游戏的快感,都是大脑对游戏反馈机制的一种奖励,它由我们的多巴胺所决定。
人们常以为多巴胺等同于快感,但事实并非如此。多巴胺(dopamine)只是脑垂体腺中的前体物质,它不是快感本身,而是对快感的预期,或者说,对快感的追求。当你获胜,或者拿到击杀,你的肾上腺素、催产素以及内啡肽分泌增多,你会感到愉悦、兴奋,当你被击杀、水晶被推,你会感到沮丧、愤怒。但对于大脑神经来说,这些情绪只是暂时的体验,突触上的电信号一触即走,不带走半点云彩。而多巴胺所构成的信号机制,才是决定你会不会接着玩下去,并且以后还会打开游戏的关键。
换句话说,多巴胺赋予你沉迷游戏的欲望。在多巴胺的信号机制中,它并不会让你感到“我玩王者荣耀很爽”,而是让你觉得“这把我能翻”、“下把一定赢”“再赢一把排位我就升段位了”。
也正由于多巴胺是直接作用于大脑的奖励回路,使得一个人即使对某件事感到厌恶,也会在多巴胺的作用下去做这件事。于是,一次又一次地,我们打开手机或电脑,点开了游戏,进入了排位,周而复始。
这,就是我们玩王者荣耀的根本原因。
反馈回路
反馈回路是一种“信号-动作-反馈”机制,可以简单描述为一个五元组系统
· 环境 – 你的交互环境,比如游戏
· 状态 – 你所处的状态,比如击杀、被击杀、以及获得胜利
· 动作 – 打开游戏,操作游戏角色,或者关掉游戏
· 更新 – 提高或降低你做出某个动作的概率。概率-可以理解为大脑信号的强弱
· 奖励 – 获胜的愉悦,也就是快感预期
并且满足以下4个规则:
-
当你进入游戏,你会以不同的概率,在每一个时间点上,做出不同的动作
-
你的动作决定了下一刻你所处的状态,每个状态都对应一个奖励,也即大脑所获得的反馈
-
每一步动作,都不只影响下一步的反馈,也可能影响更远的状态和反馈
-
反馈可以为正,也可以为负
举个例子,作为一个刚玩MOBA类游戏的玩家,你只知道要推掉敌方水晶。当你进入游戏(环境),你孤身进入敌方防御塔范围(动作),被击杀(状态),你的大脑感觉失望(奖励)。于是,当你从泉水复活(环境),你孤身进塔的动作概率被降低(更新),你选择跟随兵线一起进入(动作),推掉了防御塔(状态转移),并在数十个类似动作后,最终胜利(更远状态),你获得了满足(奖励)。
根据奖励结果,大脑判断第二种路径更好,因此下一次循环,你选择跟随兵线的概率会继续增加,并随之做出更多正确操作,最终加强这个正向反馈回路的效果。这,也是职业选手得以脱颖而出的原因——他们的反馈机制更为迅速,且响应更快。
强化学习
这个反馈回路,就是构成人工智能中强化学习理论的基础机制。强化(reinforcement),是指在不断尝试中,个体所学习到的反馈回路在不断更新,并最终优化到可能目标的过程。
它和监督式机器学习一样,是构成人工智能的基石。
监督式机器学习,就好比你做历年真题,它由往年题目(旧数据)和答案(标签)构成,通过做题,你获得了从题目和答案中学习到的解题方法,并将这种方法应用到下一次考试中去。本质上,它学习出的是问题和答案之间的关系,这种关系就是模型。机器学习,只是把我们在过去学习中所做了十几年的事情,复制到了计算机上。
而强化学习,学到的是反馈回路。反馈 (reward),即用来判断这个行为是好是坏。一个优秀的强化学习系统,甚至不需要旧有的数据,就可以直接进行学习。
强化学习的反馈有延时,即有可能走了很多步以后,才知道以前的某一步的选择是好还是坏,而监督式机器学习只学习方法,不考虑时间。这样的思考方式其实并不与现实相似,因为我们所做的每个选择,所处的每个环境,都与过去的许多行为有关,它们极其复杂,没有一个固定、线性的模式可被学习,但通过强化学习,可以尽量逼近可能存在的完美模型。
从生物学的角度讲,强化学习更符合人类的进化方式,从古代的尼安德特人就已经开始:不符合正反馈回路的行为或族群,注定被“环境”所“更新”,也意味着淘汰。人类之所以进化成人类,是因为除了总结旧有知识并发现规律(机器学习)外,还会不断尝试和探索(强化学习)。
现如今,最完善的强化学习系统,就是谷歌的AlphaGo。每日与自己对弈数十万局,根据对弈结果,强化棋盘落子的正反馈回路。如果说,监督式机器学习是一种方法迁移,那强化学习则是方法探索。在某种意义上,强化学习更接近想象中的人工智能。
现在,让我们回到问题中来。
学习,究竟是为了什么?
不打游戏,是为了更好的学习。更好的学习,是为了更好的生活。那,什么是更好的生活?可以痛快地玩游戏,算不算更好的生活?我们从小被教导要好好学习,却从来没有真正思考过为什么要好好学习。如果连成因、机制都不了解,看再多的思维教学、学习导论,也没有办法让自己真正地执行“好好学习”这件事。
让我们思考一个问题:
“我们真的厌恶学习吗?”
其实,用强化学习的角度看,学习和玩王者,本质上没有区别。
学习是一个枯燥的过程,你要背单词、背公式,要写作、还要练习。玩游戏也是如此:你要记忆每个英雄的技能、走位技巧、出装顺序,也要通过很多次的对局来练习、提高技能。
区别在哪里?在学习系统中,它们都是同一种东西,即“动作”,动作无所谓枯燥和有趣,关键看它所处的“状态”和预期的“奖励”。
人类厌恶枯燥的东西,所以当学习变得索然无味,我们就会讨厌学习,这是天性。我们在学习时,并不能获得和做爱一样的快感,否则的话,没有人会讨厌学习。但是,有的人却能坚持学习并乐在其中,为什么?答案是反馈机制。
当学习的“动作”带给人的长期收益为正,就会获得我们所说的快感预期,也即前文提到的多巴胺。如果不靠多巴胺,只靠意志力去坚持学习,会怎么样呢?就像不断绷紧一根弦,强行违背身体的感觉,到最后早晚会断掉。
我们绝大多数人,没有移山填海的毅力,因此这样的学习方式,是不科学的。大脑发出指令的动机其实和海洋馆的海豹一样,是为了眼前那一条小鱼干,顶一次球,给一条鱼,再顶一次,再给一次。也就是说,只有不断收到正向的反馈,才会自然而然地保持前进的动力。
本质上,这只是把“学习”动作的反馈回路,搬到了游戏上来。搞清楚这点,我们就可以思考,如何让自己像打王者荣耀一样的学习
反馈强化
先让我们回到游戏本身。游戏带给玩家的反馈是否足够,是决定一个游戏是否有趣的基础。而游戏厂商在做的事情,就是将反馈回路,竭尽所能的加强和加快,也即提高动作的收益,比如推掉水晶,你获得的不只是胜利,游戏分数也会提升。或者增加不确定性,让玩家耗费更多次的尝试,来确定反馈回路,比如部分皮肤的随机性。
简单来说,常见的游戏,都是基于以下三种强化模式,来对游戏结果的反馈机制进行加强:
-
一种是“固定比率强化”(Fixed Ratio),比如“打败10个哥布林一定可以升1级”,“连胜10场一定可以升段”
-
一种是“固定时距强化”(Fixed Interval),比如“《皇室战争》里的白银宝箱3小时后一定可以解锁”
-
还有一种“不固定比率强化”(Variable Ratio),也就是“《阴阳师》每抽一次卡,有1%的几率抽到SSR”
这三种方法,将强化学习中的不确定性奖励,固化成为确定性收益,比如分数、卡牌、等级。
分别为游戏厂商带来了留存率,在线人数,和净收入。
我们该怎么做?
学霸和学渣的区别,就在于对快感的预期不同。预期不同,形成的反馈也就不同。成为学霸,需要不断强化自己的反馈回路。最基本的,从以下三点做起
1. 缩短反馈周期
反馈周期太长,意味着半衰期长。半衰期是什么,下期文章我会讲。这里只需要知道,反馈周期太长是大多数人无法坚持的主要障碍。举个例子,有的人高中时成绩很好,为何到大学时成绩就一落千丈?有人说,是因为高考之后人松懈了,就容易变笨。很可惜,这个说法或许有道理,却并没有研究结论支撑。真正的原因,其实是反馈周期变长了。
在高中时,一个月会有3-4次测试,你努力学习一个周,就能看到努力的效果,班级名次很容易进步。接着,同学吃惊,家长老师表扬,你觉得特别很开心,打了鸡血一样继续学习,这种感觉可能会持续几天,还没等它消退,下一次考试又来了。不出意外,你会接着获得下一次正反馈。在这样的反馈回路中,“动作”带来的“奖励”被极大加速,整个系统变得完全正向。
上了大学以后,认真学习一个学期,才能有一个好的GPA,这个反馈周期变长了几倍,而且也很少有人因为GPA受到表扬,因此,大多数人坚持不来。取而代之的,很多人习惯考试前1个周开始执行“学习”动作,因为只需要1个周就可以获得相当可观“奖励”,比如及格。所以,想办法减少你的反馈周期,比如,将大目标分解为小目标,会更容易获得成就感。
2. 增加反馈强化
我们提到过三种反馈强化模式,那么把“游戏”替换成“学习”,我们要做的是什么呢?可以是考试累计进步10名就请自己吃烧烤,也可以是隔壁班的小爱刮目相看的“SSR”,又或是再看3小时书就去打王者荣耀。
对应到游戏厂商的三种收益上来,就是提高学习留存率,延长学习时间,增加学习收益。
3. 调整反馈难度
斯坦福大学行为科学研究人员曾发表过一篇论文,大意是玩家在高难度游戏获胜的那一刻,大脑多巴胺回路会异常激活。也就是说,适当的高难度游戏,能够最大化地激活反馈回路。这也是各大竞技类游戏排位赛机制的由来,通过匹配不同难度的对手,即不会让你一直输下去,也不会让你永远赢。它们塑造一种“升段”“掉段”的奖励机制,让你的反馈回路一直处于半激活状态。
在学习中,如何设置难度,需要根据个人情况制定,比如,下一次考试提高10分,和成为班级第一,就是两种不同的难度。难度可以递进,既不要太简单,也不能太难。
一旦大脑形成了正反馈回路机制,那么尝过一次甜头,食髓知味,你的动力将会更加充足,久而久之,甚至会享受学习这件事情本身,像打王者一样石乐志一般的学习,最终爱上学习。这,就是学霸的诞生规则。
关于反馈机制,其实还有很多东西可以讲,具体的学习方法也远不止这些,有一种叫做“心流”的东西,是增强学习能力的利器。但是因为时间关系,我不想把文章写的太长。更多的学习方法和强化学习知识,欢迎关注我的下一期文章。
文章之后会制作成视频发在B站,也谢谢大家的阅读~