强化学习与心理学理论之间的一些对应关系并不令人感到惊讶,因为强化学习的发展受到了心理学理论的启发。
强化学习是从人工智能研究者或工程师的角度探索理想化的情况,目的是用有效的算法解决计算问题,而不是复制或详细解释动物如何学习。因此,我们描述的一些对应关系将在各自领域中独立出现的想法联系起来。我们相信这些关系是特别有意义的,因为它们揭示了学习的重要计算原理,无论是通过人工系统还是自然系统进行学习。
在大多数情况下,与强化学习相对应的心理学习理论是为了解释动物,如老鼠、鸽子和兔子,如何在受控的实验室中学习而提出的。
14.1 预测与控制
我们在本书中描述的算法分为两大类:预测算法和控制算法。这些类别分别对应于心理学家广泛研究的学习类别:经典(或巴甫洛夫)条件反射和工具性(或操作性)条件反射。
本书中介绍的预测算法估计的值取决于智能体所处环境的特征如何在未来展开。特别地,我们专注于估计智能体与环境交互时期望获得的回报。从这个角度来看,预测算法是一种策略评估算法,他们是策略改进算法中不可或缺的组成部分。但预测算法不限于预测未来的收益,它们可以预测环境的任何特征(例如,参见Modayil、White和Sutton,2014)。预测算法与经典条件反射之间的关联源于它们的共同特性,即预测将会到来的外部刺激,无论这些刺激是否有收益(或惩罚)。
工具性(或者操作性)条件反射实验的情况则不同。这种实验一般被设置为根据动物的表现决定给动物它们喜欢的东西(收益)或者不喜欢的东西(惩罚)。动物会逐渐倾向于增加产生收益的行为,而降低导致惩罚的动作。在工具性条件反射中,强化刺激信号被认为是偶发的影响动物的行为,而在经典条件反射中则不是(尽管在经典条件反射实验中也很难完全消除所有的行为偶发性的影响)。工具性条件反射实验类似于我们在第1章中简单讨论过的受Thorndike“效率定律”(Law of Effect) 启发的实验。控制是这种学习形式的核心,它与强化学习中的策略改进算法的做法相对应。
14.2 经典条件反射
俄罗斯著名生理学家伊凡·巴甫洛夫在研究消化系统活动时发现,动物对某些特定刺激因素的先天反应可以被其他无关的因素所激发。
显然,在自然条件下,正常的动物不仅要对自身直接有利或有害的刺激做出必要的反应,而且还要对其他物理或化学介质,如声波、光线等做出反应,尽管这些信号本身只是提示刺激的迫近,就像正在捕食野兽的身影和吼叫并不会对其他小动物造成实质性的伤害,真正的危险隐藏在它的牙齿和利爪中(Pavlov,1927,第14页)。
这种将新的刺激与先天的反射联系在一起的方式被称为经典条件反射或巴甫洛夫反射。巴甫洛夫(确切地说是他的译者)将先天反应(如前述的分泌唾液)称为“无条件反射”(unconditioned response, UR),其天然的刺激因素(如食物)称为“无条件刺激”(unconditioned stimuli, US)。同时,他将由预先指定的刺激所触发的反射(同样是分泌唾液)称为“条件反射”(conditioned response, CR),而在先天条件下不会引起强烈反应的中性刺激(如节拍器的声音)则被称为“条件刺激”(conditioned stimuli, CS),在经过反复的训练之后,动物会认为条件刺激是无条件刺激的预示,因此会对条件刺激产生条件反射。由于US强化了CR对CS的反应,因此我们将US称为强化剂。
14.2.1 阻塞与高级条件反射
当一个潜在的CS与之前曾用于激发动物产生该CR的另一个CS一起呈现时,若动物未能学习到该CR,则产生阻塞。
如果我们将之前用作条件反射的CS作为另外一个中性的刺激因素的US进行条件作用时,则会形成高级条件反射。
高级工具性条件反射也会发生。经过长期进化,动物自身会具有本能的趋利避害的强化过程,我们称这样的强化过程为初级强化。依此类推,若某种刺激物预示着强化剂的出现,则称其为次级强化剂,或者更普遍地称为高级强化剂或者条件强化剂。条件强化剂会引发条件强化过程:即条件收益或条件惩罚。条件强化与初级强化一样,增加了动物采用会获得条件收益的行为的倾向,减少了动物采用会导致条件惩罚行为的倾向。
14.2.2 Rescorla-Wagner模型
Rescorla和Wagner创建这个模型的主要目的是解决阻塞问题。Rescorla-Wagner模型的核心思想是动物只有在事件违背其预期时才会学习。
从机器学习的角度来看,Rescorla-Wagner模型是一个基于误差纠正的监督学习模型。
Rescorla-Wagner模型在动物学习理论的历史上是非常有影响力的,因为它表明,“机械”理论可以解释关于阻塞的主要事实,而不用诉诸于更复杂的认知学理论。Rescorla-Wagner模型表明了条件反射的连续性理论(即刺激的时间连续性是学习的充分必要条件)经过简单的调整可以用来解释阻塞现象(Moore and Schmajuk,2008)。
14.2.3 TD模型
与Rescorla-Wagner模型相反,TD模型不是一个试验层面的模型,而是一个实时模型。同时,Rescorla-Wagner模型也没有考虑高级条件反射的机制,但是对于TD模型来说,高级条件反射是TD模型的核心思想——自举思想的自然结果。
14.2.4 TD模型模拟
TD模型最显著的特点大概是它基于一个理论,该理论说明了动物神经系统在经历条件作用时尝试去做的事情:形成准确的长期预测,这与刺激物的表示形式所带来的限制以及神经系统的工作方式相一致。换句话说,该理论提出了一个针对经典条件反射的规范性描述,表明长期预测才是经典条件反射的重要特征,而并非即时预测。
对条件反射TD模型的探究是对动物学习行为的一些细节进行建模的一个实例。TD学习除了作为算法外,也是生物学习方面模型的基础。
14.3 工具性条件反射
在工具性条件反射的实验中,学习是依赖于行为的结果来进行的,即根据动物做了什么来发送强化刺激信号。相比之下,在经典条件反射的实验中强化刺激信号(即US)的传送是与动物的行为是无关的。工具性条件反射的起源可以追溯到本书第1版出版的一百年前美国心理学家Edward Thorndike进行的实验。
实验中包含了不同的猫以及具有不同逃跑机制的箱子,Thorndike记录了每只猫在每个箱子的多次试验中逃跑所耗的时间。他观察到随着试验次数的增加,试验所用的时间不停地下降,例如从300s降到6s、7s。Thorndike这样描述“迷箱”中猫的行为:
由于冲动抓遍整个箱子却难以跳出箱子的猫可能会正好抓绳子、环和按按钮而打开箱子的门。逐渐地,不能打开门的冲动慢慢消失,而成功打开门的冲动会由于开门的快乐而逐渐增强。最终经过多次试验后,猫一被放入箱子中,就会立刻以一种确定的方式去按按钮和拉环(Thorndike 1898,p.13).
Thorndike在这些和其他试验的基础上总结了一系列学习的“规律”,其中最具影响力的是我们在第1章(14页)中提到的效应定律。效应定律所描述的内容现在提出被称为试错学习。
“面对同样的情境时,动物可能产生不同的反应。在其他条件相同的情况下,如果某些反应伴随着或紧随其后能够引起动物自身的满意感,则这些反应将与情境联系更加紧密。因此,当这种情境再次发生时,这些反应也更有可能再出现。而在其他条件相同的情况下,如果某些反应给动物带来了不适感,则这些反应与情境的联系将被减弱,所以当这种情境再次发生时,这些反应便越来越不容易再现。更大的满意度或更大的不适感,决定了更强化的或更弱化的联系。”(Thorndike,1911,p.244)。
强化学习算法中的关键特点可以对应到效应定律中描述的动物学习的特点。第一,强化学习算法是选择性的,即它们会尝试不同的选择,并通过比较这些选择的结果来在其中挑选。第二,强化学习算法是关联性的,即在构建智能体的策略时,其可进行的选择是与特定的场合或状态相关联。如效应定律中描述的学习一样,强化学习不仅仅是一个找到能产生大量收益的动作的过程,也是一个将动作与场合或状态连接在一起的过程。Thorndike用“选择与连接”一词来表示学习(Hilgard,1956)。
使用计算机科学的术语进行描述的话,“效应定律”描述的是一种基本的结合搜索和存储的方法,搜索的方式是在某个场合下尝试不同的动作并在其中选择一个,而存储则是将场合和在该场合下目前为止找到的最好的动作关联起来。无论存储的形式是智能体的策略、价值函数还是环境模型,搜索和存储都是所有强化学习算法中的关键组成部分。强化学习算法对于搜索的需求导致它必须以某种方式进行试探。强化学习算法对于智能体在选择动作使用多少指导有着多样的选择。在本书中介绍的算法中,试探过程的形式,如ε-贪心法和基于置信区间界限的动作选择等,都属于最简单的一类。只要能够保证某种形式的试探使得算法可以高效运行,其实我们也可以设计更为复杂的方法。
强化学习的一个特性是在任何时刻可以选择的动作的集合依赖于环境的当前状态,这一特性与Thorndike在他的迷箱实验中观察到的猫的行为也是类似的。确定这个集合是强化学习的一个重点,因为它能大幅简化学习过程。
在受效应定律影响的动物学习研究人员中,最著名的两位是Clark Hull(例如Hull,1943)和B.F.Skinner(例如Skinner,1938),他们研究的核心就是基于行为的结果选择行为这一想法。强化学习中的很多特性与Hull理论是一致的,其中包括了采用类似于资格迹的机制和次级强化来在动作和由其引发的强化刺激信号(参见14.4节)之间有很长的时间间隔时进行学习。随机性在Hull理论中也是很重要的,它通过一种称为“行为振荡”的方式引入随机性来得到试探性的行为。
Skinner不完全同意效应定律中的关于存储的那部分描述。他反对关联连接的观点,强调动作是从自发行为中选择的。他提出了“操作”这个术语来强调动作对于动物所处环境的影响的重要作用。与Thorndike等人的实验不同,Skinner的操作性条件反射实验并非由一连串单独的试验组成,它允许动物在更长的一段不受打断的时间内表现其行为。他发明了操作性条件反射箱,现在叫作“Skinner箱”。它的最简单版本包含一个杠杆或一个钥匙,一旦盒子里面的动物按压了,就会得到回报,比如水或者食物。
Skinner的另一个贡献在于,他发现通过强化对理想行为模式的接连不断的近似可以实现对动物的有效训练,他将这个过程称为塑造。虽然其他人,包括Skinner自己都曾用过这个方法,但真正让它意识到其重要性的实验,是他和他的同事们尝试训练鸽子用它的喙击木球来使球滚动,但他们等了很长时间,但没等到他们可以用于强化的击中木球的情况,在这样的情况下,他们
“……决定对任何只要与击球有细微的相似的反应都进行强化。例如在一开始强化的反应可能只是看着木球,后来就可以选择强化离最终的目标更接近的反应。结果令人惊喜。几分钟后,球就从盒子边上掉了出来,鸽子就已经像冠军壁球选手一样了。”(Skinner, 1958, p.94)
这些鸽子不仅学会了一种对它们来说不同寻常的动作,而且它们通过一个行为和强化规则互相对应变化的交互过程能够快速地进行学习。Skinner将强化规则变化的这个过程与