如果深度学习是答案,那么问题是什么?

机器学习和人工智能研究的最新进展为神经计算开辟了新的思路。许多研究人员对深度神经网络可能提供知觉、认知和行动的大脑神经理论的可能性感兴趣。这种方法有可能从根本上重塑我们理解神经系统的方法,因为深度网络执行的计算是从经验中学习的,而不是由研究人员赋予的。如果是这样,神经科学家如何使用深度网络来建模和理解生物大脑?对于那些试图描述计算或神经代码的特征,或者希望理解感知、注意力、记忆和执行功能的神经科学家来说,他们的前景如何?从这个角度来看,我们的目标是为深度学习时代的系统神经科学研究提供一个路线图。我们讨论了在人工和生物系统中比较行为、学习动力学和神经表征的概念和方法上的挑战,并强调了作为机器学习最新进展的直接结果而出现的神经科学新研究问题。本文发表在Nature Reviews Neuroscience杂志。

介绍

近年来,在深度学习的进步推动下,人们对人工智能(AI)研究进展的乐观急剧回升。“深度学习”是一种用于构建多层神经网络的方法,用于解决监督分类、生成建模或强化学习中的挑战性问题。最近的文献中有大量对生物系统和人工系统的行为和活性的比较,并在越来越多的综述文章中进行了总结。

从这个角度来看,我们评估了神经科学和人工智能研究之间的新一波协同所带来的机遇和挑战。我们首先考虑最近的一些建议,这些建议试图将神经理论重新定义为深度学习问题。我们评估了现有的结果,表明深度网络以类似生物代理的方式形成表征或表现行为,并考虑了一系列受深度学习启发的新问题。在此过程中,我们强调了通常支撑深度学习模型的特定可证伪假设,包括使用感知、记忆、推理和控制过程领域的知识。我们指出了将大脑表示和复杂深度学习架构相关联的局限性,并主张关注学习轨迹和复杂行为。最后,我们讨论了深度网络理论如何提供解释和理解。通过这样做,我们认为,深度网络可以而且应该被用来提供新一代的可证伪理论,说明人类和其他动物是如何思考、学习和行为的。


新连接主义

神经网络可以作为神经计算理论的想法并不新鲜。在20世纪80年代的并行分布式处理中,心理学家和计算机科学家提出神经网络可以解决感知、记忆和语言方面的关键问题。当代深度网络类似于放大的连接主义模型。因此,人们可能很容易将当前围绕神经科学深度学习模型视为对早期想法的重提。然而,许多研究人员认为,深度学习模型有可能从根本上重塑神经理论,并为神经科学和AI研究之间的共生研究开辟新的途径。这是因为当代深度网络是建立在准自然主义的感觉信号(如图像像素或听觉谱图)基础上的,这使它们能够执行比以前可能的复杂得多的任务。因此,当代深度网络可以在类似于我们自己的感官生态中学习“端到端”(即不需要研究人员干预):用于监督学习和生成建模的自然声音和场景,以及用于深度强化学习的具有现实物理的3D环境。这种端到端的生物功能模型的出现,使研究人员能够第一次尝试模拟能够解决现实世界问题的神经计算。

网络在复杂的现实世界任务中具有高性能,这使得机器学习和神经科学的交叉领域最近取得了许多进展。例如,一个主要的研究方向检查了由监督深度网络形成的表示,这些网络被训练为在自然场景中标记物体(图1)。一个引人注目的观察是,在将梯度下降与一些简单的计算原理相结合的网络中,可以出现生物学上合理的神经表示(梯度下降是一种训练方法,其中权重被逐步调整,以鼓励网络输出朝向一个目标)。当深度网络被赋予包括局部连通性、卷积、池化和归一化等属性时,早期层获得了简单的方向和空间频率过滤器,就像初级视觉皮层中的神经元(图1a)一样,而在更深的层中,对象和类别的神经表征的分布和相似结构类似于灵长类动物腹侧流中的分布和相似结构(图1b,d)。值得注意的是,在更准确地执行对象识别的网络中,表征等价性可能更强(图1e)。这些发现的一个推论是,在人类和其他动物身上观察到的复杂行为和结构化神经表征可能来自有限的计算原理集,只要输入数据足够丰富,网络得到适当优化。

如果深度学习是答案,那么问题是什么?_第1张图片

图1 神经网络和灵长类大脑之间的表征等价。该图总结了深度网络和生物大脑之间的表征对应的证据。

(a)左图:哺乳动物初级视觉皮层(V1)简单和复杂细胞接受域示意图。右图:在深度卷积神经网络(CNN)的第一个隐藏层中学习的示例过滤器。表征相似性分析是一种方法,通过这种方法,可以评估群体对每种刺激(在本例中是人脸、蜜蜂、树叶和球的图像)的反应的相似性。

(b)代表性相似矩阵的例子,说明了由灵长类动物大脑早期视觉区域的物体引起的群体活动的相似性(蓝色表示相似,红色表示不相似)(左,电生理学记录)和深层CNN的中间层(右)。

(c)对一系列自然图像(深蓝色轨迹)的假设神经放电速率和相应的假设活动预测为神经网络活动的线性变换(浅蓝色轨迹)。

(d)表征相似矩阵,如b部分,但比较下颞皮层(IT)与CNN的最后一层。

(e)说明IT信号中解释的方差与伪随机生成神经网络的分类精度之间的关系,这些神经网络被训练为最大化分类性能(浅蓝色线)或最大化神经信号中解释的方差(深蓝色线)。

(f)左:点运动分类任务中记录的猕猴侧顶内区(LIP)神经信号的状态空间分析。红色和蓝色线表示不同类别的不同运动方向。右:对循环神经网络(RNN)的隐藏单元进行了相同的分析。

(g)左:在进行长间隔或短间再现任务时,对猕猴背内侧前额叶皮层(DMPFC)记录的神经信号进行状态空间分析。右图:对RNN的隐藏单元进行了相同的分析。

深度学习框架

“深度学习框架”鼓励研究人员避免对神经计算进行明确的描述(例如,人为制作的调谐曲线和人为设计的网络连接的模拟神经元如何实现某种功能)。相反,它提出研究人员的角色是指定整体网络架构、学习规则和代理函数,这样就放弃了对计算微观结构的控制,而是在网络训练过程中有机地出现。这个提议提出了一个问题:神经计算是否有足够的可解释性。一个相关的提议将神经网络中计算的优化与进化中生物形式的优化进行了类比:在这两种情况下,可解释的功能适应都出现了,而没有对搜索过程施加有意义的约束。换句话说,有人声称神经系统从根本上是不可解释的,知觉和认知的结构化理论只是“故事”,它更接近地反映了研究人员对意义的追求,而不是神经计算的现实。

还有人声称,将大脑建模为神经网络可以减轻研究人员详尽记录和解释单个神经元的编码属性的负担。随着方法学的进步,可以同时记录大量神经元,神经表征在人群中实现动态多路复用。从这个角度来看,单个神经元编码多个实验变量及其相互作用,表现出非线性混合选择性。尽管对总体编码的关注是独立于对深度学习日益增长的兴趣之外出现的,但混合选择性通常是深度网络模型编码的一个标志。在大脑中,这种倾向似乎在支持工作记忆和行动选择的高级皮层区域最为明显,如顶叶皮层和前额叶皮层。在这些区域中,单个神经元的编码属性可能是高度异质的,并且在给定的试验过程中以令人迷惑的方式变化。然而,当在种群水平上检查神经活动时,例如,使用降维—神经模式出现,就可以有意义地区分实验变量。

另一个关键的观察结果是,当同样的分析应用于循环神经网络中的单元激活时,可以重新创建这些群体活动的模式,这些神经网络被训练来评估时变决策证据(图1f),判断时间间隔的长度(图1g)或在延迟周期上保持信息。因此,从零开始训练的深度循环神经网络越来越多地被提出作为感觉运动集成和工作记忆的计算理论。在工作记忆领域,一个特别有趣的新研究方向使用循环网络来解决系统神经科学中的一个关键问题,即存储信息的代码应该是静态的还是动态的。这项工作促成了这样一种说法:描述单个细胞的编码特性或推断它们如何参与计算是徒劳的。有人认为计算模型只能在人的总水平上解释,最终是由网络的结构和优化方式驱动的。

总之,这些发现可以证明,试图解释单个神经元或局部大脑区域的计算是徒劳的,而对神经计算的有意义的描述更好地由机器学习模型的设计选择或超参数设置来给出。

从框架到假设

深度学习框架给出了强大的新工具,可以用于对目前系统神经科学中常规记录的大量数据进行建模。然而,我们希望,对于深度网络作为计算模型的热情,能够冷静地考虑如何有效地部署它们来理解神经机制和认知功能。也就是说,如果深度学习是答案,神经科学家最终应该问的问题是什么?

深度学习框架的一个优点是它的通用性:它为研究跨功能、物种和大脑区域的计算提供了统一的视野。然而,它还没有为系统神经科学研究提供一个具体的路线图。如果神经计算通过盲目的、无约束的优化而不受控制地使用,神经科学家如何制定关于大脑功能的新的、可验证的假设?有一些证据表明,更明智的深度网络设计选择可能会使其与生物学更接近。例如,添加循环连接可以提高与神经数据的契合度,特别是对于那些难以分类的自然图像和刺激后时间点,而添加生物学上看似合理的前端(“视网膜网”)则有助于形成真实的编码属性,包括在丘脑中发现的细胞类型。然而,总的来说,我们缺乏做出这种设计选择的总体指导原则。在机器学习研究中,网络很少在构建时考虑到生物学的合理性,因此在如何使用它们来建模神经系统方面,之前的指导相对较少。此外,理解深度网络中从设计到性能的映射是具有挑战性的,这可能是为什么人工智能在进行可解释或公开假设驱动的研究方面的记录相对较差的原因,它更倾向于关注系统是否有效,而不是它为什么有效。

在最坏的情况下,深度学习框架面临着神经科学的生存挑战。该研究项目要求研究人员记录不同的架构或算法如何鼓励深度网络形成语义上有意义的表示或表现出复杂的行为,就像人类和其他动物所做的那样。这种努力听起来与当代人工智能研究本身相似得令人怀疑。深度学习框架似乎打破了在生物大脑中寻找神经计算解释的长期传统。相反,它似乎提议扫除有关特定计算类别如何支撑行为的现有知识,将理论神经科学的目标与当代人工智能研究的目标结合起来。

我们认识到深度学习框架的前景,并对神经网络模型作为神经计算理论所提供的新可能性感到兴奋。我们相信这个框架的最强版本将建立在现有的神经理论之上,并将重点放在解释生物大脑中的计算上。换句话说,我们希望深度学习不仅能为神经科学研究提供一个框架,还能为生物网络中的行为、学习动力学和神经表征提供一套明确的假设。

深度网络作为神经模型

深度学习框架是建立在神经网络学习的表示和计算类似于生物大脑的提议上的(图2)。然而,深度网络和动物大脑之间的等价性可能被夸大了。目前,一种流行的方法是学习从网络单元到神经元的线性映射,并在给定的数据集中评估结果回归模型的预测有效性。如果采用这种方法进行图像分类,表现最好的深度网络可以解释灵长类动物下颞皮层神经元反应差异的60%。然而,在图像分类方面表现较差的神经网络只能解释5%的差异。事实上,训练过的网络和未训练过的网络在预测依赖于血氧水平的信号的准确性方面的差异非常小—对于大多数视觉区域,准确度差异为5-10%。人们经常忘记,那些声称深度网络和大脑中等价表征的里程碑式研究实际上使用的是没有经过梯度下降训练的深度网络。因此,目前还不完全清楚,现有的证据是否能有力地将深度学习与密集连接的多层网络中更通用的计算概念区分开。因此,未来研究的一个重要目标将是更严格和系统地评估深度网络和生物大脑以类似方式学习的说法的准确性,例如通过测量和比较学习过程中表征的变化(图2a)。

如果深度学习是答案,那么问题是什么?_第2张图片

图2 比较深度学习和大脑的新兴方法。

(a)比较学习过程中的表征变化。上图:在学习和发展的过程中,行为可能会系统地改善(这里的图示为减少任务上的错误)。下图:实验可以跟踪神经表征在学习过程中是如何变化的,以及这些变化是否可以由使用特定学习规则训练的深度网络预测。比较学习轨迹可以帮助评估深度神经网络中的学习过程,而不仅仅是最终的表征是否与灵长类动物大脑中的学习过程相似。

(b)更细粒度的行为比较。上图:测量一个图像对干扰对象的鉴别性,隔离了具体由图像驱动但不被对象预测的行为差异。个体图像之间的混淆模式在人类(y轴)和猕猴(灵长类区域)中是相同的。浅蓝色柱状图显示了基于低级视觉表示的模型的人类-性能一致性,而深蓝色柱状图显示了公开可用的深度神经网络的人类-性能一致性。下图:在ImageNe上从头训练的ResNet-50在标准彩色图像上训练和测试时(左)和在加性均匀噪声图像上训练和测试时(中)的分类性能接近完美。然而,当它在带有噪声的图像上训练,并在具有均匀噪声的图像上测试时(右),即使噪声类型对人类观察者来说似乎没有什么不同,性能也是不稳定的。

(c)深度学习模型因果检验。如图所示,使用“闭环”实验设计来测试深度网络的预测能力。在一项研究中,将自然图像呈现给小鼠,同时记录诱发的神经活动(右上方图中的深蓝色曲线),并训练深度神经网络来预测这种活动(右下方图中的浅蓝色曲线说明了单元1和神经元1之间的对应关系)。然后,深度网络被用来计算一个最大兴奋的输入图像(MEI),它强烈激活了模型中的特定神经元。然后将这个MEI显示给小鼠,并测量由此产生的神经反应(右上方图的橙色部分)。如果深度网络捕捉到从像素到神经反应的映射,MEI也应该强烈刺激生物神经元。

测试神经信号是否是模型激活的线性转换是一个很好的开始,但即使大脑和神经网络中的神经模式在稀疏性或维度方面存在很大差异,这种关系也可能存在。通过限制映射函数自由度的方法提供了更严格的共享编码测试,例如表征相似性分析,其中表征由不同输入引起的群活动向量之间的距离表征。表征相似性分析揭示了大脑和网络之间的表面相似性,但这种一致性可能主要是由物理上相似的刺激的共享相似性结构驱动的,例如面部。为了超越相关性,系统神经科学将需要使用人工网络和生物网络之间预测联系的因果分析,例如利用网络激活进行新的图像合成(图2c)。这种闭环实验设计为人工大脑和生物大脑之间的映射提供了强有力的测试。

另一种测试生物系统和人工系统之间等价性的方法是研究它们的反应模式。这是至关重要的,因为神经系统中的计算通常可以在它们产生的行为的背景下被理解。很明显,人类和机器在物体识别的测试中会犯截然不同的错误。在一项研究中,网络倾向于混淆人类甚至猴子都可以安全地区分的对象类别,例如狗和吉他,并且人类和猕猴都有个体图像之间的混淆模式,但深度网络却没有(图2b上图)。类似地,人类对被添加像素噪声或带通滤波干扰的图像的泛化效果远比深度网络好得多(图2b下图),并且不太容易被故意误导的图像影响。有一种广泛的观点认为,生物视觉表现出的鲁棒性是目前有监督的深度神经网络所缺乏的。

到目前为止,我们已经论证了神经网络,特别是来自深度学习的现代工具,有很大的潜力来塑造我们的神经计算理论。然而,我们提供了两个谨慎的理由。首先,我们应该注意不要夸大深度网络和生物系统之间现有的实验比较在多大程度上支持深度学习作为生物学的框架。其次,如果我们希望使用深度学习作为神经科学的框架,重要的是要清楚它允许我们提出哪些新的研究问题。如果我们希望调整学习规则或架构来模拟生物系统,我们从哪里开始呢?有哪些经验现象是深度网络可以预测而经典神经科学的传统模型不能预测的?哪些理论我们可以证实或证伪?在接下来的内容中,我们将采取步骤回答这些问题。

感知的学习规则

感知为检验深度学习假设的几个方面提供了一个关键的机会。例如,心理学家和神经科学家长期以来一直在争论知觉表征在多大程度上是由进化预先决定的,还是通过经验习得的。例如,灵长类动物的面部表征是先天的还是后天的仍有争议。深度学习假设通过观察神经代码是否可以从应用于相对通用的架构和起点的学习原理中产生,从而重新构建了这场辩论。一个强有力的候选者是梯度下降的监督学习,在这种学习中,表征是由关于与感官输入相关的标签、名称或类别的反馈来塑造的。这些更复杂的学习机制的某种组合是否可以在不构建特定领域内容的情况下解释跨模式知觉神经反应的全部多样性仍有待观察。

深度学习的第二个需要测试的是端到端学习。评估学习规则的一种方法是评估它们在自然数据中为深度网络提供丰富表示和复杂行为的能力。然而,这种方法具有挑战性。学习可能只能适度地提高与数据的匹配。此外,标准的监督模型,似乎需要大量的标记数据量—不像人类婴儿,在获得语言之前就获得了复杂的物体理解能力。使用梯度下降训练的网络的另一个挑战是确定一个生物学上现实的实现—也就是说,一个更新是局部的,网络中的向前和向后连接不需要对称。尽管机器学习研究人员为单个突触分配信用所采用的机制曾被认为在生物学上是不可信的,但我们现在有越来越多的候选实现需要实证测试。

考虑到这些困难,对不同学习原则的更直接测试可以关注在长时间训练中表征的变化,这为知觉学习的研究打开了大门。例如,图3显示了训练用于分类带有梯度下降的倾斜光栅的神经网络模型的预测。现有的神经和行为现象从模型中无缝地出现,例如信息最丰富的神经元的调谐功能的更强锐化(图3b,c),训练期间高级皮层阶段(即更深层次)的早期表征变化(图3d),更倾向于将粗辨别能力而不是细辨别能力转移到其他未训练的刺激(图3e),以及在训练中转移细辨别能力。关键的是,其他学习原则可能会做出质的不同的预测(图3f)。

图3 运用知觉学习范式学习的测试原则。

(a)知觉学习的深度网络模型。顺时针方向或逆时针方向的可视输入通过权重层流向报告旋转方向的输出层。ht和hr分别表示目标图像和参考图像的最后一个隐藏单元,p(CW)是目标图像相对于参考点顺时针方向的概率。

(b)灵长类动物初级视觉皮层(V1)因学习而测量的调谐曲线斜率变化。

(c)a部分所示模型中由于梯度下降学习导致的调谐曲线斜率变化。

(d)每一层突触变化峰值的时间。较高层的权重变化较早。在不同角度分离任务训练后,行为表现转移到不同的方向(Ori)和空间频率(SF)。

(f)学习规则的图式化概念。实验观测可能跨越该空间的较大区域,因此理论上可能与多个学习规则一致。交叉许多约束可以开始缩小候选学习算法集。

认知的深度学习

深度神经网络擅长将复杂的输入分类为不同的类别,如物体或单词。然而,同样重要的是我们大脑接下来的行动:我们将物体和项目连接到描述我们世界的不同知识结构中。例如,我们知道狗会叫,枫树是一种树。此外,我们根据多模态特征形成语义类别,将一个物体的书面和口头名称与其形状、气味和质地联系起来。这种对世界的概念性认识超越了物理外观,将各种甚至不可观察的物体属性相互联系起来。

人类和其他动物的行为是由一系列丰富的认知功能控制的,包括模块化记忆过程和注意力和任务级控制,以及用于导航、计划、心理模拟、推理和抽象推理的神经系统。这些认知功能是在一个区域专门化的地方实现的。如果我们致力于将深度学习模型部署为生物学理论,我们需要认真对待这样一个问题:认知和行为中如此复杂的结构是如何通过优化出现的。人类如何学习脱离物理对象属性的抽象表征?我们如何将知识组装成关系结构,如树、环和网格?我们如何从现有的子组件中组合新的行为?我们如何快速获取和概括新的记忆?

神经科学家可以利用他们熟悉的实验工具包,利用深度网络来研究认知,朝着更复杂的行为前进,并揭示深度学习假设目前的局限性。一个潜在的富有成效的方法是确定特定的问题或任务,在这些问题或任务中,人的表现和网络的表现有质的不同。

抽象和概括

深度网络在数据丰富、训练详尽的情况下表现出色。然而,他们很难将这些知识推广到由以前未见过的特征和物体组成的新环境中。相比之下,人类似乎能有效地进行概括。例如,大多数人可以在一个语言、货币和习俗都不熟悉的外国城市里航行,因为他们知道“问候”、“出租车”和“地图”等概念。而深度网络无法传递知识,因为它们没有形成在物理上不同的领域上抽象出来的神经代码。建立能够以这种方式泛化的深度网络将是机器学习的一个重要里程碑。

然而,神经科学家在寻求解决这个问题的方法时遇到了关键的方法挑战。首先,尚不清楚啮齿类动物和猕猴等实验动物是否进化出了上述神经机制。因此,目前尚不清楚用于记录和侵入性工具(如电生理学或光遗传学)是否可以用于研究动物的相关问题。此外,为了研究人类的抽象性,我们不得不使用宏观成像方法,如功能磁共振成像、脑磁图和脑电图,这些方法不太适合揭示神经回路中计算是如何展开的。使用这些工具的创造性新方法正在开发中。其次,人类(和其他动物)通常带着丰富的经验进入实验室,这些经验塑造了他们学习的方式。这使得人类和神经网络之间的直接比较变得复杂,因为很难给人工系统注入等价的先验,或者使用全新的刺激来消除人类的先验。第三,人类和神经网络在非常不同的时间尺度上学习。

在端到端学习系统中,抽象表示需要以经验为基础。一种可能性是,终身接触大量的感官数据,可能会通过有监督或无监督学习,使强不变性自然出现。有证据表明,位于灵长类动物腹侧流顶端的MTL中的细胞具有物理不变的编码特性。例如,在人类中,“概念”细胞编码著名的个人或地标,而不管它们是用图片还是文字表示的。这种MTL编码与分配中心空间紧密相关的编码方案在其他动物身上也有体现。统计学习的功能磁共振成像研究已经揭示了MTL中的神经相似性概括了刺激的对、线、映射或层次的关联强度。

与神经科学中基于模型计算的优点日益受到重视的同时,机器学习研究人员正在构建强大的深度生成模型,这些模型能够将世界分解为潜在因素,并重新组合这些因素,以构建逼真的合成3D图像。然而,到目前为止,尽管有一些有希望的努力,但将这些生成模型与控制系统连接起来以构建智能代理仍然具有挑战性。

学习中的资源分配

人类和其他动物在一生中不断学习。这种“持续的”学习可能会让人类学会第二种语言,让猴子适应新的社会角色,让啮齿动物在新的环境中生存。这与当前大多数人工智能系统形成鲜明对比,后者缺乏在初始任务上实现收敛后获得新行为的灵活性。制造能够像人类和其他动物一样不断学习的机器,被证明是当代机器学习研究中最棘手的挑战之一。然而,幸运的是,这个问题为神经科学研究开辟了新的途径,研究生物学如何解决持续学习的问题。

人们早就注意到,在神经网络中,根据初始任务A进行的学习通常会在后续任务B的训练中被覆盖(称为“灾难性干扰”)。即使网络有足够的能力执行两项任务,也会发生这种情况。在人类中,新的学习有时会降低现有的性能,例如在编码了对A - B之后记忆关联对A - C,但一般来说,干扰效应远不如神经网络那么显著。

一种流行的模型认为,哺乳动物已经进化到通过使用海马体和新皮层中的互补学习系统来解决持续学习的问题。与大脑皮层不同的是,海马体可以快速学习特定经历的稀疏(或“模式分离”)表征,通常被称为“情景记忆”,这些记忆在休息或睡眠期间离线回放。海马重放为过去和现在的经历提供了虚拟交织的机会,有可能使记忆逐渐整合到新皮层回路中,从而避免灾难性干扰的问题。这一理论得到了大量证据的支持,包括发现海马体损伤会导致逆行性遗忘,以及海马体中基于实例的记忆(或“回忆”)与新皮层中对过去经验的总结(或“熟悉”)之间的双重分离。近年来,过去经验的人为重放已经成为一个关键因素,使深度网络能够在时间相关的环境中表现出强大的性能,包括用于动态视频游戏的深度强化学习代理。令人高兴的是,这使得理论学家在生物智能中持续学习的计算解决方案与AI之间建立了联系。互补学习系统框架的适应性使其能够解释看似矛盾的现象,例如MTL结构在快速统计学习中的参与。

尽管越来越多的证据表明离线回放对巩固记忆很重要,但持续学习的问题也给神经科学家提出了新的问题。生物学习是否被主动划分以避免灾难性干扰?与神经网络不同,动物并不总是能从交叉学习条件中受益(想象一下同时学习小提琴和大提琴)。来自人类类别学习的其他证据表明,人类知识可能会被时间和环境主动划分。事实上,在机器学习文献中,有希望的持续学习解决方案依赖于对权重子空间的识别,在这些子空间中,新的学习最不可能引起回溯性干扰,例如通过“冻结”更有可能参与现有任务的突触。当这些工具与一个门控过程结合在一起时,这些工具会更有效。另一种有趣的可能性是,无监督过程通过根据上下文聚类神经表征来促进生物系统中的持续学习。奇特的“表征漂移”现象(神经代码随着时间不可预测地弯曲)可能反映了在不同环境下信息分配到不同神经回路的情况,使任务知识能够以干扰最小化的方式进行划分。

关于资源分配的一个更普遍的问题是,生物系统如何在任务之间既能最小化负迁移(干扰)又能最大化正迁移(概括)。一种理论观点认为,生物控制过程中固有的能力限制是对这一难题的回应。通过深度网络的模拟,Musslick等人表明,共享和单独的任务表现出具有混合的成本和收益,共享代码使任务之间的泛化具有任务之间的干扰风险。他们认为,大脑已经通过促进共享神经代码找到了解决方案,这反过来又能实现强转移,部署控制过程来排除可能引发干扰的无关任务。他们认为,这回答了为什么尽管大脑由数十亿个神经元和数万亿个连接组成,人类却难以同时处理多项任务。

理解深层网络

为了充分实现深度神经网络用作大脑功能科学理论,我们需要了解它们是如何工作的。然而,深度网络执行的计算包含了数百万个可训练的参数,因此它们被称为“黑盒”。然而,尽管如此复杂,在神经网络中,我们可以访问学习过程中的每个突触权重和单元激活,这在动物模型中仍然是不可能的。这些考虑提出了一些棘手的问题,涉及深度网络作为神经模型的效用,以及更普遍的问题,通过计算模型“理解”神经过程意味着什么。

到目前为止,许多利用深度学习工具包的神经科学家更喜欢使用现成的黑盒深度网络模拟作为神经模型。然而,理论神经科学家、物理学家和计算机科学家之间的合作已经为一种新的方法铺平了道路,这种方法使用理想化的神经网络模型来理解他们学习的数学原理,并将结果用于预测或解释心理学或神经科学中的现象。为了使这种努力易于处理,必须简化深层网络模型(图4),例如通过使用线性激活函数(“深层线性”网络)(图4a-c)或特殊结构的环境。通常,深度网络的行为在“极限”情况下变得更简单,例如当每层神经元的数量向无穷远发散(无限宽极限)(图4d),或者当数据样本和模型参数的数量都向无穷远发散,但它们的比例是有限的(高维极限)(图4e,f)。矛盾的是,无限大小的网络比单元更少的网络更可解释,因为它们的学习轨迹更稳定,不容易被损失景观中糟糕的局部最小值所阻碍,从而导致次优结果(图4d)。利用这些简化的假设,研究人员可以得出特定网络中每个突触将遵循的学习轨迹的精确解(图4a, b, d)。这些网络理想化产生了对关于网络行为的复杂问题的数学见解,包括为什么深度网络通常训练得更慢(图4c),为什么一层一层的统计学习的初始阶段让人产生临界期可塑性(“无监督预训练”)可以加速未来的梯度下降学习(图4c),以及为什么对未见数据的泛化在过渡到过度参数化(图4e,f)。

如果深度学习是答案,那么问题是什么?_第3张图片

图4 使用理想化的模型来理解深度网络。

(a,b)深度神经网络中的错误纠正学习过程通常在计算机上模拟,可以表现出复杂的训练错误动态(a)和复杂的突触权重动态(b)。通过简化神经非线性,深度线性网络允许从某些初始化得到训练误差动力学(a)和权重动力学(b)的精确解析解,绘制为虚线曲线。这些解决方案明确地描述了训练过程中每个权重的轨迹,无需模拟这些网络,并直接揭示了数据集统计数据对学习动态的影响。

(c)解析解已经阐明了各种现象,包括深度线性网络中的训练速度如何取决于网络初始化。如图所示,从小随机权重开始的深度线性网络随着深度的增加而呈指数级缓慢训练,那些无监督分层预训练的网络线性训练,并且具有大正交初始化的网络的训练速度与深度无关。

(d)在具有许多非线性神经元的非常大的“宽”网络中,学习动态可以简化。不同大小的非线性网络在不同随机初始条件下训练同一任务的训练误差示意图。具有少量神经元的小型网络的模拟通常表现出复杂的轨迹(浅紫色)。相比之下,具有许多神经元的大型网络的模拟可靠地找到了零错误的解决方案,并采取类似的轨迹(暗紫色)。值得注意的是,当神经元的数量在特定的初始化状态下趋于无穷大时,其轨迹可以解析地描述(虚线红色)。

(e,f)可控制的设置还可以通过对数据生成方式进行假设来实现。在一种方法中,“教师”神经网络为“学生”神经网络标记数据。该设置允许对训练(蓝色)和测试(浅蓝色)误差进行分析性描述,并允许对过度训练现象进行分析。如f所示,学生-教师设置可以对“高维”区域的泛化误差进行分析预测(红色虚线),其中数据相对于权重的数量是稀缺的。这些预测与模拟的大型网络(紫色点)的性能密切匹配,并解释了为什么泛化误差在从过度参数化到参数化的过渡阶段达到峰值。

最近,这种方法已被应用于语义认知的研究(图5)。在生长过程中,儿童会经历准离散阶段,在这个阶段他们会迅速获得新的类别或概念。他们的学习也是高度结构化的:例如,语义知识是逐步分化的,因为孩子们先学会更广泛的等级区别(“动物”和“植物”),再学会更细微的区别(“玫瑰”和“雏菊”),并表现出刻板的错误(比如认为蠕虫有骨头)。已知在结构丰富的数据(图5a)上训练的深度网络表现出这些现象,但直到最近才显示出:误差面中出现所谓的鞍点(图5c),也就是类似阶段的过渡,输入-输出相关性的奇异值随着时间的推移驱动学习(图5a-d),而语义错觉来自于牺牲异常的准确性以满足全局监督目标(图5e)。此外,这些现象可以被证明是深度本身的结果,出现在深度线性网络,而不是浅层网络(图5c,e)。这凸显了神经科学家研究学习动力学的重要性,即学习所经历的轨迹,而不是简单地检查已经融合的网络中的表征。

如果深度学习是答案,那么问题是什么?_第4张图片

图5 深度线性神经网络的发展轨迹。

(a)一个理想化的等级环境。项目(叶节点)具有许多属性,例如“会飞”或“有根”。树中邻近的项目更有可能共享属性。

(b)在深度线性网络中,通过学习对每个项目的内部表示进行二维嵌入,以输出每个项目的属性。网络表现出渐进式的分化,经过一系列的阶段,在这些阶段中,高级的区分在低级的区分之前被学习。

(c)如图所示,只有深度网络在学习中表现出准阶段样过渡,这种过渡来自于误差表面的鞍点。

(d)对于一类层次结构,学习速度随层次结构的等级而下降,网络表现出从最宽的区别开始的渐进分化。

(e)深度而非浅层网络在学习过程中会在特定的项目和道具上犯短暂的错误(比如断言“蠕虫有骨头”),这让人联想到人类语义发展。

一个潜在的担忧是,以这种方式获得的见解可能无法扩展,因为模型是理想化的,它避开了最先进的深度网络的混乱复杂性,并做出了对生物学来说是错误的假设(例如线性转导,或无限宽度的层)。然而,我们认为,神经理论很好地服务于对复杂现象的分析公式,这些公式对神经电路和系统产生了具体的、可证伪的预测。我们希望神经科学家将深度网络模型的简化纳入他们的神经理论规范集,而不是仅仅寻求大脑和完全成熟的深度学习系统之间的对应关系,这些系统几乎没有希望被理解。

总结

深度学习模型可以为神经科学提供很多帮助。最令人兴奋的是,它有可能超越人工制作函数,并理解计算是如何从经验中产生的。神经科学家已经认识到这一机遇,但对它的利用才刚刚开始。从这个角度来看,我们试图为希望将深度网络用作神经理论的研究人员提供一个路线图。我们对神经科学家的主要劝告是使用深度网络作为预测模型,进行可证伪的预测,并使用模型理想化方法来提供对它们如何以及为什么可能捕捉生物现象的真正理解。我们警告不要使用越来越复杂的模型和模拟,这些模型和模拟超过了我们的概念洞察力,并且不鼓励盲目搜索生物和人工系统形成的神经代码中的对应关系。相反,我们希望神经科学家能够建立模型,以丰富而富有成效的方式解释人类行为、学习动态和神经编码,但不失去经典神经模型固有的可解释性。

你可能感兴趣的:(深度学习,人工智能)