用深层神经网络解释大脑的运作

姓名：韩宜真

学号：17020120095

转载自：https://mp.weixin.qq.com/s/iO3g1sTJxr_pSu7HJup9zw

【嵌牛导读】人工智能领域常提到的神经网络与大脑的感官机制有极大的相似之处

【嵌牛鼻子】神经网络分层处理

【嵌牛提问】科学家们是如何将人脑的视觉、听觉、嗅觉的机制与计算机算法联系起来，并优化人工智能的呢？

【嵌牛正文】Daniel Yamins，麻省理工学院博士后的一位计算神经科学，有时会为了他的机器视觉项目辛苦工作到午夜以后。他煞费苦心地设计了一个系统，可以识别图片中的物体，而不管其大小、位置和其他特性的变化ーー这是人类可以轻松做到的。这个系统是一个深层神经网络，一种受到人类大脑启发的算法。Yamins指出一个神经网络可以像大脑一样分层次地处理场景的特征，这可以匹配人类识别物体的能力。

斯坦福计算神经学家Daniel Yamins

仅在人工智能领域，神经网络就算是一个值得注意的成就，在未来几年内，神经网络将成为人工智能技术的宠儿。但这并不是Yamns和他的同事们的主要目标。对他们和其他神经科学家来说，他们想利用深层神经网络来理解大脑结构，特别是，科学家们一直在努力理解大脑内部专门处理各种任务背后的原因。他们不仅想知道为什么大脑的不同部分做不同的事情，而且想知道为什么这些不同会如此具体: 例如，为什么大脑有一个区域用来识别一般的物体，而特别是面孔？用深层神经网络表明，这种专业分工可能是解决问题的最有效方法。

类似地，研究人员已经证明，最擅长分类言语、音乐和模拟气味的深层网络，其结构似乎与大脑的听觉和嗅觉系统平行。这些相似之处也出现在深层网络中，这些网络可以观察2d 场景并推断其中3d 物体的基本属性，这有助于解释生物感知是如何快速而丰富的。所有这些结果都暗示，大脑神经系统的结构体现了它们所承担的任务的某些最优解决方案。

鉴于神经科学家一直对大脑和深层神经网络之间的比较持怀疑态度，这些成功更是出人意料，因为深层神经网络的工作机制可能是难以解释的。麻省理工学院的神经学家 Nancy Kanwisher 说: “老实说，直到最近，我的实验室里还没有人用深度神经网络。”。“现在，他们中的大多数人都在定期对他们进行培训。”

深度神经网络与远见

人工神经网络是由称为感知机的相互连接部件构成的，感知器是生物神经元的简化数字模型。网络至少有两层感知器，一层用于输入层，另一层用于输出层。将一个或多个“隐藏”层夹在输入和输出之间，你就得到了一个“深层”神经网络; 隐藏层的数量越多，网络就越深。

可以训练深度神经网络来挑选数据中的模式，例如表示猫或狗图像的模式。训练包括使用一种算法迭代调整感知器之间连接的强度，以便网络学会将给定的输入(图像的像素)与正确的标签(猫或狗)联系起来。一旦经过训练，深度网络就能够准确地分类它以前从未见过的输入图片。

在深度神经网络的一般结构和功能中，并不那么追求模仿大脑，其中调整后的神经元之间的连接强度反映了学习后的联系。神经科学家会指出大脑和神经网络类比中包含的局限性: 例如，单个神经元可能比“哑”感知器更广泛地处理信息，而深层网络通常依赖于感知器之间的一种被称为反向传播的交流，这种交流似乎在神经系统中并不存在。然而，对于计算神经科学家来说，深层网络有时似乎是建立大脑部分模型的最佳选择。

一个解释什么是深度学习网络的数字

研究人员开发视觉系统的计算模型受到了我们所知的灵长类视觉系统的影响，特别是负责识别人、地点和事物的通路的脑区，这称为腹侧视觉流（ ventral visual stream）。在人类中，这种腹侧通路从眼睛开始，然后进入丘脑的外侧膝状核（lateral geniculate nucleus），一个传递感觉信息的中继站。外侧膝状核连接初级视觉皮层中一个叫v1的区域，下游是v2和v4区域，最终通向颞下皮层。(非人类灵长类动物的大脑具有同源结构。)

这背后关键的神经科学见解是，视觉信息处理是分层次的，分阶段进行的: 早期阶段处理视野中的低级特征(如边缘、轮廓、颜色和形状) ，而复杂的表征，如整个物体和面孔，只出现在后期的下颞叶皮层（inferior temporal cortex）。

视觉信息流通过大脑腹侧视觉流的图表

这些见解指导了 Yamins 和他的同事们设计的深度网络。他们的深层网络有隐藏层，其中一些层执行“卷积” ，将相同的滤波器应用到图像的每一部分。每个卷积都捕获了图像的不同基本特征，比如边缘。更基本的特征在网络的早期阶段被捕捉到，而更复杂的特征在更深的阶段被捕捉到，就像灵长类动物的视觉系统一样。当一个像 CNN 这样的卷积神经网络接受分类图像的训练时，它会从随机初始化的过滤器值开始，然后学习手头任务所需的正确值。

该团队的四层 CNN 可以识别出5,760张逼真的3D 图像中描绘的八类物体(动物、船只、汽车、椅子、面孔、水果、飞机和桌子)。图片中的物体在姿势、位置和比例上差别很大。即便如此，深层网络的性能与人类相当，人类在识别物体方面非常擅长，尽管存在差异。

Yamins 不知道的是，计算机视觉领域正在酝酿的一场革命也将独立验证他和他的同事们正在采取的方法。在他们完成 CNN 的建设后不久，另一个名为 AlexNet 的 CNN 在年度图像识别竞赛中声名鹊起。这也是基于一个层次化的处理架构，在早期阶段捕捉基本的视觉特征，在高级阶段捕捉更复杂的特征; 它已经接受了120万个标记图像的训练，这些图像呈现了1000个类别的物体。在2012年的竞赛中，AlexNet 击败了所有其他测试过的算法: 根据竞争的指标，AlexNet 的错误率只有15.3% ，而最接近的竞争对手的错误率为26.2% 。随着 AlexNet 的胜利，深度神经网络成为人工智能和机器学习领域的有力竞争者。

如果他们的 CNN 模仿了一个视觉系统，它能预测神经对一个新奇的图像的反应吗？为了找到答案，研究者首先确定了 CNN 中人工神经元的活动如何与两只恒河猴腹侧视觉流中近300个位点的活动相对应。

然后，他们利用 CNN 预测，当猴子看到不属于训练数据集的图像时，这些大脑区域会做出何种反应。“我们不仅得到了很好的预测结果，而且还发现了解剖学上的一致性，”亚明斯说: CNN 的早期、中期和晚期层分别预测了早期、中期和高级脑区的行为。形式紧随功能。

坎维舍记得2014年出版时，这个结果给他留下了深刻的印象。“这并不意味着深层神经网络中的单元在生物物理学上就像神经元一样，”她说。“尽管如此，在功能匹配中还是存在令人震惊的特异性。”

专注于声音

在 Yamins 和 DiCarlo 的研究结果出来之后，人们开始寻找其他更好的大脑深层网络模型，尤其是那些研究不如灵长类动物视觉系统那么透彻的区域。例如，麻省理工学院的神经科学家 Josh McDermott 说: “我们对听觉皮层，尤其是人类的听觉皮层，仍然没有很好的了解”。深度学习是否有助于产生关于大脑如何处理声音的假说？

麻省理工学院的 Josh McDermott 的照片

这就是McDermott的目标。他的团队，包括 Alexander Kell 和 Yamins，开始设计深度网来分类两种声音: 语音和音乐。首先，他们硬编码了一个工作原理已被详细了解的耳蜗模型ーー内耳中的声音传导器官，其来处理声音，并将声音分类成不同频率的通道，作为输入到卷积神经网络。

CNN 接受过训练，既能识别语音音频片段中的单词，也能识别混有背景噪音的音乐片段的类型。团队寻找了一种深层网络体系结构，它可以在不需要大量资源的情况下精确地执行这些任务。

三种架构似乎是可能的。深度神经网络的两个任务能共享输入层，然后分成两个不同的网络。在另一个极端，任务可以为其所有处理共享相同的网络，只有在输出阶段才进行分割。或者它可能是介于两者之间的几十个变体之一，在这些变体中，网络的某些阶段是共享的，而其他阶段是截然不同的。

不出所料，在输入层之后有专门路径的网络超过了完全共享路径的网络。然而，一个混合网络---- 在输入阶段之后有七个公共层，然后是两个分开的五层网络---- 和完全分开的网络做得差不多。McDermott和他的同事们选择了混合网络作为计算资源最少的网络。

可以执行两个任务的网络的三种体系结构的可视化比较

当他们在这些任务中将混合网络与人类进行对比时，结果非常吻合。这也与一些研究人员的早期结果相吻合，这些结果表明，非初级听觉皮层有处理音乐和语言的不同区域。在2018年发表的一项关键测试中，该模型预测了人类受试者的大脑活动: 模型的中间层预测了初级听觉皮层的反应，深层预测了听觉皮层的较高区域。这些预测大大优于那些不是基于深度学习的模型。

“科学的目标是能够预测系统将要做什么，”McDermott说。“这些人工神经网络让我们离神经科学的目标更近了一步。”

Kanwisher最初怀疑深度学习对她自己的研究是否有用，受到麦克德莫特模型的启发。Kanwisher 最著名的工作是在20世纪90年代中后期，她的工作表明，下颞叶皮层的一个区域称为梭状回面孔区(FFA)是专门用于面孔识别。当受试者盯着人脸图像时，FFA 明显比盯着房屋等物体图像时更活跃。为什么大脑将面孔的处理与其他物体的处理分离开来？

传统上，回答这些“为什么”的问题对神经科学来说一直很困难。所以 Kanwisher 和她的博士后 Katharina Dobs 以及其他同事，转向深度卷积1寻求帮助。他们用计算机视觉技术替代了 AlexNet---- 一种叫做 VGG 的更深层次的卷积神经网络技术---- 并在特定的任务中训练了两个独立的深度网络: 识别面孔和识别物体。

Kanwisher现在是哥伦比亚大学的博士后，和 MIT 的 McDermott 一起评估了不同结构策略在神经网络设计中的有效性，这些神经网络可以执行多种听觉任务。

研究小组发现，被训练识别面孔的深层网络不善于识别物体，反之亦然，这表明这些网络以不同的方式表示面孔和物体。接下来，团队在两个任务上都训练了一个网络。他们发现，这个网络已经在内部组织起来，在网络的后期阶段将面孔和物体的处理分离开来。“ VGG 在后期会自发地分离，” Kanwisher 说。“在早期阶段不必分离。”

这与人类视觉系统的组织方式是一致的: 分支只发生在腹侧视觉通路共享的早期阶段的下游(外侧膝状核和区域 v 1和 v 2)。“我们发现，面孔和物体处理的功能性特化自发地出现在经过训练的深层网中，就像人类大脑中的这种情况一样，”现在就职于吉森的贾斯特斯 · 利比希大学的多布斯说。

坎维舍说: “最令我兴奋的是，我认为我们现在有了一种方法来回答为什么大脑是这个样子的问题。”。

气味的层次

越来越多的这样的证据来自于对气味感知的研究。去年，哥伦比亚大学的计算神经科学家 Robert Yang 和他的同事设计了一个深层网络来模拟果蝇的嗅觉系统，这个网络已经被神经科学家详细地绘制出来了。

第一层气味处理涉及到嗅觉感觉神经元，每个神经元只表达大约50种气味受体中的一种。所有相同类型的感觉神经元，平均大约10个，延伸到处理层次结构的下一层的单个神经簇。

因为在大脑这一层的每一侧都有大约50个这样的神经簇，这就在感觉神经元和相应的神经簇之间建立了一对一的映射。神经簇与下一层的神经元有多个随机连接，称为凯尼恩层，该层有大约2500个神经元，每个神经元接收大约7个输入信号。凯尼恩层被认为与气味的高级表征有关。最后一层大约20个神经元提供了苍蝇用来引导其与气味相关的行为的输出(杨说，没有人知道这种输出是否符合气味的分类)。

为了看看他们是否能设计一个计算模型来模拟这个过程，Yang 和他的同事们首先创建了一个数据集来模拟气味，这个数据集不会像图像那样激活神经元。如果你把两张猫的图像叠加起来，一个像素一个像素地叠加，得到的图像可能看起来一点也不像猫。然而，如果你混合两个苹果的气味，它仍然可能闻起来像一个苹果。“这是我们用来设计嗅觉任务的关键洞察力，”杨说。

他们用四层构建了他们的深层网络: 三层模拟果蝇的加工层，一层输出层。当杨和他的同事们训练这个网络来分类模拟气味时，他们发现这个网络的连接性与果蝇大脑中看到的非常相似: 从第一层到第二层的一对一映射，然后是从第二层到第三层的稀疏和随机(7对1)映射。

这种相似性表明进化论和深层网络都达到了最优解。但杨对他们的结果仍持谨慎态度。“也许我们只是运气好，也许它不能一概而论，”他说。

测试的下一步将是进化出深层的网络，这些网络可以预测一些尚未被研究的动物嗅觉系统的连接性，然后可以被神经科学家证实。“这将为我们的理论提供一个更加严格的检验，”

不仅仅是黑匣子

人们常常嘲笑深度网络无法将模型应用到偏离训练数据集太远的数据集上。由于模型是黑匣子而变得臭名昭著。通过研究数百万甚至数十亿的参数来解释一个深层网络的决定是不可能的。难道大脑某个部分的深度网络模型不仅仅是用一个黑盒子替换另一个黑盒子吗？

在杨的看法中，并不完全是这样。他说: “这仍然比大脑更容易研究。”。

去年，DiCarlo 的团队公布的研究，说明了深层网络的不透明性及模型缺少泛化能力。研究人员使用了一个版本的 AlexNet 来模拟猕猴的腹侧视觉流，并找出了人工神经元单位和猴子的v4区域的神经网络之间的对应关系。然后，使用计算模型，他们合成图像，他们预测将引出异常高水平的活动在猴子的神经元。

在一个实验中，当向猴子展示这些“非自然”的图像时，他们将68%的神经部位的活动提高到超过正常水平; 在另一个实验中，这些图像激活了一个神经元的活动，同时抑制了附近神经元的活动。两种结果均用神经网络模型进行预测。

对于研究人员来说，这些结果表明深度神经网络确实可以概括到大脑，而且并不完全是深不可测的。“然而，我们承认... ... 许多其他‘理解’的概念仍有待探索，以确定这些模型是否以及如何增加对大脑的理解，”他们在论文中写道。

深度神经网络和大脑在结构和性能上的趋同并不一定意味着它们以同样的方式工作; 在某些方面它们显然不是这样的。但是，两种类型的系统可能有足够的相似之处，遵循相同的广义管理原则。

模型的局限性

McDermott 在这些深度网络研究中看到了潜在的治疗价值。今天，当人们失去听力时，通常是由于耳朵的变化。大脑的听觉系统必须应付受损的输入。McDermott 说: “因此，如果我们有听觉系统其他部分正在做什么的好模型，我们就能更好地知道如何才能真正帮助人们听得更清楚”。

尽管如此，麦克德莫特仍然对深层卷积网络的作用持谨慎态度。“我们一直在努力尝试理解神经网络作为模型的局限性，”他说。

McDermott 实验室的研究生 Jenelle Feather 和其他人关注的是元数据，这是一种物理上截然不同的输入信号，但在系统中会产生相同的表示。例如，两个音频转换器有不同的波形，但是对于人类来说声音是一样的。通过使用听觉系统的深层网络模型，研究小组设计了自然音频信号的转换器; 这些转换器像音频剪辑一样激活了神经网络的不同阶段。如果神经网络精确地模拟了人类的听觉系统，那么转换器的声音也应该是一样的。

但事实并非如此。在神经网络的早期阶段，人类识别出产生与相应音频剪辑相同的激活的元音。然而，这并不适用于在网络更深层次的阶段中能够匹配激活的元数据: 这些元数据对人类来说听起来就像噪音。McDermott 说: “因此，尽管在某些情况下，这些模型能够很好地复制人类的行为，但它们也有非常错误的地方。”。

在斯坦福大学，Yamins 正在探索这些模型尚不能代表大脑的方法。例如，许多这样的模型需要大量的标记数据来进行训练，而我们的大脑可以毫不费力地从一个例子中学习。人们正在努力开发无监督的深层网络，这种网络可以同样有效地学习。深层网络还在使用反向传播算法学习，大多数神经科学家认为这种算法不能在真正的神经组织中工作，因为大脑缺乏适当的连接。“在某种程度上，生物学上似是而非的学习规则确实有效，这方面已经取得了一些重大进展，”Yamins说。

麻省理工学院的认知神经科学家 Josh Tenenbaum 说，虽然所有这些深层网络模型都是真正的进步，但它们主要是做分类任务。然而，我们的大脑所做的远远不止对外界事物进行分类。我们的视觉系统可以理解表面的几何形状和场景的3D结构，并且可以推断潜在的因果因素ーー例如，它可以实时推断出一棵树消失只是因为一辆汽车从它前面经过。

为了理解大脑的这种能力，Ilker Yildirim与 Tenenbaum 和他的同事一起建立了一个高效的反向图形模型。它从描述要在背景上渲染的脸的参数开始，比如它的形状、纹理、光线方向、头部姿势等。通过计算机图形学中的生成模型，根据这些参数创建了一个3d场景; 然后，经过不同的处理阶段，它会生成一个从特定位置观察到的场景的2d图像。

研究人员利用来自生成模型的3d 和2d 数据，训练了一个改进版的 AlexNet 来预测来自不熟悉的2d图像的3d场景的可能参数。Tenenbaum说: “系统学会了从影响到原因，从2D 图像到产生它的3D 场景的倒推”。

研究小组通过使用模型对恒河猴颞下皮层活动进行预测来检验他们的模型。他们向猕猴展示了175张图片，展示了25个个体的7个姿势，并记录了“面部区域”的神经特征。“面部区域”是专门用于面部识别的视觉处理区域。他们还向他们的深度学习网络展示了这些图片。在网络中，第一层人工神经元的激活代表二维图像，最后一层的激活代表三维参数。Tenenbaum说: “一路走来，它经历了一系列的转变，这些转变似乎基本上把你从2D 变成了3D”。他们发现，这个网络的最后三层与猕猴面部处理网络的最后三层非常吻合。