神经网络算法揭示人类听觉行为和大脑皮层处理层次

任务优化的神经网络在预测大脑响应和揭示人类听觉行为、大脑皮层处理层次的应用

A Task-Optimized Neural Network Replicates Human Auditory Behavior, Predicts Brain Responses, and Reveals a Cortical Processing Hierarchy

概要

听觉神经科学的一个核心目标是构建量化模型来预测皮层对自然环境中声音的响应。研究人员针对语音和音乐识别优化了一种层次化的神经网络。网络在初期进行共享处理,然后分为两个通路,即语音通路和音乐通路,可能刻画了人类的皮层组织形式。设计的神经网络在这两类识别任务中和人类相媲美,同时自然地表现出和人类类似的错误情形,这在一定程度上说明了所设计的神将网络模型和人类的表现受到相同的限制。网络对fMRI体素的响应进行预测,其结果大幅度优于传统的谱-时间滤波模型。

引言

人类从自然世界中提取大量的声音信息。人类的这种能力是将进入耳朵的声音波形通过神经元的处理转换成大脑皮层的表征来实现的,这种表征方式被认为能够使重要的行为声音特性变得清晰。尽管人们对声音的外围处理有很多了解,但对大脑听觉皮层的了解却比较少,同时关于听觉皮层的一些区域和听觉通路的组织结构情况仍未研究透彻。

对听觉皮层的理解在一定程度上受限于缺乏适当的量化模型来解释神经回路将声波形式转换成与行为相对应的皮层表征的这一过程。现有的听觉处理模型大部分局限于一个或两个阶段,典型的方法是基于类谱图输入的线性滤波。神经响应是声谱图的非线性函数,同时最先进的机器听觉系统是高度非线性的,这表明听觉识别需要恒定性,而这种恒定性无法从通常采用的线性听觉模型操作中获得。

研究人员设计了一种多阶段计算模型,用来处理现实世界中的听觉任务。设计算法模型的基本假设是,日常的识别任务可能会对听觉系统施加特定的约束,基于这些听觉任务而优化的模型可能会收敛到类似大脑的表征转换。根据任务,利用了最近在深度学习方面的进展,对深度神经网络进行优化,将声音波形映射到有行为意义的类别(单词或音乐类型)。

通过将其任务性能与人类在各种条件下的性能进行了比较,对设计的网络进行了评估。该网络可以像人类一样识别单词和音乐类型,并且自然地呈现出和人类相似的错误模式。然后,利用该网络的特征来预测整个听觉皮层的fMRI体素响应,发现它比通常使用的光谱时间滤波模型具有更好的预测结果。

基于实验结果,该网络可以在一定程度上来说明听觉神经科学中一个尚未解决的问题:听觉皮层计算在多大程度上是由一系列阶段组成的层次结构,可能与皮层区域相对应。在非人类动物中,细胞结构和示踪研究与三层层次组织一致,各种生理证据来源也印证了层次组织。然而,人类是否具有同样的特性尚不明确。在人类中,层次结构最常用于语音处理,其中特定于语音的响应只出现在主要区域之外,暗示了多个处理阶段。然而,目前还不清楚这些地区差异是否反映了处理阶段的顺序。事实上,还有一些研究人员反对层次处理结构,他们提出了一个解剖学上的分布式组织形式。

本文提出的神经网络模型本质上是层次化的,一个阶段的输出形成下一个阶段的输入,因此它提供了一种可操作并且可评估听觉皮层不同部分反应复杂性的方法。该方法在视觉系统中取得了明显的成效,视觉系统中的层次结构也已被很好地建立,不同的网络层预测了视觉皮层层次结构的不同阶段的反应。使用类似的方法来探索听觉皮层不同部位的反应复杂性,大型组织在这些部位的稳定性较差。我们发现中间的模型层最能解释初级听觉皮层反应,而较深层的模型层最能解释非初级区域的体素。这些结果为人类听觉皮层的计算层次提供了定量证据。

结论

网络任务

在建立神经网络模型的过程中,使用两个与行为相关的任务,这两类任务可以获取大量的标记数据:单词识别和音乐类型识别。

单词任务要求识别587个单词中的哪一个位于2秒演讲节选的中点;流派任务要求识别41个音乐流派中一个2s音乐剪辑属于哪个流派。

演讲和音乐训练的例子来自于大型的标记语料库和被叠加在不同类型的真实世界的背景噪音,使任务更具挑战性和真实性。尽管与我们的文字识别任务类似的任务对人类来说在生态上是重要的,但体裁任务之所以被选择,主要是因为当代训练深度神经网络的方法需要大型的、有标记的数据集,而与其他音乐描述符不同,体裁标签目前可用于数百万个音乐片段。

网络的输入是一个耳蜗报(cochleagram),一种模拟耳蜗信号处理的声音信号的时频分解。对网络参数进行优化,将耳蜗报映射到两个任务的类标签。

网络架构优化

该网络由一系列层组成,实例化了几种标准操作:伴随线性滤波器的卷积、逐点非线性、标准化和池化。神经网络训练通常与网络滤波器权值的优化有关,但网络也由能够显著影响性能的体系结构超参数定义,例如包括网络层的数量、每层的单元数量、每层选用的操作、过滤器大小规模和池化操作的类型。对特定的任务通常可以使用已经表现出良好的任务性能的架构进行处理。然而,由于本文使用的两个任务对于卷积网络来说相对较新,并且希望单个网络同时执行两个任务,所以除了网络权重之外,研究人员跨体系结构超参数进行了优化。通过两阶段的优化过程来选择模型架构,首先分别独立学习在单个任务中表现良好的架构,然后学习将架构组合成执行这两项任务的单个网络的方法。

在第一阶段,生成了近200个候选架构。对于每种结构,通过随机梯度下降法对单词识别或音乐类型任务的网络权重进行优化。通过将每个单词或体裁的样本与不同信噪比下的背景噪声进行叠加,生成了数百万个标记训练样本。训练结束后,对每种架构的性能进行评估。最终实验得出了一个体系结构,在两个任务上分别都可以达到了效果最优,该架构有12层处理:5个卷积、3个池化、2个标准化和2个完全连接的层。

在第二阶段,寻找一个同时处理单词和类型任务,并且都表现良好的模型。根据先验知识,语音和音乐(以及其他潜在的)任务似乎使用听觉神经元的共享初始阶段来处理。因此,创建了在第一阶段中发现的体系结构的分支版本(图1C),在分支为两个特定于任务的处理流之前,共享一些初始处理层。实验共设计了7种网络,在分支网络中没有改变池化层和规范化层中的操作,和第一阶段架构相同。使用随机梯度下降法,为这两个任务联合优化的网络训练滤波器权值,然后评估任务性能。

根据评估结果可以发现,在分类层之前,具有完全分离路径的网络架构比具有共享处理的架构表现出更好的任务处理效果,这是因为完全独立的体系结构有更多的参数。然而,根据图1D,共享几个早期层的架构几乎与完全独立的架构具有相同的效果。基于节省资源的原则,选择了尽可能共享早期处理的体系结构,并且相对于完全分离的模型,不会显著损害任务性能。选定的体系结构(图1E)首先共享七层网络,然后分为两组五个特定于任务的层,输出层的响应可以解释为每个任务(即单词或类型)在类别上的概率分布。优化结果表明,一定程度的语音和音乐特定处理有助于获得良好的任务性能,但如果资源有限(例如,神经元数量),共享早期处理可能是有益的。由此产生的网络结构与最近在非初级听觉皮层中分离语音和音乐通路领域的研究证据一致。
神经网络算法揭示人类听觉行为和大脑皮层处理层次_第1张图片

Kell A J E, Yamins D L K, Shook E N, et al. A task-optimized neural network replicates human auditory behavior, predicts brain responses, and reveals a cortical processing hierarchy[J]. Neuron, 2018, 98(3): 630-644. e16.

你可能感兴趣的:(人工智能,深度学习,机器学习)