-探究人类听觉皮层中对歌曲有选择性的神经群体
A neural population selective for song
in human auditory cortex 读书报告
音乐在大脑中是如何表现的?虽然神经影像学揭示了对音乐的反应与其他声音相比,人们对音乐本身的神经编码知之甚少。为了解决这个问题,本实验开发了一种推断人类听觉皮层的典型反应组织(components)的方法,使用颅内对自然声音的反应,并进一步利用功能磁共振成像(FMRI)的优越覆盖范围来绘制其空间分配。推断的成分重复了许多先前的发现,包括对语音和音乐,但也揭示了一种新的组织,几乎只对唱歌的音乐作出反应。歌曲选择性无法用标准声学特征来解释,它位于语音和音乐选择性反应附近,并且在单个电极中也很明显。这些结果表明,音乐的表现被分成对不同类型音乐选择性的亚群,其中之一是专门用于歌曲分析的。
音乐是一种典型的人类特有的能力。为了探究人脑是否有专门用于音乐的机制,本实验使用了来自人脑的颅内记录(ECoG)来更广泛地检查音乐和自然声音的神经表征。该研究重复了许多先前的发现,同时还新发现了人脑听觉皮层中的一部分被专门用来响应有歌声的音乐。这一发现表明,人脑中含有一个特用于歌曲分析的神经群体。
1、颅内记录
测量了ECoG对165种不同自然声音的反应,这些声音包括了日常生活中常见的和可识别的声音。同时在15名患者中确定了一组272个电极对声音的可靠的响应等。
2、电极分解
由于可靠电极在受试者间的差异很大,且单个电极也表现出不同的反应,实验者尝试不分析单个电极而是将所有272个电极反应视作少量典型反应时间过程的加权和。每个组成时间过程都可能潜在地反映听觉皮层中不同的神经元群体,其权重反映了该群体对每个电极的贡献。为了识别成分,实验者将电极响应表示为一个矩阵,并且把这个矩阵分解为组织响应时间过程矩阵和组件电极权重矩阵的乘积。现在的问题是,构成矩阵的三个因子的分解是不唯一的且不稳定的。因此实验者确定了三个统计特性来对它们进行约束。
(1)相对于沉默,声音驱动的反应几乎总是兴奋性的;
(2)时间刺激和电极的反应都很稀疏;
(3)响应在时间上是平滑的,并且这种平滑程度因电极而异。
同时实验者也设计了捕捉这些特性的模型:
对响应时间过程建模,作为稀疏激活的卷积( )与平滑核( ),让它们分别为每个组件学习:
接下来,使用仅对响应和权重施加非负矩阵分解(NMF, Non-negative matrix factorization)的简单模型,得出了明显的关键结果。可得出15个组件,其中10个较为可靠。按其响应的总幅度和权重进行编号。
3、语音和音乐选择性组件
首先描述对语音或音乐做出选择性响应的三个组件。 实验者通过将ECoG成分(每个都是165维向量)的时间平均响应与每个fMRI体素(voxel)的时间平均响应进行回归,计算出所求映射。然后将回归权重在各个受试者之间平均,形成一个组图。这种发方法使实验者能够利用功能磁共振成像的密集和全面覆盖,为每个ecg衍生成分提供完整权重图的估计。我们有以下两个发现。
我们发现C1和C15组件几乎只对语音作出响应,二者非常相似,这与之前的研究一致。
我们发现C10组件对器乐和歌唱音乐都有强烈反应,对语音/声音产生了中间反应(可能反映了我们的组件模型对语音和音乐选择性还不能完美地分离)。
这些结果重复了实验者先前的fMRI发现,显示了非初级听觉皮层中不同的语音和音乐选择性簇。
4、歌曲选择性
关键新发现:有一个组件(C11)几乎只对唱出来的音乐有反应:对每一个与唱歌有关的音乐刺激都产生了高反应,而所有其他声音,包括讲话和器乐,几乎都没有反映(此处唱出来的音乐总有器乐作为背景)。而且C11对演唱音乐的反应显著高于对语音和器乐的反应之和。
5、假设驱动的成分分析
为了研究是否需要非负性和稀疏性等统计假设来检测语音、音乐和歌曲的选择性,实验者进行了对电极响应的加权和的学习,这近似于对三者的二元偏好(通过正则化回归),使用跨声音的交叉验证来防止过拟合。结果是二元歌曲选择性不能由语音和音乐选择性的加权和产生,这表明音乐选择性确实与语音/歌声选择性不同。
6、频谱时间调制统计的选择性
为了研究语音、音乐和歌曲的选择性是否可以用一般的声学表示来解释,如频谱时间调制。实验者设计了新的用自然声音和合成声音对照的实验。实验者测量了10名患者对一组新的36个自然声和相应的36个合成声音的ECoG的反应。实验者估计了165个声音实验中每个组成部分对这个新声音集的反应,进行了组成部分选择性的独立验证。
实验结果:
对调制匹配的合成声音产生的反应明显弱于自然声音;歌曲选择组件(C11)几乎只对自然演唱的音乐作出响应,而对自然语音、自然器乐和调制匹配的演唱音乐几乎没有响应。表明语音、音乐和歌曲选择性不能用标准频率和调制统计来解释。
7、为标准声学特性选择的组件
本部分详细研究了六个可靠的ECoG组件,其表现出较弱的类别选择性(对自然声音和合成声音的反应比之前研究的类别选择成分的反应更相似),并表明了标准声学特征的选择性证据。具体介绍了C2、C3、C4、C6、C7、C14对声音反应的特性。测量了通过标准声学特征、类别标签(即指语音和音乐选择性组件或歌曲选择性组件)或它们的组合可预测的跨声响应方差的总分数(利用Star Methood中的方法:测量通过标准声学特征、类别标签或它们的组合预测的跨声响应方差的总体比例)通过对比,发现标准声学特征预测的差异比类别标签更大。发现声学特征预测的方差总量在一些类别选择性分量中相对较高,推测可能是由标准声学特征和更高阶、类别特定特征(例如,音素结构)之间的跨自然声音的虚假相关性驱动的。而本实验的合成声音的方法通过排除声音的高阶特征有效地解决了这个问题。
8、单电级分析
研究人员测试了能否在不加其他成分的单电极中观察到关于语言, 音乐和歌曲的选择性, 根据之前的各项研究, 语言选择性在单电级中应当是最为明显的. 通过对其他实验数据的分析, 确定了具有特定选择性的电极, 对这些电极进行实验分析.
电极识别分为三个步骤:
(1) 测量所有声音类别的跨时间和刺激的平均反应, 这些声音类别都有5个以上的样例.
(2) 确定一个电极池, 这些电极对语音, 音乐和歌曲的反应有高度选择性和显著性.
(3) 在电极池中再划分出三组: 语音组, 音乐组, 歌曲组. 各组的电极对于各组所属的声响类别的反应明显高于其他组. 语音组对语音的反应高于其他类型.
实验表明, 语言选择性电极的数量远多于其他电极, 一些单电极具有歌曲和音乐的选择性, 但单电极的歌曲选择性较弱, 这暗示着之前的成分分析方法分离出了单电级中存在的弱的歌曲选择性. 研究者通过进一步实验证实了这个说法.
令人费解的是, 电极在受试者中的分布不均匀, 有可能受到了个体差异的影响. 为排查这个可能的问题, 研究者重复了15次数据驱动和假设驱动的成分分析, 每次都排除来自一个受试者的所有电极, 基于这个基础, 研究者仍在每种情况下能观察到一个明确的歌曲选择成分, 说明实验并没有受到个体受试者的驱动.
总而言之, 实验表明: 一些单电级确实具有歌曲选择性, 并且实验结果不会受到个体差异的干扰, 是一个稳定的结论.
用fMRI检测音乐和语言选择性预测
在fMRI相关的研究中, 往往很难检测到关于音乐和语言的选择性, 而在本次研究则很好的观察到了这些现象. 原因在于, 在本次实验中, 研究者借助了ECoG方法, 其能够对神经活动进行更细粒度的测量, 因而更容易发现更粗粒度的fMRI反应模式.
ECoG测量的歌曲选择性成分无法在之前识别的fMRI成分中检测到. 反过来, 研究者尝试从ECoG成分的时间平均反应中预测之前fMRI中检测到的语音和音乐选择成分. 实验发现, ECoG的预测十分准确, 在语音和音乐选择性fMRI成分中, 占可解释反应方差的95%以上. 这一发现表明ECoG成分能够更细粒度的进行相关测量.
9、fMRI体素的歌曲选择性偏弱
先前研究中fMRI成分并没有歌曲选择性的证据, 这些成分不能解释所有的体素反应方差, 但是歌曲选择性是有可能解释一些剩余方差的. 于是研究者使用原始体素反应通过交叉验证回归来预测ECoG歌曲选择性成分的平均时间反应. 发现在独立数据中,体素预测显示了较弱但是显著的超加性的歌曲选择性. 这比在ECoG成分中弱的多, 但又强于fMRI成分中观察到的歌曲选择性. 所以, fMRI体素具有一定歌曲选择性, 但其歌曲选择性比ECoG弱的多.
以上研究表明: 音乐由多个不同的神经群体表现出来, 这些神经群体对音乐的不同方面都有选择性, 并且至少有一个神经群体是只对歌曲具有选择性.研究者通过无关于刺激性质的统计分解方法, 一种更简单的假设驱动的成分方法和单电级的响应证明了只对歌曲有选择性的神经群体的存在. 以及关于fMRI和ECoG方法的一些区别和比较的讨论, 将在下文进行更细致的讨论.
本次研究具有更深层次的意义, 在解决一些问题的同时, 提出了另一些问题和可能的答案.
1、歌曲选择性
歌曲选择性神经群体的发现为该领域的研究者们提供了更深远的研究方向和研究思路.
(1)从歌曲本身的属性出发, 其融合了音乐和语言的一些特征. 从形式上看, 歌曲很像是语言与音乐的加和, 然而这种加和不应该是简单的线性的加和. 歌曲中人声的部分具有旋律语调轮廓和韵律, 歌曲中的音乐因为与唱腔的共鸣而区别于纯乐器音乐.因此研究者猜测歌曲选择性神经群体非线性地整合了能够区分歌曲, 语音和音乐的多个特征. 根据歌曲选择成分的位置和较长的潜伏期, 研究者猜测这种整合很可能是由非初级神经群体完成的.
(2)歌曲选择反应为什么在解剖学上位于语言和音乐选择反应之间?
类别选择区域的位置可能在一定程度上反映了这些类别的低级属性的偏差. 最近的研究表明, 深度神经网络可以复制高级视觉皮层的类别选择解剖组织, 同理, 语音和音乐训练的深度神经网络也可能预测非初级听觉皮层反应.
(3)歌曲选择群体如何与听觉皮层外区域相互作用?
有报道认为, 运动或者前运动区域对于歌声有反应, 原则上其可以通过反馈影响听觉皮层的反应. 同时, 听歌曲也能引起人们的情绪和记忆. 研究者建议, 在往后的研究中可以通过刺激音乐选择性或者歌曲选择性电极的方式进一步研究这种相互作用的方式和原理.
(4)歌曲选择性最初如何产生?
类别选择群体可以纯粹中经验中产生, 人生来就接触各种声音, 对于这些声音自然具有丰富的个人经验. 歌曲选择性很有可能来源于个人经验.一是, 歌唱作为自然和本能的行为, 在人类社会广泛存在, 它可能在进化过程中塑造了神经回路. 二是, 音乐选择性不依赖于刻意的训练, 听者的广泛的音乐和歌曲的隐形知识通过一生的聆听获得. 歌曲选择性的起源仍然具有许多疑点.
(5)神经的歌曲选择性的知觉结果是什么?
人声旋律比器乐旋律更容易被记住, 从个人经验来说, 人们听到人声的远也远多于器乐旋律, 这也许是导致歌唱比器乐更突出的原因, 但这种突出性的神经基础还不清楚. 研究者猜测更突出的刺激在高级感觉区域有更独特的表征.
2、音乐选择性
研究者证实了之前研究报告中所说的一种选择性远高于单个体素的音乐选择性成分. 因为有一些具有最强音乐选择性的电极是通过一个高密度网格采样得到, 这些网格拥有很小的电极. 体素内神经种群有很高的重叠性, 其可能就是导致该现象的重要原因.
3、人声和话语声的选择性
以往的研究认为人声和话语声在空间上具有重叠, 这很有可能是由于其粗糙的神像和分析方法导致的. 在本次研究中, 话语声选择区(C1和C15)对非话语的人声几乎没有反应, C4区对话语声和非话语的人声都有很强的反应, 说明话语声和人声在空间上具有不同表征.
4、成分建模的优劣与先前方法的关系
成分建模方法帮助研究者推断出表现突出的反应模式; 提出了新的假设; 理清空间重叠的响应.
然而成分建模方法具有相当的挑战性, 因为该方法构建的矩阵是病态的, 解决这个问题的方法依靠于统计假设, 假设有三种:非负; 跨时间或者空间的稀疏性; 时间平滑性. 研究者所开发的模型同时满足这三种假设. 其中, 关于歌曲选择性的关键发现对于这些假设是稳健的, 歌曲选择性在不依赖这三种统计假设的实验中也被观察到过(比如单电级分析结果).
由于研究方法上的一些改进, 研究者使用的模型也有一些改进: 因为有非常多体素来估计统计, 因此fMRI分解方法对体素权重施加了统计约束; 因为没有较多的电极和高维反应时间过程, 于是额外限制了成分反应; 模型中的每个成分由单一的时间过程和单一的电极权重模式定义, 而非由时变的空间模式定义, 使得成分可以更容易被解释为底层神经元群体的反应.
5、 结合fMRI和ECoG 数据的长处
fMRI和ECoG各有优劣, 最好的选择是将二者的优点结合在一起, 避开二者的劣势. fMRI虽然比较粗糙, 但它具有非侵入性, 因而他的覆盖范围更全面, ECoG的覆盖面则较为稀疏并且受到临床需求的驱动, 但是其具有更好的时空精度. 二者的优劣正好是互补的, 研究者也充分利用了这种互补的特性将两者很好的结合在了一起.
研究者发现了具有歌曲选择性的神经群体, 开始解开音乐的神经密码, 为未来的研究提出了新的问题. 比如: 如何用计算术语描述音乐和歌曲的选择性? 音乐, 歌曲的选择性如何产生? 本次研究为这些问题提供了可能的解决方向和解决思路.
网盘链接
提取码:cgyo