摘要
音乐在人类文化中无处不在,音乐作为情感和愉悦体验的来源,在身体上和情感上打动我们,学习演奏音乐会塑造大脑结构和大脑功能。大脑对音乐的加工(即对旋律、和声和节奏的感知)传统上被认为是一种听觉现象,一般使用被动聆听范式进行研究。然而,在听音乐时我们会积极地预测接下来可能发生的事情。这种主动性导致了对音乐加工更全面的理解,音乐加工涉及到与行动、情绪和学习有关的大脑结构。研究者在这篇综述中回顾了音乐感知相关的认知神经科学文献。他们发现,音乐感知、行动、情绪和学习都取决于人类大脑的基本预测能力,正如音乐预测编码模型所述。这篇综述阐述如何将这种对个人音乐感知专长的构想拓展到用于解释集体音乐创作的动态性以及潜在的大脑机制。这反过来又对人类的创造力产生了重要影响,音乐即兴创作就证明了这一点。从神经科学的角度来看,这些最新进展为音乐的意义提供了新的认识。
“倾听是音乐中一切美好事物的关键。”–派特·麦席尼(Pat Metheny)
1.前言
尽管音乐通常被认为不过是作曲家或演奏家有意组织的声音或者音景,但对大多数人来说音乐是有意义有情感的。从音乐理论视角来看,音乐可以分为三个基本成分——旋律(melody)、和声(harmony)和节奏(rhythm)(图1),每个成分都有重叠但不同的神经网络作为基础。在极少数情况下,能被单独地体验这些基本成分,例如,当一个人在聆听Gregorian圣歌中的单一旋律线或者Phil Collins的《In the Air Tonight》中史诗般的鼓点(在三分钟的声乐和键盘演奏后,突然地引入)时。然而,大部分情况下,这些成分相互作用以创造具有独特认知和情感特征的一体化音乐体验。近年来,人们越来越清楚地认识到,要理解人们为何如此迷恋音乐,我们需要了解音乐感知的神经元基础,而音乐感知又与显性或隐性运动形式的行为和情绪密切相关。因此,音乐感知除了涉及听觉系统外,还涉及与行动、情绪和学习相关的大脑网络(图1d)。
音乐一个特别重要的特征是音乐结构包含的模式能让听者基于统计学习(statistical learning)形成预期(expectations),这些预期随后可能会应验或者不应验。因此,音乐体验与大脑的预测模型密切相关:例如,调性(tonality)是指向旋律和和声调中心的层级关系的体验;节拍(metre)是指有规律地重复的节奏模式和重音的体验,这保证了我们有规律地进行到有时非常不规则的音乐节奏中。在这篇综述中,研究者描述了音乐聆听的过程,在这个过程中不断对音乐构建接下来会发生什么的预测(predictions),以及这个过程如何产生感知、行动、情感以及随着时间的推移如何学习,正如音乐预测编码(predictive coding of music, PCM)模型所表述的那样。
PCM模型认为,当聆听有旋律、和声和节奏的音乐时,大脑会基于先前的经验部署一个预测模型来指导我们的感知。以重复切分节奏为例(图2),其中一个节拍被分成了几个部分。如PCM模型所认为的,在遇到不可预测的切分音时会体验到有误差的感觉。这可能会激发行为冲动,通过跺脚来加强节拍。这种主动聆听的过程形成了音乐情绪反应和音乐学习的基础,它会随着时间更新我们潜在的预测模型。因此,音乐是研究预测大脑强有力的工具,因为它的结构允许进行心理预期(anticipation)。
在接下来的章节中,我们将概述大脑中的音乐感知。首先介绍PCM模型。其次,讨论与这个模型相关的音乐的基本组成部分,再讨论涉及行动、情绪和学习的这些更复杂的音乐加工。研究者没有把重点放在语言和临床应用上,而是放在了大脑音乐加工的基础神经科学以及必要的基于预测的大脑机制上。最后,他们考虑将PCM模型推广到包括人际关系中和群体分层组织的音乐互动和交流上。
图1. 从音乐结构成分到大脑中的感知、行动和情绪。图中显示了音乐的组成部分,以及电生理学和神经成像技术所建立的脑基础。a. 披头士乐队的《Sgt. Pepper’s Lonely Hearts Club Band(Reprise)》的节选中的旋律(乐谱最上面五线谱上的连续高音)、和声(中间五线谱上的和弦进行)和节奏(最下面五线谱上的打击乐乐谱)。b. 大脑对音乐的反应可以用神经成像方法来测量,通常使用脑电图(EEG),脑磁图(MEG)或功能磁共振成像(fMRI),它们有着不同的时间分辨率。脑电图和脑磁图的采样通常为1-10毫秒,功能磁共振成像的采样时间为0.72-3秒。c. EEG/MEG数据的两种分析方法得到的神经标记:事件相关电位和频率标记(frequency tagging)。最常用的事件相关电位可能是失配负波(MMN)和早右前负波(ERAN),是听觉预期违规的标志。MMN波形(上)通常发生在110-250 ms左右,而ERAN波形(中)通常发生在150-200 ms左右。这些面板右侧的图像显示了这些信号的来源是如何被定位在大脑的稍微不同的区域。最后,另一种突出的方法,即频率标记,显示了节拍(这里是一个无重音的重复脉冲)和想象中的3/4节拍是如何在EEG记录的振幅频谱中表现为峰值的(下)。d. 参与音乐加工的大脑网络,标记出了与音乐感知、行动和情绪相关的关键大脑结构。学习在这里被解释为通过贝叶斯推断对实时预测大脑模型的持续更新。
2.音乐预测编码(PCM)模型
越来越多的人认为预测是大脑加工的基本原则。预测编码理论解释了特异的大脑网络如何识别其感官输入的原因,如何将信息与其他网络整合并适应新的刺激。最近,一个颇具影响力的预测加工理论(主动推断,active inference)指出,感知、行动和学习构成了一个递归贝叶斯过程,通过贝叶斯过程,大脑试图将感觉输入和对该输入自上而下的预测之间的预测误差(prediction error)降至最低(专栏 1)。
多年来人们已经清楚地认识到,只有通过预测才能完全理解音乐。音乐相关的预测和各种情绪有关,而且音乐预期和情绪之间的关系被认为与生存相关的预期大脑机制有关。音乐预期一方面是由听觉(自下而上)引起的,另一方面取决于大脑的预测(自上而下)。预测性大脑机制依赖于长期的可塑性和学习能力(例如,形成图式预期(schematic expectations)),对特定曲目或音乐类型的熟悉程度(真实预期,veridical expectations),对即时音乐的短期记忆(形成动态预期,dynamic expectations)以及精心养成的聆听策略。因此,音乐预期的神经机制和功能结构受文化、个人音乐聆听史、音乐训练以及生物学因素有关。
最近,对音乐感知的研究转向了模拟音乐结构的实验,这些研究证明了心理预期和预测机制。为了将这些方法整合到神经音乐研究中,研究者在最近几篇文章中提出了PCM模型(图2)。该模型是音乐脑功能预测加工(专栏 1)理论的一个特例,特别关注生物、文化和情境因素的影响。
PCM模型指出,音乐感知、行动、情绪和学习是递归贝叶斯过程,通过这个过程大脑试图将预测错误最小化,就像预测加工的激活版本一样(也被称为主动推断)。因此,音乐感知和行动的加工机制是耦合的,感知通过更新预测来最小化预测误差,而行动通过生成预测的感觉信号来减少预测误差。情绪、注意和动机作为贝叶斯预测的最优偏差来指导行为、行动和学习。
大脑作为层级预测机器的概念(该概念认为感官输入不断与大脑关于输入的原因的信念相对抗)与音乐加工是一致的,音乐加工不仅是被动的和自下而上的,而是基于自上而下预测加工,正如下文所述的旋律、和声和节奏。以一首模糊音乐刺激为例,聆听者可能会根据音乐训练背景不同做出主动的决定,专心聆听同一段具有不同旋律或者音调的音乐(图3)。因此,预测编码的贝叶斯公式自然适用于从音乐中推断出隐藏或潜在原因的加工,例如节奏和调性。
当一个人在聆听音乐时,注意力选择要解决哪些预测错误不仅取决于预测感官流的内容,还取决于预测它们的可预测性或准确性(precision)。简单来说,只有当事情是可预测的时候,预测误差才有用。PCM模型中固有的贝叶斯信念更新实际上是精确设计的,因为它依赖于对可预测性的预测。
预测编码中的一个关键概念是,预测误差的权重取决于它们的预测准确率或者可预测性。简而言之,大脑必须选择驱动贝叶斯信念更新的预测误差以及随之而来的自上而下的预测。这种选择可以被视为一种心理上的或隐蔽的行为,使标准预测编码方案具有主动性和注意方面的内容。必要的突触机制被认为是依赖于神经调节突触增益控制,这保证了感觉注意和衰减。在听觉感知研究中,准确率对预测加工的重要性已经得到了证明,其中对oddball的失匹配负波(mismatch negativity, MMN)是由其可预测性调制的。在音乐感知的研究中,在难以预测的情境中,MMN(预测误差的一种预先注意标记)在节奏偏差和失谐音调上的振幅降低,这一发现为所谓的准确率加权预测误差提供了一个明确的例子。这些研究证明了PCM模型用于解释音乐加工基本方面的范围。
学习可以通过依赖于经验的可塑性将准确率加权(即,可预测的)的预测误差随时间最小化。内隐学习和外显学习同样如此。内隐学习的一个例子是,旋律歌唱能力或者调性感知图示是如何在反复接触中习得的,正如早右前负波(early right anterior negative, ERAN)所证明的那样ERAN是音乐家和非音乐家和声预期违反的标志。学习演奏乐器包括内隐学习,但会对感知和行动产生额外的自上而下的影响。因此,与非音乐家相比,外显学习通常意味着改变对音乐结构违规的加工,这反映在增强的ERAN或MMN响应中,这可以被视为报告的旋律、和声和节奏的准确率加权预测误差(见下文)。
重要的是,实验已经表明支持准确率加权预测误差的大脑结构会因所研究的音乐现象(例如,旋律、和声或节奏)的不同而不同。例如,一项基于预测编码的旋律oddball fMRI范式有效连接分析表明,由初级听觉皮质和颞平面组成的完全连接的双侧听觉网络可以最好地解释失匹配反应。这里,观察到的从左侧初级听觉皮层到颞平面兴奋性连接增强被解释为一个准确性预测误差从层级加工网络的低层级传递到高层级,并且左侧初级听觉皮层内抑制连接的减弱被认为是与编码预测误差的表面锥体细胞获得准确度相关的增加。相比之下,正如后面所讨论的,对音乐和声愉悦体验的研究已经揭示了预测编码机制,包括与情绪和奖赏大脑网络相关的准确度加权预测误差,而对音乐Groove[注:一种持续重复的节奏,在心理学上是指想要跟着音乐运动的快感]的研究则涉及其他与运动相关的脑区。
在接下来的章节中,我们将根据PCM模型回顾音乐感知、行动、情绪和学习。我们首先总结了我们在音乐旋律、和声和节奏的理解上取得的重大进展。
图2. 音乐预测编码。a. 音乐感知是由大脑实时预测(生成)模型(见图中感叹号处)基于先前经验所引导的。预测模型依赖于文化背景、音乐能力、当前情境、大脑状态(包括注意力状态和情绪状态),以及个体特征和先天生物因素。通过贝叶斯推断过程,大脑不断尝试在大脑的各个层级上最小化预测误差。b. 该音乐例子显示了大脑在4/4拍模式下的切分的节奏。切分音(意外的)引起了感官输入和自上而下预测之间的预测误差。这个过程可能导致节律形式的行动(如跺脚),来产生符合预测模型的本体感觉并削弱不符合预测模型的听觉预测误差。递归箭头表示每次节奏重复时都要迭代此过程。随着时间的推移,形成了学习和演化而来的音乐相关情绪的基础,这些情绪反过来会改变行动和感知。
3.音乐知觉
3.1.旋律
在大多数音乐风格中,旋律(即,随着时间的推移而展开的音调声音模式)是区分两首作品的重要部分。用任何节奏唱出前八个音符,你就能立马识别出贝多芬的第五交响曲。
当你按下钢琴上的一个键时,产生的音符包括定义其音调(pitch)的基频和一系列有助于其音质(音色,timber)的泛音,这使其区别于其他乐器。大量的研究致力于音高的研究,现在人们普遍认为,大脑可以从复杂的音调中提取出单一的音高感知,即使是在没有基本音的情况下。音调感知可以分为音高和音高半音音阶(chroma)。两个不同的钢琴音符可能具有不同的音高但仍可能会被视为具有相同半音音阶(例如,不同八度的C)。听觉皮层是音高加工的中心:fMRI显示,音高在初级听觉皮层后的颞平面加工,而半音音阶则在初级听觉皮层前的极平面加工。一般来说,从复杂的光谱声音中识别音高被认为是由腹侧通路加工的,从初级听觉皮层沿中前脑区投射到额下回(图1d)。背侧通路从初级区通过颞平面越过顶叶皮层投射到背外侧前额叶皮层,这被认为支持感觉-运动整合、发音和记忆功能,从而连接旋律感知和行动的神经器官。
在最简单的形式中,像“Frère Jacques”这样的旋律被限制在一个音调子集(一个音阶)中,它有一个音调中心(比如c大调音阶),它对应钢琴键盘上的七个白键。调性不一定直接表达在耳朵的听觉输入中,而是一种内生的层次预测框架,它支持对旋律和和声的感知(图3)。听者即使没有接受过正规的音乐训练,也会对自己文化中旋律的统计规律有内隐的了解。通过将给定的音符与给定的统计分布进行比较,人们不断运用这一知识来形成音乐预期。调性是预测模型的一个例子,它是旋律预期的基础。重要的是,有可能在数学上对旋律预期和不确定性进行建模。现有几个模型存在,例如音乐的信息动力学模型使用短期和长期的统计规律为音阶上的每个音符分配信息量(information content,情境的不可预测性:参见预测误差)和熵(entropy,不确定性)的度量。数学建模的优势在于,它允许对“真实”音乐的感知进行研究,并且不需要像许多传统实验中的那样对音乐节选进行定制。最近,该模型被用于研究旋律预期的神经加工,特别是使用MMN(图1)。重要的是,不可预测的旋律情境相比于可预测的(由音乐的信息动力学模型建模),MMN波幅降低,并且与失谐音调相关的行为偏差检测也受损。换句话说,根据依赖于文化的统计学习,旋律预测越准确,对令人惊讶的音符MMN就越大。
个体差异在旋律预测中具有重要作用。一般来说,在区分不同旋律的测试中,音乐家的得分始终高于非音乐家。在这类测试中得分高的人,对预期违反的预注意听觉反应(如MMN)的振幅更高,潜伏期更短。这表明音乐家发展出一种更准确的预测模型,这可能是外显学习的结果。
旋律感知除了涉及听觉区还包括其他专门用于其他目的的大脑部分,如运动任务,以及情绪和认知加工,例如在所谓的“自由聆听范式”中,它将真实音乐录音的音乐信息检索与fMRI或脑磁图(MEG)相结合。此外,事件相关电位、正电子发射断层扫描和fMRI研究表明,音乐心理图像的形成涉及听觉感觉和运动前区,即使在没有刺激的情况下也会涉及行动和感知。总之,旋律加工的研究已经转向使用自然的旋律,强调感知和行动相关的大脑机制的耦合,其中预测起着关键作用。
图3 如何使用不同的实时预测大脑模型体验相同的音乐。a. 一个简单的模糊的旋律根据不同的调性可以有不同的解释;例如,C大调和A小调。该旋律和C大调和A小调均兼容,个体对和声情境的感知依赖于自上而下的加工,这种自上而下加工依赖于先前的经验,文化、能力、情境、当前的状态、个人特质或者从某种角度(例如,大调或者小调)进行聆听的主动决定。这可能导致对这段旋律产生截然不同的体验,例如使这段旋律呈现出快乐(大调)或者悲伤(小调)的情绪。b. 同样,多节奏也可以以3/4或者4/4拍作为节奏预测模型的角度来聆听。这两种情况下的时间预测是非常不同的,即使是同一个人,也可以体验到华尔兹(3/4)或者进行曲(4/4)的节奏。
3.2.和声
旋律,尤其是在西方音乐中,通常伴随着和弦的发展(不同的和弦连续演奏),可以在钢琴或吉他等乐器上演奏,也可以由许多乐器同时演奏不同的音符。一个单和弦的例子是C大调三和弦,它是C、E、G三个音符的组合音。
和弦本身可以引起情感上的反应。例如,在西方听众看来,C大调三和弦的声音要比C小调三和弦(C, E♭和G)的声音听起来要更快乐。从古希腊开始,人们就知道声音的物理特性,例如和弦的“粗糙度”是由这些音符的基本频率之间的整数关系决定的,这导致了西方和声中和谐音程和不和谐音程以及和弦之间的区别。整数关系越小,音符就越可能被误认为是一个单一的声音,这种趋势在音乐上距离较远的文化中也被观察到。这与声音的粗糙度的体验有关,而这种体验被认为与关键听觉带的带宽有关,带宽则与耳蜗基底膜无法分离音调非常接近的音符有关。然而,重要的是,根据音乐风格和文化,对粗糙度的感知可能会有所不同。
和弦进行建立了音乐预期,尤其是调性感。尽管调性在所有被研究的文化中的音乐中都是众所周知的,但神经科学的研究主要集中在西方和声上。西方和声遵循一套特定的规则,例如,在不同类型的和声节奏中。打破这些规则会诱发ERAN(图1),这是由Koelach和同事使用EEG和MEG发现的。ERAN在偏差发生后150-200ms达到峰值,其潜伏期和振幅受对即将发生结果的注意或知识以及音乐训练的调节。使用MEG和fMRI发现ERAN源定位在额下回。它最常被研究在半参与范式中,任务要求被试注意音乐刺激,但不注意偏离的和弦。与MMN(可以由特定和弦的局部失谐引起)相反,ERAN振幅和潜伏期强烈地依赖于偏差者在和弦进行中的位置——它与和声规则的契合程度。和声规则经常被称为“音乐句法(musical syntax/musical grammar)”,并被认为是通过统计学习编码的。使用人工实验生成的音乐句法,在成人非音乐家中研究了旋律和和声的神经结构的发展,其中识别和偏好评分表明基于广义概率的感知学习机制是记忆和欣赏音乐的基础。额下回的确切功能仍未确定,但可能与序列的时间顺序的高级加工有关。
通过音乐训练,大脑中的感知和行动网络变得更加紧密地耦合,这有助于更准确的主动推断。研究表明,专业钢琴家在听钢琴音乐时的运动相关皮层的活动,非音乐家在练习演奏后听学习的旋律时的额顶运动相关网络出现激活。对于训练有素的钢琴家来说,听觉和运动网络中内化的和声预期可能提供了模式特异性的和声预测网络,该网络与额下回相互作用,以优化动作和感知。因此,由于听觉-运动关联的积极经验,音乐专长很可能通过参与运动机制来影响和声加工。
至于旋律加工,最近的一个趋势是用数学方法对音乐和预期的大脑反应进行建模,从而使研究和声的方法更符合生态学的要求。这使得人们能够更好地理解经常报道的音乐和声、情绪和愉悦度之间的联系。cheung和同事们用Billboard 热度前100的流行歌曲的和声序列对和声规律进行了建模,结果显示,在不可预测的和弦序列中,预期的和弦获得了最大的愉悦度,而在可预测的和弦序列中,不可预期的和弦获得了最大的愉悦度,并且这与边缘和与奖赏相关的大脑结构(杏仁核、海马体和伏隔核(NAcc))的激活有关。
上述研究强调了和声参与运动、情感和学习相关机制的能力。而对和声的认知研究主要采用西方的和声作为听觉刺激的来源,这降低了研究结果的普遍性。在单一音程的水平上,对西方音乐接触有限的土著亚马逊人并没有表现出类似于西方相对于对不和谐音程对和谐音程和的偏好,这表明对某些音程的审美偏好可能是文化依赖的。重要的是,统计规律或和声句法(由ERAN捕获)(这是许多与和声相关的预测过程的基础)在不同文化和音乐风格之间存在差异,例如,当人们听布鲁斯和贝多芬的作品时,会产生截然不同的预期。众所周知,在西方和声中,大调和小调、快乐和悲伤情绪之间的联系分别是确定普遍因素和文化因素对和声感知的影响和相互作用的复杂性的主要例子。这种联系并不是在所有音乐文化中都能找到的,这与普遍的关系背道而驰。然而,有人提出,当我们感到悲伤时,较低的音调间隔和轻微模式中稍低的平均音调可以模拟语音。目前尚不清楚这是否是在不同文化中差异表达的普遍原则。尽管如此,基本情感仍然可以在跨文化的听起来真实的音乐材料中被识别。然而,这是一个正在进行的研究领域。
总之,音乐和声(通常称为“句法”)中的预测结构已被证明是研究预测误差及其与音乐情绪的关系以及与音乐学习和文化的关系的一个宝贵领域。对于和声和旋律,调性在PCM模型中提供了一个预测情境,这深刻地影响了大脑加工,因为两者都在一个共享的基于音高的领域中运作和互动。PCM模型可能解释了为什么没有和声的旋律线仍然暗示着潜在的和声图式——通过大脑基于和声先验生成内隐预测的方式。
3.3.节奏
当我们听Jackson的《Blame It on the Boogie》(图4)时,很难不跟着节奏跺脚或摇头。这种身体和思想、行动和感知之间的明确联系最近使音乐节奏成为认知神经科学中一个新兴的话题。
节奏可以通过旋律中音符的出现产生,也可以在没有旋律的情况下产生,即在指定的打击乐器上演奏时,其中音调可能不太清晰。对节奏的感知通常包括对均匀间隔的脉冲和节拍的同时感知,这构成了脉冲序列并将其细分为不同重音节拍模式。听脉冲序列涉及预测后续事件,正如研究表明的那样,大脑会对节拍遗漏或节律序列结束后产生反应。
Brochard和同事用最简单的实验设置,利用事件相关电位,为节拍感知提供了强有力的证据,他们的结果表明,听一个完全规则的、没有重音的节拍器,会导致大脑自动记录下某些节拍,使其比其他节拍更明显,即使刺激中没有这样的结构。因此,脉冲和节拍不一定直接表达在传入耳朵的听觉输入中,而是在分层的预测加工中出现,这种预测加工使人们能够随着时间的推移识别连续的音乐事件。对清晰的音乐韵律的感知可以促进节奏记忆、学习和感知灵敏度,即使是在年轻的时候。
尽管人类可能天生具有将动作与音乐节拍同步的能力,但这种能力不容易通过计算建模。最近,Large及其同事创建了一个具有两个层次的神经元网络模型:一个对应于用简单的霍普夫分叉建模的感觉系统,另一个对应于被调整为在双极限循环分叉附近运行的运动系统。这个模型能够解释参与者将手指敲击与越来越多的切分音节奏同步的能力。因此,电生理记录中的频率标记(frequency tagging; 图1)表明,即使对于这种节拍在声学上没有重音的节奏,节拍的基本频率仍然主宰着信号。然而,神经对节奏的影响以及听觉和运动皮层和皮层下结构在建立节拍感知中的不同贡献仍远未得到充分理解,而且必须认识到自上而下对节拍感知的实质性影响。因此,韵律感知可能受到文化和先天生物因素的调节(图2)。
音乐家对节奏和韵律的感知更发达,在节奏能力测试中,他们在旋律和和声方面的得分始终高于非音乐家。此外,音乐家对违例的MMN表现出更高的振幅和更短的延迟,这表明他们比非音乐家部署了更精确的预测模型。
关于节奏感知的文献揭示了听觉通路在检测节拍结构偏差中的作用。这些偏差是由MMN标记的,而MMN又是由节奏情境的可预测性来调节的。节奏感知涉及运动系统的大部分——运动前皮层、辅助运动区、基底神经节和小脑。这种运动系统的活动在某种程度上可以归因于音乐脉冲和节拍的建立和维持。这些过程是我们随音乐起舞的能力的基础,在新生儿中已经可以测量,并且可以通过训练婴儿识别同一模糊节奏的二拍子(2/4)或三拍子(3/4)而影响这些过程。此外,与相同节拍同步的动作可能会导致亲社会行为,正如研究显示,婴儿在与实验者同步弹跳后表现出更有益的行为。
基于节拍感知的大脑回路的复杂性也许可以解释为什么节拍感知在非人类动物中很少被观察到,而且从来没有像在人类中那样准确和灵活。人类有能力根据音乐专业知识,以大约每分钟40到400拍的不同节拍同步手指敲击一个简单的节拍器,并通过预测后续的节拍来做到这一点,而且可以通过多种方式完成这项任务。相比之下,要训练恒河猴在不同的节拍下跟随节拍,然后在几百毫秒后敲击,而不是预测节拍,是很困难的。对节拍异常和非节拍异常的MMN记录表明,猴子对刺激的等时性敏感,但只有人类对其韵律结构敏感。对黑猩猩的研究表明,在与节拍器同步的节奏上,结果同样糟糕。尽管他们可能有能力预测即将到来的节拍,但他们缺乏节奏的灵活性。因此,音乐的节奏能力显然取决于人类大脑的表达能力或预测编码的深度。
总之,音乐节奏的研究证明了听觉节奏提供的感觉输入(自下而上)是如何被韵律等预测模型如节拍(自上而下)满足的,以及这个过程是如何在人脑中产生听觉-运动耦合的。正如基于预测的模型所假设的,运动系统的参与需要更高的听觉预测准确度。在下一节中,我们将考虑更复杂的音乐现象,包括旋律、和声和节奏,并举例说明精度加权预测误差的关键作用。
图4. Groove:想随音乐而动的愉悦感觉。a. 在groove评定中观察到的节奏可预测性和groove体验之间的倒U型关系如何可以被模拟为刺激物切分音和预测的准确度相对于预测误差的产物;也就是说,我们的节拍预期的准确度。U型暗示有一个甜点,在这个点我们会体验到想要运动的愉悦体验。因此,groove的体验是刺激的复杂性(切分音的数量)和保持与音乐同步的足够稳定的节拍的能力之间的权衡。b. 在杰克逊的歌曲《Blame It on the Boogie》中,旋律的节奏迅速达到并保持在与最佳groove甜点相对应的中等切分音水平。c. 在对比中度和高度切分节奏时,运动相关结构(运动前和基底神经节区域)、奖赏相关结构(眶额区和阿肯色核)和基底神经节中与时间相关的大脑结构的活动。
4.行动
为什么人们在听到James Brown的唱片中的groove时,会冲向舞池,并以明显的愉悦感随着音乐舞动?对groove和想要随着音乐舞动的愉悦感觉的研究,是PCM模型–以及准确度加权预测误差的概念–如何为我们理解音乐加工提供信息的一个典型例子。
Groove的研究主要涉及源自非洲散居侨民的音乐,如灵魂乐、放克、迪斯科、拉丁、爵士、嘻哈和其他与舞蹈相关的流派。通常,这些风格的特点是存在一个节奏部分,包括打击乐器,低音和和弦乐器。这个节奏部分被认为是保持一个恒定的节拍——通常采取一个恒定的切分节奏模式,在一个、两个或更多的小节之后重复,贯穿整个音乐形式的较长部分。Groove是一种看似独特且普遍存在的人类特征,它强调在主动推断中形成的感知和行动之间的联系。在这方面,大脑对切分音(syncopations,指弱拍音延续到强拍位置)产生的预测误差的持续评估被认为是groove的潜在机制之一,也是我们跟着音乐运动的原因之一。
切分对节奏体验的影响可以用韵律不一致性预测编码(predictive coding of rhythmic incongruity, PCRI)模型来描述,这是专门针对节奏进行PCM模型的正式的操作化定义。根据PCRI模型,以准确度加权预测误差建模大脑和行为对节奏的反应;即测量可预测性(精度)和刺激偏离节拍的乘积(图4)。重要的是,这个模型解释了观察到的切分音程度和groove体验之间的倒U型关系,其中切分音中等水平的节奏片段被认为比切分音低水平和高水平更令人愉悦和更能诱发运动。
根据PCRI模型,这些中等水平的切分节奏优化了系统视为准确度加权预测误差的内容,因为预测误差和预测准确度均处于加工层次的中间水平。在中等水平的切分节奏中,根据主动推断,大脑可以通过修正预测或通过行动(例如,移动身体)来解决预测错误。主动解决预测误差可以解释为什么我们会通过随节拍移动来加强节拍,同时衰减本体感知和听觉预测误差的准确度。相比之下,切分音水平较低的节奏显示出很少的预测错误和较少的动机去运动。相反,对于最高层次的切分音,我们对节拍的大脑模式不如感官证据那么准确,这就排除了感官衰减和运动的可能。
在不受文化和节奏熟练程度影响的情况下,切分音和groove体验之间的倒U型关系通过生理测量(如,瞳孔测量)得到了重复。人们已经通过文化内部和文化之间的方法中对节奏和groove进行了测试,这受到音乐专业性的影响。
想要运动的愉悦感的最佳水平最近被认为与大脑运动和愉悦网络的神经活动有关(图4),因此可以看作是由听觉输入中的切分音和运动系统的等时倾向之间的差异引起的准确度加权预测误差的结果。重要的是,最佳groove体验与NAcc和眶额皮层的活动有关,这是奖赏网络的关键区域,对行动后果的可预测性特别敏感。
值得注意的是,有节奏的感觉输入和对节拍的图式预期之间的关系只是同时发生的几个相互作用的预测加工之一。当节奏片段模式一遍又一遍地重复时,大脑就会形成短期的节奏预期,在反复聆听后,这种预期可能会转变为对特定音乐的时间进程的真实预期。同样重要的是要注意到,许多非西方groove中的重复模式,如非洲-古巴的tumbao,在有经验的听众中仍然支持稳定的节拍感觉,尽管它们在最突出的节拍位置上几乎不包含重音。。因此,关于节拍在多大程度上可以被视为其他音乐风格中最重要的预测参考结构,存在着持续的争论。节拍可以说是一种基于西方音乐传统的结构,音符频率和节拍重音之间存在着强烈的相关性。
总之,PCM模型提出,想要移动的愉悦感是由基于预测的大脑机制介导的,这些机制优化了与切分音相关的准确度加权预测误差,从而激活了大脑的运动和奖励系统。合适的切分音水平提供了通过移动主动解决不确定性的机会,这可以带来 "愉悦"的体验。
5.情绪和愉悦
音乐的一个决定性特征,与其进化起源的理论密切相关,是它能够唤起一系列感觉和情绪,这些感觉和情绪可能类似于日常情绪,如快乐、悲伤、惊讶和怀旧,或者可能提供音乐特有的体验,如上文所述的groove的感觉。尽管音乐显然能够产生日常情绪,成年人听音乐在一定程度上是为了调节他们的情感状态,但我们不可能把“效价”和“喜欢”等同起来。像悲伤这样的消极情绪是八种由音乐引起最常见的情绪之一。此外,在悲伤和快乐的音乐中,有一种效价和愉悦度评定的分离,以及潜在于体验的效价和愉悦度的大脑网络的分离。喜欢的音乐比不喜欢的音乐更能激发皮质丘脑纹状体奖励回路的活动,无论音乐是悲伤的还是快乐的。由于这种明显的悖论,音乐悲伤是最近几项研究的主题,多种理论试图解释它的存在,这些解释往往指向社会和个人获益。例如,悲伤的音乐被认为可以缓解我们在安全环境中经历的负面情绪,这种宣泄过程被认为可以促进社会凝聚力,而不是攻击性。
人类大脑将音乐转化为情感的不同方式可以用几种心理机制来解释,通常可分为三类:硬连接反应,唤起普遍的与生存相关的反应,例如当脑干对巨大声音的反应引发恐惧反应;音乐外联想,即音乐与某些承载特定情感的音乐外空间相联系,如评估条件反射、情绪感染、视觉意象和情景记忆;以及心理预期,当音乐结构建立起来的时候,满足或违反了音乐本身建立起来的预期。理论上,硬连接反应和音乐外联想机制可以仅由声音引起,而心理预期则依赖于将声音组织成有意义的事件序列——这是与预测编码密切相关的音乐的定义特征。自从Meyer的一本开创性著作出版以来,人们越来越清楚地认识到,音乐预期可能会引起各种复杂的情绪反应,如敬畏、惊讶和不适,并引发笑声、打拍子、哼唱、泪水和喉咙哽咽。这些会引起心理反应,如“脊背发抖”、心率加快和出汗增多。
音乐和情绪的功能性神经成像研究表明,音乐感知涉及与情绪相关的大脑网络,音乐可以调节大脑边缘和旁边缘结构的活动,如杏仁核、NAcc、下丘脑、海马体、岛叶、扣带回皮质和眶额皮层。一个悬而未决的问题是,参与加工音乐的情感相关网络在多大程度上是由普遍的、文化的或个人的因素调节的:也就是说,音乐感知的哪些方面是在接触了特定的音乐文化之后才发展起来的?一项开创性的研究将西方听众与来自非洲Mafa人群的被试进行了比较,结果表明,当他们听其他文化的音乐时,他们对基本情绪(如快乐、悲伤、恐惧或恐惧情绪)的识别高于随机水平。然而,重要的是,在文化上与西方音乐隔绝的Mafa人,对西方音乐的情感识别表现比西方听众差得多。此外,在最近的一项大规模互联网研究中,美国和中国的听众确定了与两种文化的音乐相关的13种不同类型的主观体验。然而,目前尚不清楚音乐情感在多大程度上可以被普遍识别,或者它们在多大的程度上是由日益全球化的音乐聆听行为导致的统计学习的结果。谈到后者,最近的建模方法强调了将音乐先验与音乐情感的跨文化体验相结合的重要性。因此,预测编码成为音乐相关情绪研究的热点。
音乐预测加工的一个特别有趣的例子是音乐预期和愉悦之间的联系,类似于想要(wanting)和喜欢(liking)之间的既定差异。音乐愉悦最初被认为与积极的奖励预测错误有关,当听到的东西被证明比预期的更好时,就会出现这种预测错误。这首先是通过音乐战栗体验和奖赏系统活动之间的关系来研究的。最近,这些强烈的体验已被证明会导致纹状体系统释放多巴胺,而尾状核(心理预期)和NAcc(奖励体验)扮演着不同的角色,并与情绪唤起的程度有关。对极少数人的研究进一步支持了听觉皮层和皮层下奖励网络之间的互动对音乐享受的关键作用,尽管他们的感知能力正常,听觉和音乐感知能力正常以及对其他方面的奖励相关反应也正常。与他们在金钱赌博任务中的反应相比,以及与其他对音乐有正常或高于平均快乐反应的被试相比,这些人的NAcc反应降低,右侧听觉皮层和腹侧纹状体(包括NAcc)之间的功能连接降低。
在预测编码模型的主动推断公式的基础上,Gebauer等人假设,音乐期望的符合和违反都与音乐的享乐反应有关,这是通过中脑边缘系统及其与听觉皮层的连接而形成。最近,一项研究证实了由音乐引起的愉悦感和音乐惊喜之间的联系,涉及中边缘系统的核心组成部分NAcc的活动和连接模式。此外,该研究发现,在经历了更大的音乐诱导愉悦感的个体中,NAcc中与惊喜相关的激活更为明显。
Cheung及其同事的上述研究对理解音乐快感的预测编码机制做出了重大贡献,他们将Billboard热度前100首歌曲中自然和弦序列的预期计算模型与功能磁共振成像相结合。他们发现,在可预测的序列中(高准确度,高惊喜) 的惊喜的和弦和在不可预测的序列中(低准确度,低惊喜)的可预测和弦会带来最佳的愉悦感,这种交互作用与杏仁核和海马体的活动相对应,而NAcc的活动只反映了准确度。这与建模的研究中发现的音乐愉悦度的可预测性和不确定性的最佳区域是一致的。
与音乐愉悦密切相关的是音乐品味。为什么有着相似音乐文化背景的人在音乐偏好上却大相径庭? 这是一个复杂的问题,包含了心理学上的答案,比如众所周知的“单纯接触效应”,即反复听音乐会增加喜欢的程度。音乐品味的其他重要决定因素包括环境因素,如重要的社会学原因,音乐可以被视为一种表达群体从属关系的方式。此外,从对音乐快感缺乏症的研究中可以看出,个体因素在音乐感知和音乐品味中发挥着重要作用。例如,根据“大五”(Big Five)评分或“扎克曼感觉寻求评分”(Zuckermann sensation seeking score),人格一直与音乐品味的差异有关。由于音乐的乐趣取决于文化习得的音乐期望是否得到满足或违背,听众往往表现出对本国文化音乐的偏爱,这又一次证明了预测编码是音乐品味的一种潜在机制。
总之,音乐和大脑的预测机制是理解与音乐相关情绪相关的复杂问题的关键。我们仍然无法全面描述与音乐相关的情绪中涉及的精确加权预测误差,但预测编码的贡献正变得越来越清晰。
6.学习
影响音乐感知的研究的最多的个体因素之一是音乐学习,它是PCM模型的组成部分。演奏音乐是一项高度专业化的技能,对潜在的神经资源有着巨大的需求。因此,对音乐感知和演奏的一些横向研究表明,在听觉加工、运动表征、情绪、视觉感知和心理意象网络中存在与训练相关的变化。因此,研究音乐家的大脑是如何通过日常训练进化的,是深入了解大脑在发育和训练过程中显著变化潜力的有效方法。音乐家和非音乐家之间与音乐感知相关的认知技能的差异对应于这些群体之间大脑结构和大脑功能的差异。经典研究表明,音乐家表现出胼胝体纤维束的形态学差异,以及小脑体积的增加,以及左中央前回、运动前区和左小脑的初级运动和体感区的灰质体积的增加,在涉及语言和音乐的时间结构的脑区中,以及在涉及听觉感知的脑区中。研究还揭示了音乐训练对白质发育的特殊影响。其他研究发现,音乐家和非音乐家在听觉和运动区域的功能上存在差异,这与乐器、练习习惯、专业水平或演奏的音乐风格有关。
这些与不同音乐训练相关的功能和结构差异,被认为是主动推断和学习对大脑产生长期影响的证据。然而,不可能从横断面方法中得出因果关系的结论。最近,有越来越多的来自纵向方法的因果证据强调了长期和短期训练对大脑解剖和功能的影响,特别是听觉和运动处理的发展,以及听觉-运动耦合。在一项开拓性的研究中,Bangert和Altenmüller使用直流电EEG分析发现,在钢琴训练20分钟后,初学者的大脑皮层发生了听觉-运动耦合的变化。最近的研究表明,在24周的音乐训练后,感知和行动的大脑资源的增强耦合与感觉运动网络的功能连接性增加以及听觉-运动网络的功能和结构连接性增加有关。此外,最近的一项研究表明,在6周的钢琴训练后,当被试只聆听该钢琴旋律时,与存储新学到的听觉-运动联系相关的额顶叶和小脑区域的活动增加了。
从PCM模型来看,上述研究表明,听觉-运动学习导致与单纯听音乐(自下而上)相关的高阶行动相关资源(自上而下)的招募和适应增加。针对儿童听觉预测编码的纵向发展,Putkinen和他的同事们对学龄前儿童进行了数年的跟踪研究,获得了2-3岁、4-5岁和6-7岁的数据,这些数据来自在随访期间就读于音乐戏剧学校的儿童和在同一所戏剧学校就读时间较短的儿童。他们的结果表明,音乐团体活动增强了对音色、旋律、失谐和节奏的MMN。这被认为是促进儿童早期音乐训练的神经声音辨别预测编码的证据。在7岁到13岁之间的儿童,尽管缺乏训练前两组在声音识别方面的神经差异的证据,但音乐组中与和声偏差相关的MMN比对照组增加得更多。这些结果与早期关于儿童在旋律、和声和节奏感知方面与训练相关的准确度提高的横向研究结果一致。
一些横向和纵向神经科学研究指出,音乐训练对认知能力和与阅读和语言技能、认知抑制任务和音乐训练相关的大脑加工的假定迁移效应,作为帮助患有发育障碍(如阅读障碍)的儿童的可能辅助工具。虽然音乐训练和与音乐相关的大脑加工之间的因果关系似乎已经确立,但是否音乐训练对其他认知能力有积极影响仍然存在争议。
总之,对音乐家和音乐学习的横向和纵向研究阐明了学习如何塑造音乐的预测机制。这似乎表明,在音乐表演中对听觉-运动耦合的高要求塑造了大脑结构和形成与音乐相关的高准确度预测的能力。上述讨论的研究阐明了音乐训练、文化、听音乐历史、音乐风格偏好、环境、性格和基因型等因素之间的复杂关系如何显著影响可解释预测误差的准确性和随后发生的幅度,以及大脑如何从音乐环境中推断出预测模型(图2)。这些因素对于我们如何理解他人的音乐也至关重要。在下一节中,我们将提出如何扩展音乐和PCM模型,以涵盖沟通在二元互动和群体分层组织中的作用。
7.音乐交流
尽管这篇评论中所回顾的大多数文献都是关于个人大脑中的音乐感知,但音乐从根本上来说是一种社会现象,因为我们经常一起创作音乐、听音乐以及随着音乐跳舞。这使得它成为人类协调互动的一个微调实例,其中包括人际同步、社会互动、学习、即兴发挥和交流(见专栏2中其他动物的例子)。最近,双人脑电图等研究方法的发展,促使一系列神经科学和行为研究进入音乐互动领域。它显示了能力、社会背景和思维定势(如移情视角)如何促进人际协调(图5)。
音乐互动很大程度上依赖于预测。在播放音乐过程中,我们不断地预测自己行为的感官后果,我们通常使用这些预测来减弱预测的感觉,并放大由他人引起的感觉。这种选择性的注意和衰减在动物界中普遍存在(专栏2),但更先进的共享预测加工能力(完整的音乐体验所需要的)迄今为止只在人类中发现。因此,一致行动可以在预测编码框架内得到最好的理解,其中重点是建立共同的叙述和相互的可预测性。最近的研究利用了这一观点,研究了两个人一起敲击时的音乐互动。
这些范式包括两个人在不同的条件下一起用手指进行敲击。被试通常带着耳机和脑电图设备被安置在不同的房间里。一些研究集中在感觉运动的同步性上,被试被告知要使彼此的手指敲击同步,而一些研究则侧重于同步的自定节奏敲击,还有一些研究要求和计算机生成的节拍器或钢琴记录的自我和他人的节奏同步。在一些研究中,被试被要求同步彼此手指敲击,敲击分析显示,两个人包括领导者和/或追随者,他们在适应或依赖伴侣行为的程度上存在差异。被试的敲击序列之间的相关性表明,互动是在相互努力的指导下进行的,以减少毫秒级上的预测误差。这可能导致参与者之间至少有三种不同的关系:领导者-追随者关系,其中领导者是非自适应的,这迫使追随者适应以保持同步;相互适应关系,即两个参与者不断地根据其伴侣的最后一次点击调整其敲击;以及领导者-领导者关系,如果敲击者是节奏熟练的音乐家,并且都跟随自己的节奏,而不考虑伙伴敲击的听觉输入,则可能会出现这种关系。重要的是,参与者对彼此的适应不同取决于他们潜在的内部预测模型。当音乐家用不同的基本音乐节拍(例如,4/4和3/4)一起轻拍时,他们最初的敲击同步性比他们在脑海中持有相同的音乐节拍时要差得多。这表明人际同步依赖于敲击者个体的预测编码(图5)。
可以使用耦合振荡器模型对双人敲击行为的差异进行建模,例如,展现领导者-追随者关系,相互适应关系或者领导者-领导者关系的敲击模式。耦合振荡器模型种每个人包含一个内部和一个外部的Kuramoto振荡器,与PCM模型描述的对神经加工自下而上和自上而下的影响的方式一致。脑电数据进一步表明,表现出相互适应行为的两对成员在动作感知相关脑网络中表现出的脑内神经同步程度高于领导者-领导者的二人组(图5)。
总之,双人敲击研究阐明了音乐互动是如何通过相互减少预测误差来引导的,实际上使它们相互可预测。一般来说,它们可以作为能力、社会环境和双人互动如何依赖于预测大脑加工的模型,也可以作为PCM模型如何扩展到个人之间音乐意义交流的例子。这项神经科学研究为研究音乐中最具挑战性的问题(音乐是如何变得有意义的)打开了一扇窗。因此,我们推测,从神经科学的角度来看,音乐之所以有意义,其中一件事是当音乐的互动(以一起听音乐或创作音乐的形式)随着时间的推移,塑造了每个参与个体的注意选择,产生了对准确度的共同预测——以及共同注意力的同步。这就产生了共同的音乐预期,从而巩固了音乐感知、行动、情绪和学习。
集体音乐即兴创作是音乐交流中一个要求特别高的例子,音乐家的预测模型需要在很大程度上保持一致。这在许多音乐风格中都可以看到;例如,在爵士乐中,即兴表演是核心的、决定性的元素,而作曲的最重要目的之一就是作为独奏者即兴表演的框架。一般来说,音乐即兴创作被许多研究人员视为人类创造力的一个主要例子,它涉及感知和行动之间每时每刻的互动。对爵士乐即兴演奏的研究一直涉及与运动、运动序列生成、注意力和执行控制、自主选择、感觉运动整合、多模态感觉、情绪处理和人际沟通相关的几个脑区。这些脑区包括前额叶脑区,如前辅助区、内侧前额叶皮层、额叶下回、背外侧前额叶皮层、背侧运动前皮质和听觉皮质。这并不奇怪,因为即兴创作同时涉及多个过程。爵士乐手必须一边演奏,一边聆听其他音乐家的演奏,并评估音乐的整体听起来如何,同时选择哪个方向,并产生下一步演奏的新乐句。因此,音乐即兴创作的神经元过程必须具有预测性,并允许不同网络和大脑状态之间的动态转换。
最近建立在全脑计算模型之上的最前沿的神经影像连接测量使我们有可能实时了解作为交流创造力基础的不断变化的预测性大脑状态。少数从全脑连接的角度对音乐即兴进行的研究指出,大量的大脑状态涉及大脑默认网络、凸显网络和执行网络中的额叶和顶叶区域的功能连接。有趣的是,这与在更普遍的创造力任务中发现的网络相似,例如当被试执行经典的发散性思维任务时,这表明音乐即兴表演是理解人类创造力的一个模型。这通常被理解为仔细创造一种感觉,在这种感觉中,解决(即,解释)预测误差的机会本身是可以预测的,这就像知道一个笑话的笑点就能以一种完全可预测的方式解决不确定性。
尽管音乐即兴创作需要大脑的预测加工,但有一个明显的矛盾:尽管大脑的主要目的是将预测误差最小化,但即兴创作的主要目的是创造一些新的、在美学和情绪上具有吸引力的东西,这就必然会产生预测错误。因此,即兴演奏者的困难之处在于如何平衡新鲜感和可预测性,使听众产生愉悦的反应或激发他们的认知好奇心,就像舞曲制作人试图击中groove的最佳状态一样。
由于在高水平的即兴演奏中所需要的一系列技能,爵士音乐家已经被证明在特定领域的任务中比其他类型的音乐家表现更好,例如耳朵训练任务的表现和关于旋律预期违和的大脑定量测量。与此同时,静息态fMRI的研究结果显示,即兴演奏的音乐家比古典音乐家表现出更多的分布式、全局连接的皮层网络,而古典音乐家则表现出比前者更高的网络内连接,还发现这些不同音乐家群体之间结构差异的形态学测量结果。
在最近的一项研究中,对期望程度不同的和弦作出反应的事件相关电位的振幅与发散性思维任务中的流畅性和独创性的行为测量明显相关,这表明音乐技能对更多领域的一般过程有一种假定的迁移效应。通过音乐即兴训练是否能获得更多的创造性技能,以及这种训练如何能改变大脑中的预测机制,这仍然是一个悬而未决的问题。
图5 音乐互动。图中展示了一个受预测编码启发的音乐交流模型,该模型显示了协调期望的连续和互惠过程。a. 两个即兴者(由红色大脑和蓝色大脑表示)最初可能有着不同的图式预期;也就是说,他们在一起演奏时可以体验不同的节拍(3/4和4/4拍)和调性(C大调和A小调)。b. 在相互作用的过程中,这些模型可能通过相互的预测编码机制协调成4/4拍和C大调的共享体验。c. 两个即兴演奏者之间的模拟互动如何随着时间的推移而演变成三种不同类型的同时发生和相互作用的音乐预期:图式预期、真实预期和动态预期。最初(用黄色标记,对应于a部分),图式预期(基于对节拍和调性的经验)与音乐例子中所示的非常不同。过了一段时间(用绿色标记,对应b部分),当一个共同的预测节拍和调性模型建立起来后,两位即兴演奏者的图式预期就收敛了。中间和底部的图说明,在共享的图式预期建立后,真实预期(熟悉的音乐材料)和动态(短期的)预期将会更多,但不完全协调。d. 一个基于数据的动态节奏预期同步的例子,当两个来自相同音乐背景的人一起敲击一个简单的节奏。基于连接性的脑电图数据(从周期性锁相模式计算)强调了非自适应音乐家与自适应音乐家在右侧化颞顶脑网络中信息流动如何不同(如箭头所示),其关键节点在右体感皮层、右楔前、右上回和右颞中部皮层。负值表示接受区标为蓝色,正值表示发送区标为红色。
8.结论和展望
过去20年对大脑音乐的研究已经对大脑如何通过预测编码加工音乐有了基本的了解。未来几年,我们可能会致力于了解音乐如何塑造社会互动,以及预测编码在通过音乐创造共享意义,甚至是幸福状态(eudaimonia)方面的作用。作为这一过程的一部分,有许多尚未解决的问题。在这方面,我们注意到跨模态范式的最新发展,以及跨文化大脑实验的需要,以补充我们目前对音乐和大脑的知识(目前几乎完全基于对西方音乐和被试的研究)。另一个有趣但至今尚未回答的问题是,是否有可能在音乐的心理意象中自我生成MMN。有没有可能通过想象一段funky节奏而不靠运动来获得一种愉悦的groove体验?由于没有感官信息可以与内部节拍模型进行比较,PCM模型会假设,至少对于较低层次的预测,很难产生准确的预测误差,但这是一个可以测试的经验问题。此外,只有少数研究考虑了嵌入音乐事件的不同预测框架的影响。旋律、和声和节奏之间的相互作用,例如特定旋律的调性变化或节拍移位的影响,以及歌词和旋律之间的相互作用,都有待于今后的研究。虽然这篇综述主要关注与旋律、节奏和和声预期相关的预测编码,但也可能存在与声音引导、乐器、音色、音景或音乐事件相关的预测机制,例如当电子舞蹈音乐出现所谓的drop[译者注:Drop是一个结构上的概念,一般视作是电子舞曲中的高潮段落,是在「Build-up」的铺垫过后情绪释放的段落,往往更躁动更有张力。]时。这些可能与大脑中更抽象的听觉预测加工有关。
PCM模型为这些工作提供了一个令人信服的但非排他性的框架。PCM模型的概率方法(对隐藏参考结构进行建模)的另一种替代方法是基于振荡器的方法,这种方法用耦合非线性振荡器的共振来模拟对节拍和调性的感知。振荡器方法给予刺激特性比自上而下的学习音乐经验的影响更大的权重。因此,它将难以解释PCM模型或基于预测方法可以解释的音乐现象的范围,例如听觉预测假设的行动模拟,这个假设提出,运动系统通过这些连接提供一个周期性的时间框架,有助于听觉预测的准确性。然而,考虑到加工水平的不同,这两种说法可以有效地结合在一起,基于振荡器的方法为大脑用于阐述概率预测的内部模型或生成模型提供了基础(参见专栏2的例子)。
总之,我们希望PCM模型将继续揭示音乐感知、动作、情感和学习的神经机制,并将有助于理解预测作为大脑功能背后的基本原理。这些见解可能为理解音乐如何对个人以及人与人之间的音乐互动变得有意义提供了新的途径。
参考文献:Vuust, P., Heggli, O. A., Friston, K. J., & Kringelbach, M. L. (2022). Music in the brain. Nature Reviews Neuroscience, 23(5), 287-305. https://doi.org/10.1038/s41583-022-00578-5