多变量模式分析(MVPA)或大脑解码方法已经成为分析功能磁共振数据的标准做法。虽然解码方法已广泛应用于脑机接口,但其应用于时间序列神经成像数据(如脑磁图、脑电图)以解决认知神经科学中的实验问题是最近的事。在本教程中,我们描述了从认知神经科学的角度来告知未来时间序列解码研究的广泛选择。使用脑磁图数据的例子,我们说明了解码分析流程中的不同选项对实验结果的影响,目的是解码不同的知觉刺激或认知状态随时间的动态大脑激活模式。我们展示了在预处理(如降维、降采样、试次平均)和解码(如分类器选择、交叉验证设计)时所做的决策。除了标准解码外,我们还描述了对时变神经成像数据的MVPA的扩展,包括表征相似性分析、时间泛化和分类器权重图的解释。最后,我们概述了时间序列解码实验设计和解释中的重要注意事项。本文发表在Journal of Cognitive Neuroscience杂志。
1 引言
在过去的15年里,大脑解码方法在fMRI数据分析中的应用在认知神经科学领域产生了巨大的影响。除了提高灵敏度外,fMRI解码方法的引入为解决人类大脑中信息处理的问题提供了可能性,这补充了传统的单变量分析技术。虽然MEG-EEG等时间序列神经影像数据的解码方法已广泛应用于脑机接口,但最近才被应用于认知神经科学。
本文的目的是为认知神经科学实验的时间序列神经成像数据的分析提供一个教程式的指导。尽管已有BCI的介绍,认知神经科学的时间序列解码的目的与驱动这些方法在BCI中的应用的目的不同,因此需要有针对性的介绍。虽然有许多关于fMRI解码的评论和教程,但还没有的教程介绍解码时变的大脑活动。尽管这些方法在概念上是相似的,但fMRI和MEG-EEG之间的神经成像数据本质上的根本差异造成了重要的区别。在本文中,我们使用一个示例MEG数据集提供教程介绍。尽管针对时间序列数据有许多可能的分析,我们将本文的范围限制在从诱发(evoked)反应中解码信息,在单个时间点或小时间窗上进行组水平统计推断。与大多数神经成像分析技术一样,给定一组分析决策的可能排列的数量是非常大的,而分析流程的特定选择是由手边的实验问题指导的。在这里,我们的目的是提供如何进行分析的广泛演示,而不是规定一个特定的分析流程。
早期使用时间分辨解码方法的研究表明,使用这种方法对MEG/EEG进行实验研究具有重要的潜力。然而,与fMRI解码方法的普及相比,将多元模式分析(MVPA)技术应用于脑电(EEG)或脑磁图(MEG)的研究较少。因此,本文的目的是:
(a)介绍解码时间序列(如MEG/EEG)和空间(如fMRI)神经成像数据之间的关键区别,
(b)使用带有MEG数据示例的实际教程说明时间序列解码方法,
(c)说明选择不同的分析参数对结果的影响,
(d)概述解释时间序列解码研究的重要注意事项。
总之,这篇文章将提供一个广泛的概述可用的方法,以告知未来的时间解析解码研究。本教程以MEG为背景,然而,该方法和分析原则可推广到其他时变脑记录技术(如ECoG、EEG、电生理记录)。由于本文的目的是向一般读者提供一个广泛的概述,我们避免了方法的正式数学定义和实现细节,而是关注应用于时间序列数据的解码方法背后的基本原理。
MEG/EEG的MVPA
术语多变量模式分析(或MVPA)包含了一套不同的神经影像学数据分析方法。这些方法的共同点是,它们考虑了多个变量之间的关系(例如,功能磁共振成像中的体素或脑磁图脑电图中的通道),而不是将它们视为独立的和测量相对激活强度。术语解码(decoding)是指从数据中预测模型(encoding反过来)。在认知神经科学中,解码最常见的应用是使用机器学习分类器(例如,相关分类器或判别分类器)在神经影像数据中识别与实验任务或刺激相对应的模式。MVPA最受欢迎的应用是解码,以及最近的表征相似分析(RSA)。在MVPA分析的广泛范畴内,本文的中心重点是应用于诱发响应和日益流行的RSA框架的解码方法。
在一个简单的实验设计中,解码方法如图1所示。在这个实验中,参与者观看蓝色圆圈或红色方块的图片,同时记录他们的大脑活动。解码分析的目的是测试我们是否能根据参与者的大脑激活模式预测他们看到的是蓝色圆圈还是红色正方形。如果实验刺激能够成功地从被试的大脑激活模式中解码,我们可以得出结论,在神经成像数据中存在一些与实验操作相关的信息。首先,使用标准的神经成像(MEG、fMRI等)技术记录不同刺激(或实验条件)下的大脑激活模式(图1A)。不同实验条件下变量(如fMRI中的体素、MEG-EEG中的通道)的激活水平被表示为高维空间中的复杂模式(每个体素、通道或主成分都是一个维度)。为简单起见,在图1B中,这些模式显示在二维空间中。图中的每个点代表一个实验观察结果,对应于两个样本体素/通道对其中一种实验条件(蓝色圆圈或红色方块)的同时激活水平。
解码分析的第一步包括训练分类器,使用数据的子集将大脑激活模式与实验条件关联起来(图1C)。实际上,在训练过程中,分类器会在高维空间中找到决策边界,将对应于两个实验类别的大脑激活模式最佳地划分为两个不同的组。由于神经成像数据具有固有的噪声,这种分离不一定是完美的(注意图1C中决策边界错误一侧的红色方块)。接下来,使用训练过的分类器预测未用于训练分类器的新数据的条件标签(图1D)。分类器预测新的(未标记的)数据是否更类似于通过观看蓝色圆圈或红色正方形而引起的激活模式。如果分类器的表现高于随机预期(在这种情况下,有两个刺激时的猜测率为50%),这就提供了证据,表明分类器可以成功地泛化所学到的关联,以标记新的大脑反应模式。因此,我们假设大脑激活模式包含区分实验条件的信息(即,从神经成像数据中可以解码蓝圈红方的条件)。然后可以在不同的大脑区域(fMRI)或时间点(MEG/EEG)之间比较解码的准确性,以探测大脑中信息处理的位置或时间进程。这是通过对不同数据进行多次重复分类来实现的,即在MEG、EEG中不同时间点(图1E)检查时间进程,或在fMRI中不同脑区(图1F)检查大脑中信息的空间分布。因此,从MEG/EEG和fMRI数据进行解码的主要实际差异在于获取信息模式的方法(图1A, B)以及成功解码后得出的结论的性质(图1E, F)。
图1一般解码方法。
(A)用标准的神经成像技术记录大脑对刺激(如蓝色圆圈和红色方块)的反应。
(B)两种刺激条件(红色方块和蓝色圆圈)引发的激活模式在多个维度上表征(EEG/MEG通道或fMRI体素);
(C)在神经成像数据的子集上训练分类器,目的是区分与每个刺激类别相关的复杂大脑激活模式的可靠差异。
(D)分类器区分刺激类别的表现是通过测试其对独立神经成像数据(训练中没有使用)的预测来评估的,以获得解码准确性。
(E, F)在不同的时间点重复B-D步骤(当使用EEG/MEG时)来研究可解码信号的时间演化,或者在不同的脑区重复B-D步骤(在fMRI中)来检查可解码信息的空间位置。
对时间序列神经影像数据进行解码正变得越来越流行。迄今为止,大多数研究都是将这些方法应用于理解视觉刺激和物体类别加工的时间动态。例如,利用MEG、EEG和神经元记录,时间演化的解码已被用于研究客体表征,客体表征是如何随着时间而出现的。其他研究也使用这种方法来解码光栅的方向和空间频率,还有决策、工作记忆等。值得注意的是,分类器已被广泛应用于EEG,以实现不同的目标,因为EEG的低成本和可移植性是发展BCI的理想条件。这些应用程序使用分类器来预测大脑状态,以操作计算机或机器人。然而,BCI的目标是实现最大可能的可用性,即最佳的预测精度、稳健的实时分类和泛化。因此,BCI系统的性能测量经常在各个研究中进行比较。这与神经科学的解码不同,神经科学的目标是通过对信息可用性的统计推断来理解大脑的处理过程,研究之间的准确性差异通常被认为没有意义。
虽然这是一个相对较新的领域,但在应用于时间序列神经成像数据的标准解码分析方面,已经有一些方法上的扩展。RSA (Kriegeskorte & Kievit, 2013)与脑磁图数据一起被用于关联大脑表征的时间结构与行为。RSA也被用来连接来自不同模式的神经成像数据。例如,对于物体表征,早期出现在脑磁图数据中的表征结构与fMRI测量到的初级视觉皮层中的表征相对应,而后期则反映了颞下皮层中的表征。时间序列解码的优势在于,可以检查大脑表征的动态进化。其中的一个例子是时间泛化方法(参见时间泛化方法部分),MEG使用该方法揭示了对听觉新奇的局部和整体反应表现出明显不同的时间泛化模式。此外,通过将源重构方法与解码方法相结合,还可以深入了解时空动态或通过比较传感器子集之间的交互作用。因此,尽管迄今为止应用解码方法的时间序列神经成像研究相对较少,但这些研究已经提供了有价值的见解,说明了未来应用的丰富潜力。
最近,已经开发了几个工具箱来实现本文其余部分所描述的方法;PyMVPA工具箱,MNE-python,Neural Decoding Toolbox,CoSMoMVPA。
解码和其他MVPA变体是单变量MEG/EEG分析的替代和补充方法。本文将不涵盖MEG和EEG的单变量方法(参考Luck和Cohen的书)。与以往一样,分析方法的选择必须以实验问题为指导。单变量和多变量方法之间的一个主要区别是,在解码方法中使用的分类器可以使用在单变量分析中比较平均信号时无法检测到的信息(即不显著结果也可以用来分类,参见图2中的说明)。这可以提高检测不同条件差异的灵敏度(并且是在单试次的基础上)。例如,解码分析可以导致早期检测信号的差异,且分类器发现的差异可能与成分中发现的差异不同。除了敏感性之外,单变量分析和MVPA分析之间的主要区别是每种方法都适合解决的实验问题中的概念差异(基于激活的vs.基于信息的)。我们预计,时间序列解码方法将继续与单变量方法一起发展,正如在fMRI中采用解码时所发生的那样,这两种方法都得到了有效的使用。
本文的主要目的是描述一个典型的解码时间序列数据的分析流程。文章组织如下。我们从描述实验和数据记录程序开始,以获得示例MEG数据。接下来,我们将说明如何结合使用主成分分析(PCA)、子采样和平均对记录进行预处理(参见预处理部分)。接下来是解码分析(请参阅解码部分)。对于所有分析阶段,我们提供了在每个阶段做出的不同选择如何影响结果的比较。在之后,在附加分析部分,我们描述了该方法的三个扩展:(1)时间泛化,(2) RSA和(3)分类器权重投影。最后,我们在一般性讨论部分概述了解码方法的重要注意事项和局限性。请参见图3,以了解分析流程的概述和本文的结构,包括相关的部分标题。
图2与单变量分析相比,多变量分析如何增加敏感性的说明。
(A)对两个刺激(A类和B类)的平均ERPs在两个通道(左和右)显示。在单变量分析中,对单个通道中的两个类的响应基本重叠,并且可能不显著。(B)相同的反应以二维空间的点表示,显示了两个通道在同一时间点的激活(即ERP图中垂直灰色条的位置)。当在解码分析中合并来自两个通道的信息时,可以定义一个边界(虚线)来分隔两个类(与虚线正交绘制的分布)。
图3典型分析流程的示意图概述。有关更多细节,请参阅本文的相关部分。本文概述了解码研究的一般流程。
实验描述
在本教程中,我们使用MEG数据来说明在几个分析阶段所做的不同选择对解码结果的影响。在使用功能磁共振成像(fMRI)和脑磁图(MEG)数据的研究中,物体的动感(Object animacy)被证明是可靠的分类对象。这里我们使用这个稳健的范例作为比较解码流程中不同分析决策的结果的基础。
20名健康志愿者(4名男性)参与了这项研究,他们的平均年龄为29.3岁(介于24岁和35岁之间)。实验前获得每位参与者的书面知情同意,本研究经麦考瑞大学人类研究伦理委员会批准进行。这些刺激是48个视觉物体样本(24个动物和24个非动物)的图像,分割并显示在一个相位打乱的背景上(见图4)。这些图像被短暂地显示了66毫秒(9个视角),然后在1000到1200毫秒之间呈现注视点。参与者被要求尽可能快且准确地将刺激分为动物的或非动物的,只需按下一个按钮。每个图片32个试次,每个类别768个试次(有生命/无生命),每个参与者总共1536个试次。所有试次都包括在分析中,无论反应、眨眼或其他运动伪影。
数据收集
MEG采样率1000Hz,在线高通0.03Hz,低通200Hz,分段为-100到600ms。
数据分析
不同选择对解码结果的影响将通过相对于一组固定参数系统地改变一个参数来描述。这种方法的三个注意事项是:
(1)由于这些参数不是独立的,分析决策之间可能存在交互作用;
(2)这些分析决策的影响将因数据集而异;
(3)只有在噪声水平相同的情况下,得出解码性能差异的结论才有效。因此,下列结果应被解释为说明性的而不是规范性的分析指导方针。为了说明不同参数对结果的影响,它们在最后阶段一致地显示为分类器精度随时间的函数。这里列出了默认方法和固定参数以供参考,除非另行指定,图6-10中的结果都是使用这个默认流程获得的:
预处理:降采样为200Hz,平均四个试次,PCA保留99%方差。
解码:朴素贝叶斯分类器,留一交叉验证。
结果被报道为时变解码精度,即较高的准确率反映了较好的从脑磁图数据对刺激激活的解码(预测)。为了评估准确性是否高于偶然性,在每个时间点对解码性能的总均值(n = 20)进行Wilcoxon符号秩检验。采用FDR矫正。请注意,选择这些统计数据是因为它们简单易用;我们将在分类器性能评估和组水平统计测试部分讨论评估分类器性能和统计的常用选项。
图5显示了这个默认流程的结果。正如预期的那样,在刺激开始之前(-100到0毫秒),解码性能是随机的(50%),确认信号中没有动物信息。然后,在刺激呈现后大约80毫秒,分类器的性能在几乎整个时间窗口(到600毫秒)显著高于随机水平。因此,在这些时间点上,我们能够成功地从脑磁图激活模式中解码给定试次中呈现的刺激是否是是动物(鹦鹉、狗、马等),或者不是动物(香蕉、椅子、树等)。这表明脑磁图信号包含与刺激的动物性相关的信息。下一节将详细描述此流程,同时比较不同分析决策的效果。
图4实验设计说明。(A)刺激由24个动物的和24个非动物的视觉物体组成,转换成灰度,叠加在一个相位打乱的自然图像背景上。(B)刺激以随机顺序呈现66毫秒,随后是ISI,时间在1000到1200毫秒中随机。参与者在ISI期间按下按钮对刺激进行分类。
图5使用默认的分析流程从MEG数据解码图片。分类准确率(参与者平均正确百分比)显示为相对于0毫秒刺激开始的时间的函数。虚线表示概率分类准确率为50%。阴影部分是参与者的标准误差。x轴上方的圆点表示解码性能明显高于随机性的时间点。
预处理
神经影像学数据往往是嘈杂的。成像数据中的信号与环境噪音、基线活动水平或由眨眼或其他运动引起的波动相比较弱。因此,采用了一套标准的程序来提高信噪比。此外,神经影像学数据是高维的,通常将分析限制在较少的维度。在MEG解码中,输入到分类器的特征(即通道)的数量通常会减少数据的维数。此外,时间平滑是常用的方法。有多种方法可以实现这些预处理步骤,本节将介绍最常用的方法。
数据变换和降维
预处理的一个标准步骤是降低数据的维数。一些分类器需要更多的训练样本而不是特征,而另一些分类器如果提供太多的特征或需要更长的计算时间,可能会对数据中的噪声进行过拟合。原始MEG记录由许多通道组成,通常有160个或更多,并且有相当多的冗余信息,例如,在相邻的通道中。因此,通常的做法是在解码前通过特征选择来降低数据的维数,这可以通过多种方式来实现。一种方法是选择信息量最大的通道,例如,Isik等人(2014)使用方差分析显著性检验来选择包含显著刺激特定信息的MEG通道。
或者,可以使用无监督、数据驱动的方法,如PCA,它将数据转换为具有相同数量特征维的线性不相关成分,按每个成分解释的方差量排序。在MEG中使用PCA有很多优点:首先,只保留占大多数方差的成分,大大降低了数据的维数。在示例数据(160个通道)中,平均48.16 (SD = 7.05, range = 26-79)分量占数据方差的99%。其次,PCA可以将噪声和人为因素(如眨眼)分离出来。这些成分随后可以被分类器抑制,因为它们不包含特定于类别的信息。第三,由于生成的PCA成分是不相关的,它允许使用更简单(即更快)的分类器,无需假设特征协方差(例如,朴素贝叶斯)。
图6说明了所描述的降维方法对示例数据的解码性能的影响。对于这个数据集和分类器,与使用原始通道相比,PCA产生了更好的性能。请注意,这些差异依赖于分类器。在这里,对训练数据计算PCA变换,并对测试数据应用。或者,可以计算整个时间序列的一个转换,并在交叉验证过程之前对所有数据进行此操作。然而,这只有在分析的目标是统计推断时才可行,因为这可能导致更乐观的解码准确性,而不会推广到新数据。
另一种方法是将传感器数据转换为虚拟源空间中的激活。在预处理过程中可以使用源重构(例如波束形成器或最小范数估计)代替解码通道激活。然后在源空间而不是通道空间进行分类。利用源空间进行解码有可能提高分类精度,因为源重构算法可以忽略通道噪声。可以通过限制分类器只考虑来自预定义ROI的信号,或者通过使用完整的源空间重构和投影分类权重。第二种方法依赖于解释分类器的权重,因此,源的可靠性不仅取决于重构质量,还取决于解码性能。源重构方法仍在发展中,未来重建精度有可能提高,使源空间解码成为一个有吸引力的选择。然而,由于到目前为止源空间解码还没有被广泛使用,我们将在本教程的其余部分中不涉及它。
提高信噪比
MEG数据通常在高频(如1000hz)采样,提高信噪比(信号强度与背景噪声强度的比较)的一个常见策略是在时间上对数据进行压缩。两种主要方法是使用滑动窗口对多个时间点进行分类或向下采样数据到更低的频率(见图7)。两种方法的区别在于,当使用滑动窗口时,分类器可以访问窗口中的所有时间点(特征数量增加),而在降采样时,它接收到的是平均值(每个时间点的特征数量保持不变)。对于示例数据,降采样对解码性能的影响很小,但由于需要分类的时间点更少,因此减少了解码分析的计算时间,从而有利于分析。滑动窗口方法也提高了性能,但好处不大,特别是考虑到随着滑动窗口的增大计算时间会显著增加,因为分类器仍然在每个时间点进行训练和测试。最佳参数将取决于特定的数据集和所需的时间分辨率。这两种方法都需要注意的是,解码开始时间和峰值解码时间的估计都受到降采样或滑动窗口的选择的影响。当使用滑动时间窗口时,应该使用窗口中的最后一个时间窗来确定起始时间(如图7所示),以避免起始时间向前移动。建议在降采样前应用低通滤波器,因为降采样会导致混叠。然而,低通滤波会导致一种假象,即使在原始数据中不存在信号时,也会出现显著的解码。对于示例数据,我们将其降采样5倍,以获得200hz的采样率。
另一个噪声源来自于伪影。眨眼、眼球运动、心跳和肌肉运动都可能造成明显的伪影。另一个噪声源来自于伪影。通常,在经典的MEG-EEG分析中,包含此类伪影的试次被人工检查并从分析中排除,或者使用独立成分分析将这些伪影分离成它们自己的成分,然后手动或自动删除这些成分。实验也可以设计成减少伪迹的方式,例如,通过指导参与者眨眼来回应不属于分析的特定刺激。我们没有对我们的数据执行任何伪迹删除,并发现分类性能远高于偶然,但这可能会因数据集而异。由于分类器有能力在训练中学习忽略坏通道或抑制噪声,去伪迹在解码分析中可能不那么重要。然而,请注意,如果伪影与一种情况混淆(例如,由于刺激的某些特性,在一种情况下发生的眼球运动多于另一种情况),这将使伪影成为分类器识别信息的潜在来源。如果是这种情况,就不可能确定分类器是否正在解码实验条件。
通过在解码前对属于相同样本的试次进行平均,也可以提高信噪比。平均可以提高一般解码性能。这种效果如图8所示,不同数量的试次被平均。有趣的是,不管平均试次的次数有多少,解码的第一次开始是相似的。(在我们的示例数据中)当平均4个试次时,可以观察到最大的性能提高。平均更多的试次并不会以同样的因素提高解码性能。在选择平均试次次数时需要考虑的权衡是,减少试次通常会增加分类器性能的方差。或者,当没有足够的试次可用时,用于训练分类器的试次可以用bootstrap。对于不同的数据,平均试次的最佳数量是不同的。
图6降维方法对解码性能的影响。使用方差分析(黄线)进行通道选择的效果略好于使用原始数据(蓝线)。使用PCA(红线)可以获得最大的性能增益。阴影部分是参与者的标准误差。x轴上方的圆点表示解码性能明显高于偶然性的时间点。
图7 (A)降采样和(B)滑动窗方法提高信噪比对分类器精度的影响。阴影部分是参与者的标准误差。x轴上方的圆点表示解码性能明显高于偶然性的时间点。
图8平均试次对解码性能的影响。阴影部分是参与者的标准误差。x轴上方的圆点表示解码性能明显高于偶然性的时间点。
图9分类精度作为分类器类型函数的比较。(A)使用标准解码流程。(B)使用标准流程而不执行PCA。阴影部分是参与者的标准误差。x轴上方的圆点表示解码性能明显高于偶然性的时间点。
解码
对预处理后的数据进行解码分析。总而言之,在预处理中,原始脑磁图信号被分割成相对于刺激开始时的100到600毫秒的时间段,然后向下采样到200hz。组平均4个试次以提高信噪比,结果是每个客体实例对应8个伪试次。这些经过预处理的伪试次是解码分析中分类器的输入。
为了从MEG数据中解码类别信息,需要训练一个模式分类器(参见分类器部分)来区分两类刺激(动物的和非动物的物体)。使用交叉验证(参见交叉验证部分)来评估分类器对新数据归纳这种区别的能力。如果交叉验证后分类器的性能明显高于概率,这表明MEG模式包含特定于类别的信息,我们可以得出结论,可以从MEG数据解码类。在时间分辨MEG解码研究中,该过程在数据的所有时间点上重复。然后,例如,可以检查解码性能的峰值出现在什么时候,也就是说,信号中的信息在什么时间点允许最佳的分类。另一个经常使用的特性是确定类别特定的信息可用的最早时间的显著解码性能的开始。这些信号可以在不同的实验条件下进行比较。
分类器
有许多类型的分类器起源于机器学习文献。分类器的选择有可能影响实验结果,因为不同的分类器对数据有不同的假设。此外,机器学习分类的目标是高预测精度,这推动了越来越复杂的分类算法的发展。相反,预测并不是神经科学解码的主要目标,分类器的选择更倾向于解释的简单和容易,而不是优化预测的准确性。因此,对于大脑解码研究,线性分类器通常是首选,因为它们在本质上更简单,使解释不那么复杂。在fMRI解码中使用的默认分类器通常是线性支持向量机(SVM),或者在较小的程度上,相关分类器。然而,功能磁共振成像数据通常有许多特征和维度。SVM在处理许多特征时通常比其他分类器更好,因此是一种流行的选择。与fMRI数据相比,时间序列数据通常具有较少的特征(例如,我们的MEG数据集仅使用了PCA后的50个分量)。因此,不同的分类器对fMRI和时间序列解码分析的适用性可能存在差异。在这里,我们比较了SVM、相关分类器和两种常用的替代方法(线性判别分析[LDA]和高斯朴素贝叶斯[GNB])对示例MEG数据的性能(图9),使用它们的内置MATLAB实现(和默认参数)。其中LDA、GNB和SVM的综合性能最好。考虑到分类器的复杂性,这影响了计算需求,并考虑到分类通常重复许多次(例如,在多个时间点上),这有利于判别分类器(GNB和LDA),它们比支持向量机训练速度更快。有趣的是,尽管相关分类器在功能磁共振成像中相对流行,但它们在我们的数据中并没有表现得很好。然而,Isik等人(2014)报道了相关分类器在MEG数据中的表现与其他分类器不相上下。这种差异可能是由许多因素造成的,例如,预处理流程或实验设计的不同选择。为了说明分类器的性能取决于预处理,我们使用不同的预处理决策测试了相同的分类器。例如,从图9B可以看出,不进行PCA对GNB性能的影响较大,但对LDA和SVM性能的影响较小。这些依赖关系突出了试图为解码分析提出通用建议的难度。此外,每个分类器都有许多可优化的参数;然而,大多数神经科学研究使用标准分类器实现。
交叉验证
解码分析中的一个重要步骤是交叉验证:这提供了分类器泛化性能的评估。在标准的k折交叉验证中,数据被分成k个子集(即折叠),每个子集包含来自每个类别的均衡数量的试次。分类器使用除一个子集以外的所有子集(训练集)进行训练。接下来,使用训练好的分类器从剩下的子集(测试集)中预测试次的类别。这个过程对所有子集重复,并且报告所有折的分类器的平均性能。这种方法最大限度地利用了可用的数据,因为所有的试次都用于测试分类器。在MEG解码中,单个试次通常被假设为独立的(Oosterhof等人,2016),试次被随机分配到训练集和测试集。理论上最优性能是通过留一交叉验证获得的。
与其他分析决策一样,交叉验证的最适当实现是由实验设计指导的。标准的k-fold交叉验证将单个试次分配到训练和测试集。根据研究问题的不同,这可能会在分类器从训练数据中学习的类别区分中产生混淆。例如,为了解码动物/非动物,标准交叉验证需要将属于同一样本(例如,car)的试次分配给训练集和测试集。因此,分类器有可能学会根据特定样本的视觉属性所激发的激活模式来区分类别。这使得分类边界是基于动物性还是视觉特征变得不明确。为了避免这种情况,当解码由许多范例组成的类别时,我们建议使用留一交叉验证,属于一个范例(例如,汽车)的所有试次被分配到测试集中,分类器根据来自其他样本(例如,狗和椅子)的数据进行训练。这对于所有的范例都是重复的(例如,每个范例都分配给测试集一次)。
图10显示了不同形式交叉验证的解码精度,包括没有交叉验证的无效分析。注意,在没有交叉验证的情况下,分类器在刺激开始之前的表现高于机会。这个毫无意义的结果来自用于训练分类器的测试数据,违反了独立性的约束。时间分辨的解码方法有一个方便的内置检查:刺激开始前的概率高于解码性能表明在预处理或交叉验证阶段存在错误。在我们的数据中,10折和留一次交叉验证产生了非常相似的结果,表明最佳分割是特定于数据的。此外,通过比较传统交叉验证(例如k-fold)和留一之间的性能,可以估计分类器的性能在多大程度上受到单个刺激属性的驱动(例如,样本图像的低层次视觉属性)。k-fold和留一交叉验证之间的差异在时间序列的早期被观察到(与早期视觉特征处理的时间一致),并且在时间过程的后期减少(图10)。总之,使用独立的训练和测试数据进行有效的交叉验证是至关重要的。虽然有几种方法可以将数据分成训练集和测试集,但实现交叉验证的特定版本必须与研究问题兼容。
图10分类精度是交叉验证方法的函数。阴影区域是参与者的标准误差。x轴上方的圆点表示解码性能显著高于随机概率的时间点。
评估分类器性能和组水平统计检验
解码分析的统计评价是一个复杂的问题,对于解码分析的最优方法尚无共识。在我们的案例分析中使用的统计方法在文献中很常见,;然而,也有几种有效的替代方法。例如,我们将分类器的性能报告为准确性(正确率百分比)。当处理不平衡的数据时,准确性是一个不太合适的衡量标准(一个类别比另一个类别存在更多的试次),因为一个训练过的分类器可以利用不平衡的分布,并通过预测更频繁的类别来达到较高的准确性。
有几个选项可以用来评估分类器的性能是否显著高于随机概率。在我们的例子中使用了非参数Wilcoxon signed-rank检验,因为它对数据的分布做出了最小的假设。另外,t检验也常用。另一种流行的替代方法是置换检验,它需要反复打乱数据,并对打乱的数据重新计算分类器性能,以获得零分布,然后将其与在原始集合上观察到的分类器性能进行比较,以评估统计显著性。当不能对零分布作出假设时(例如,在有偏见的分类器或不平衡的数据的情况下),置换检验尤其有用,但它们需要更长的运行时间(例如,重复分析10,000次)。
重要的是,与fMRI分析的情况一样,时间序列神经成像分析也需要解决多重比较的问题,因为通常在不同的时间点进行多个测试。在我们的示例分析中使用的FDR是直接简单的,但其局限性是它没有考虑时间点之间的关系。另外,基于聚类的多次比较校正包括测试时间点的聚类是否显示高于概率的解码,因此可以增加对较小但更持久的影响的敏感性。
额外分析
在上面的章节中,我们说明了解码时间序列神经成像数据的标准方法。这里我们概述了用于解码分析的三种扩展。第一种是时间交叉解码(见时间泛化方法部分),它测试响应实验条件的激活模式持续或随时间演变的程度。第二个是RSA框架,它促进了可解码信息结构模型的测试。最后,我们概述了一种方法,该方法涉及到分类器权重的投影,以确定驱动分类器在传感器空间中的信号的空间源(参见权重投影部分)。
时间泛化方法(时间泛化方法)
时间序列解码的一个优点是,它有揭示大脑激活模式的时间进化的潜力,而不是为刺激或任务提供一个单一的、静态的解码估计。一种方法是在特定的时间点上训练分类器,然后在不同的时间点上测试其解码性能。这种形式的交叉解码揭示了特定刺激或任务的激活模式进化到何种程度。分类器有效地分割出多维空间来区分实验条件;因此,当在一个时间点上训练的分类器能够成功地预测其他时间点数据的类别标签时,这表明多维空间的结构在不同时间是相似的。相反,如果在两个时间点上的交叉解码不成功,则表明多维空间已经发生了足够的变化,使得在一个时间点上确定的类别之间的边界在第二个时间点上不再有意义。除了对解码结果进行时间表征外,该方法还可用于测试认知模型,从而对表征的泛化性进行理论预测。例如,可以在两个完全独立的数据集之间测试分类器的时间泛化。Isik等人(2014)测试了一个分类器的时间泛化性能,该分类器先在中央凹处呈现的刺激物上进行训练,然后在外围呈现的刺激物上进行测试。类似地,Kaiser等人(2016)使用这种方法来区分类别特定的响应和形状特定的响应。
图11A显示了对示例MEG数据执行的交叉验证的时间交叉解码。图中的对角线类似于标准的一维时间序列解码图(如图5 - 10)。对角线外的显著点(如图11B所示)表示分类器在对来自A时间点的数据进行训练时,可以概化到来自b时间点的数据。在这种情况下,分类器的性能可以很好地概括相邻的时间点(对角线上的红色区域),而且在一定程度上在150-200和300-500 msec之间,表明MEG激活模式在这些窗口中是相似的。
图11(A)解码性能的时间泛化。分类器在一个时间点进行训练,在不同的时间点进行测试。这对所有时间点对重复。图中显示了参与者的平均泛化精度。(B)时间点对图,这些时间点对的泛化程度与随机概率有显著差异(红色区域)(Wilcoxon符号秩检验,FDR)。
RSA
标准解码分析揭示了类别特异性信息是否存在于神经成像信号中。交叉解码(例如时间泛化)等方法可以探测分类器使用的大脑激活模式中信息的底层表征结构。RSA进一步采用了这个概念,并提供了一个框架来测试关于信息结构的假设。RSA是基于这样的假设,即具有更相似的神经表征的刺激更难以解码。相反,具有更不同表征的刺激将更容易解码。因此,中心思想是表征相似性可以通过可解码程度来表示。通过比较所有可能的成对刺激组合的可解码性,计算表征不同矩阵(RDM)。也就是说,对于每一对刺激,它们的激活模式之间的距离是使用几种距离度量之一计算的(例如,激活模式之间的相关性或分类器性能的差异)。
图12A显示了一个RDM的例子,矩阵中每个元素都对应于MEG实验中的两类刺激的不同。对于像MEG这样具有高时间分辨率的数据,可以为每个时间点创建一系列RDMs(表征不同矩阵),并用于研究随时间变化的表征的时间动态。图12A中的时变RDMs是通过使用相同的流程解码所有成对的刺激(使用2-折交叉验证,因为在两个样本之间解码时不可能遗漏一个样本)构建的;因此,RDM中的一个格子表示对一对刺激进行分类的解码精度。计算RDM(无论是时变的还是静态的)后,可以将RDM与模型RDM进行比较,模型RDM对刺激对的相对可解码性做出具体预测。在RSA迄今为止的研究中,RDM模型是基于广泛来源的预测构建的,包括行为结果、计算模型、刺激属性,或来自功能磁共振成像(fMRI)等补充成像方法的神经成像数据。
图12显示了RSA模型对MEG数据实例的评估结果。对于每个时间点,RDMs(图12A)与三个理论模型相关(图12B);一个是刺激动物性模型,一个是区分人工刺激和自然刺激的模型,一个是基于样本轮廓视觉相似性的控制模型(这与早期刺激辨别能力密切相关)。每个模型都根据每个样本对的特定刺激特征预测了MEG激活模式的相对(不同)相似性。模型与脑磁图RDMs之间的关联程度被解释为反映了每个模型所表征的表征结构在大脑激活模式中存在的程度。图12C中的结果被绘制成三个模型RDM与MEG-RDM随时间的相关性。动物性模型(蓝色线)比自然刺激模型(橙色线)对MEG数据有更好的拟合,两种模型在时间序列后期都比轮廓视觉相似性模型(黄色线)有更好的拟合。轮廓视觉相似性模型在时间序列的早期具有最好的拟合,这是不足为怪,因为它代表了早期的视觉特征。这表明,动物性是一个对脑磁图激活模式相似性相对较好的预测指标:来自同一类别(例如,两种生物)比来自不同类别(例如,一种生物和一种非生物)更难解码。在RSA框架内,这被解释为在对象范例的表征结构中,动物性是一个关键的组织原则的证据。
尽管RSA方法有其优势,但目前的局限性是,不同候选模型的有效统计比较是困难的。最近的一项研究提议,在考虑数据噪声的情况下,将模型的性能与可能的最高性能进行比较,这被称为噪声上限。当应用于MEG数据时,各种模型相对于噪声上限的性能可以随着时间的推移进行评估,如图12C所示。尽管目前在直接比较不同模型方面存在局限性,但RSA是研究神经成像数据中可解码信号结构的有用工具,这无疑将在其复杂性和实用性方面继续发展。
图12. RSA框架内的模型评估。
(A)跨参与者的MEG-RDMs平均值。矩阵中的一个单元表示一对对象范例的MEG激活模式之间的差异。RDMs显示了四个时间点:-50毫秒、100毫秒、250毫秒和400毫秒。
(B)三种模型RDMs,根据不同的刺激属性预测所有刺激对的大脑激活模式的表征相似性:动物模型,自然模型(自然的物体vs.人造的物体)和视觉轮廓模型。
(C) RSA模型评估。在每个时间点,每个参与者的RDMs与B中的三个候选模型RDMs的相关。平均相关的强度显示了候选模型对数据的拟合程度。阴影区域代表参与者的标准误差,x轴上的标记表示平均相关性显著高于零的时间点(Wilcoxon signed-rank检验,FDR)。灰色虚线表示每个时间点的噪声下限,即给定数据中的噪声,任一模型在每个时间点与参考RDMs相关性最大值的理论下限。
加权投影
随着实验条件的成功分类,有时有兴趣检查不同体素(fMRI)或传感器(MEG-EEG)驱动分类器性能的程度。在标准分类分析中,每个特征(例如MEG传感器)被分配一个权重,该权重对应于其输出被分类器用来最大化分类分离的程度。因此,很容易使用原始权重作为传感器包含特定类别信息的程度的指标。然而,这并不简单,因为更高的原始权重并不直接意味着比更低的权重更特定于类别的信息。类似地,非零权重并不意味着传感器中存在特定于类的信息。这是因为传感器可以被分配一个非零权重,不仅因为它们包含特定于类的信息,而且当它们的输出对分类器有用时,可以抑制噪声或干扰信号(例如,眨眼或心跳)。Haufe等人(2014)最近提出了一种优雅的解决方案,并已应用于MEG解码。这包括将分类器权重转换回激活模式。经过这种转换后,重构的模式是可解释的(即,非零值意味着特定于类别的信息),并可以投影到传感器上。但是,需要注意的是,模式的可靠性取决于权重的质量。也就是说,如果解码性能较低,权重可能是次优的,重构的激活模式必须谨慎解释。
这里我们总结了MEG数据的这种转换,并将结果绘制在图13中。首先,分类器权重(在本例中我们使用LDA而不是GNB,因为这种方法只适用于考虑特征协方差的分类器)通过将它们与数据中的协方差相乘而转化为激活模式。
为了显示目的,重建的激活模式可以投射到头皮上的通道位置。图13B显示了示例MEG数据在四个时间点的结果。注意,如果使用多个时间点进行分类,这种方法不能直接使用(例如,在从信噪比提高部分中描述的滑动窗口方法)。未校正的(原始的)权重投影如图13A所示,以供比较。我们现在可以观察到,对于图13B中的激活模式,信息源大约位于枕叶(背部传感器)周围,为100毫秒,随后位于颞叶(侧面传感器)周围,为300毫秒,这与视觉处理层次结构的预期一致。值得注意的是,在图13A所示的原始权重图中,这个模式并不容易识别。
图13分类器权重投影到MEG传感器空间。较深的颜色表示有助于激活解码的通道。
(A)不能直接解释未经校正的(原始的)权重投影,因为分类器可以为不包含类特定信息的通道分配非零权重。
(B)通过转化权重计算的激活模式可以被解释。
总讨论
时间序列解码方法为研究人脑信息处理的时间动态和组织结构提供了有价值的工具。在前几节中,我们概述了一个时间序列神经成像数据解码分析流程的例子,说明了不同方法和参数的影响(及其交互作用),并介绍了方法的扩展,如时间泛化(见时间泛化方法部分),RSA和权重投影。在最后一节中,我们将讨论在执行这些分析和解释结果时需要考虑的一些重要方面。其中一个中心问题是关于分类器准确性的解释。分类器非常敏感,将利用数据中所有可能的信息。这意味着,要从解码研究中得出有意义的结论,就需要仔细的实验设计和结果的解释。下一节概述了许多这样的缺陷。
常见缺点
第一个警告适用于所有使用分类器的研究,在文献中有很好的描述。重要的是,分类器不能访问测试集中包含的数据的类别特定信息,因为这将人为地提高分类器的性能。这种分析混淆被称为双重倾斜(double dipping),并在图10中没有交叉验证的分析中进行了演示(参见交叉验证部分)。时间序列解码的一个优点是,在大多数情况下,在刺激开始之前获得的数据作为第一道检查。如果在刺激开始前分类器的准确率高于随机概率,则表明可能是双重倾斜的污染。
时间序列解码的第二个注意事项是,在解释显著解码的开始(差异)时需要谨慎。解码对实验条件第一次显著的时间由信号的潜在强度决定。例如,当两种情况下峰值解码的强度不同时(例如,其中一种比另一种更容易解码),这也会影响解码的相对开始时间。如图14所示。我们构造了三个模拟数据集,使其具有相同的解码起始(50 msec)和解码峰值延迟(100 msec),但信号强度不同(见图14A)。为了评估信号强度对解码起始的影响,在每个数据集中加入高斯噪声,并进行显著性检验来寻找解码起始(跨时间点的符号秩检验,FDR)。仿真结果绘制在图14B中。注意,尽管这些模拟数据集被构造为具有相同的真实解码起始点,但显著解码起始点对于强信号的数据集更早,而对于弱信号的数据集则要晚得多。这强调了在解释起始点差异时的模糊性:不能假设较早的解码起始点反映了条件之间可解码信息的可用性的真正起始点差异。Isik等人(2014)解决了这个问题,方法是在峰值解码较高的条件下使用更少的数据,并在确定解码开始之前均衡各个条件下的峰值。
图14.使用模拟数据演示峰值解码强度如何影响的解码起始。
(A)三个数据集具有相同的开始和峰值解码延迟,但峰值强度不同。
(B)将高斯噪声添加到每组潜在信号中(每组500个试次,σ = 1),并在整个时间过程中评估显著解码(大于零)(符号秩检验,FDR)。x轴上的彩色圆点表示显著解码的时间点。
第三,如前所述,对信号滤波会抹去随着时间的推移而变化的信息。图15展示了一个极端的例子(使用阶跃函数),信号发生在50毫秒处。为了演示滤波的效果,在信号中加入高斯噪声,并使用FieldTrip工具箱中的ft_preproc低通滤波器函数(使用默认的巴特沃思四阶二通IIR滤波器),应用不同截止频率的低通滤波。降低截止频率的结果是增加了信号失真。应用30Hz低通滤波产生的信号在时间序列中较早的40毫秒内与零显著不同,而模拟的真实起始时间为50毫秒。然而,通过应用更高的滤波器截止,例如200Hz,这种效果就大大降低了。因此,在使用具有低截止频率的滤波器时要注意。
图15低通滤波对解码起始的影响。在这个例子中,在添加高斯噪声(500试次,σ = 1)的情况下模拟了起始时间为50毫秒的信号。然后使用不同的截止频率对信号进行低通滤波。试次平均值显著不同于零的时间点(符号秩检验,FDR)由x轴上方的彩色圆点表示。
最后,解码研究需要仔细的实验设计,以避免分类器分析中的混淆。设计解码研究的关键考虑因素不一定与单变量分析相同。因此,在重新分析原本不打算用于解码分析的数据时必须小心。分类器的高灵敏度意味着,如果类别之间有任何不同,而不是预期的操作,分类器很可能会利用这个信息,从而很容易引入实验混淆。参与者的行为反应的影响就是一个例子。在我们的MEG实验示例中,反应按钮(用于响应动物和非动物)在每个组块中都进行了切换。如果反应映射在不同组块是一致的,那么反应就会与刺激类别混淆,因为左键的反应总是对应于动物,右键的反应总是对应于非动物。按下按钮会产生相应的大脑信号,例如,在运动区域,这将在全脑脑磁图数据中提供一个信号,这将与类别条件完美相关。在这种情况下,还不清楚分类器解码的是有意的动物性实验操作,还是仅仅是参与者的运动反应。或者,分类器可以根据与类别相关的混杂因素区分两种条件或刺激类别(例如,对两种条件的不同注意,导致一个类别的整体信号更大),而不是操纵因素(例如,视觉特征的差异或任务难度)。
此外,即使是精心控制的设计,解码研究的解释也必须谨慎执行。解码研究可以得出结论,条件A可以从条件B中解码;然而,可解码信息的来源通常仍然是难以捉摸的。一个值得注意的例子是目前围绕着fMRI定向解码来源的争论。尽管通过fMRI对早期视觉皮质进行了十年的定向解码,但仍存在争议的是,亚体素水平上的任何信息(体素内偏差)是否有助于解码信号。在神经成像中,解释可解码信号的来源仍然是应用MVPA技术来提高我们对人脑信息处理理解所面临的主要挑战之一。