摘要
在进行脑电图(EEG)研究时,研究的严谨性和可重复性十分重要,无论是何种规模的研究项目,数据采集和质量控制都极其关键。本文的目的在于为脑电研究的组织与实施提供指导建议。本文涵盖以下内容:一、数据收集前的准备工作。包括建立和培训研究团队、实验设计和试点研究的注意事项、实验设备和软件设置、开发正式协议文件以及与研究团队成员规划沟通策略。二、数据收集开始后的相关工作。包括EEG数据质量监控、实验方案实施以及预处理程序的设定。本文提供的示例协议、示例设备设置、软件列表、示例代码和教程视频等资源,可访问网址:https://osf.io/wdrj3/。
1 概述
在建立和管理脑电图(EEG)研究时,除了正在检验的科学假设之外,还有很多需要考虑的因素。这对于大规模或多站点的研究来说尤为重要,在当今科学合作和强调科学严谨性和可重复性的氛围下,这种类型的研究越来越普遍。尽管这类研究有许多明显的优势,但它们也面临着许多挑战,这些挑战会随着参与者、实验任务、后续会话、数据采集地点和人员的增加而大大增加。除了出现错误的可能性更大之外,这些错误的代价也相应增大。想象一下,例如,你花了几年时间计划并执行一项大规模的脑电研究,当数据收集完成后,你发现计划中的一些分析无法执行,因为任务演示脚本中存在错误,或者你发现EEG信号噪声很大,尽管样本量N很大,但关键效应在统计上并不显著。你可能会发现有大量的伪迹,因此必须从最终分析中剔除多名参与者的数据,从而导致统计功效和可推广性(大型研究的主要优势)受到影响。或者,你可能正在进行一项规模较小的研究,并且能够在有限的时间内收集给定数量的高质量数据集(例如,为了完成一篇论文)。无论是大规模还是小规模的研究,都值得花时间和精力建立可靠的数据收集系统和监控程序,以尽量减少错误,并在出现问题时迅速发现和纠正问题。
我们与认知神经计算任务可靠性和严重精神疾病临床应用联盟(CNTRACS)进行了一项大规模、多站点脑电研究,由此获得了撰写本文的经验。该联盟旨在确定满足严重精神疾病认知障碍临床研究所需测量标准的任务和计算模型。研究人员从五个站点收集了260名参与者的EEG数据,每个参与者完成了六个实验任务,总获得了1560个数据集。因此,这些建议侧重于准备和管理大量数据集的采集和预处理,以及多个研究团队参与数据收集时出现的额外挑战。然而,值得注意的是,几乎所有这些指南都适用于任何EEG研究组织,无论研究地点或范围如何。例如,许多研究人员可能会发现这些建议有助于建立一套研究方案蓝图,适用于他们实验室进行的所有研究,即使每个单独的实验可能不被认为是“大规模的”。值得注意的是,这些建议是我们自己的建议,而不是官方发布的指南。当然,还有其他方法可以进行任何规模的高质量脑电研究。此外,心理生理学研究学会(Society for Psychophysiological Research)也提供了有关EEG分析和结果报告方面的正式指南。
本文第一部分提供了有关建立研究团队、优化实验设计、设备设置以及对研究人员进行脑电数据采集流程培训的建议。第二部分描述了实验方案实施、EEG数据质量监控,以及开发适用于大规模研究的预处理方法,旨在为数据质量监控和大量数据集的处理提供指导。本文还提供了相应的资源链接,包括示例协议、示例设备设置和软件列表、示例代码和教程视频(访问链接:https://osf.io/wdrj3/)。
2 第一部分:数据收集前的准备工作
在开始数据收集之前,应对研究中的每个过程进行严格的设计和测试,以最大限度地减少无关变量的出现。包括研究团队的建立和培训、实验设计的注意事项,实验设备和软件的选择等。
2.1 建立研究团队
对于大规模的研究,建议组建三个小组:一组负责数据收集,一组负责数据预处理,最后监督小组也是不可缺失的。数据收集小组的成员也可以参与数据预处理;然而,这些过程需要不同的技能,并且可能在研究的不同阶段执行,因此为了清晰起见,这里将这些职责分开。下面将对每个小组的职责进行详细介绍。
2.1.1 数据收集小组
该组成员除了负责收集脑电数据外,还应当定期参加EEG监督小组的会议,审查数据质量。此外该组成员还应确保①在每次实验结束时,所有数据都已正确备份;②记录实验过程中的所有异常情况;③由脑电监督小组发布的任何实验更新都已经过彻底的测试。
2.1.2 数据预处理小组
在数据收集工作开始后,应当培训一个研究小组专门负责脑电信号预处理。假设你有800个数据集(200个参与者,每个参与者有4个任务),每个数据集的预处理平均需要30分钟。这意味着对于一个将50%的时间用于脑电预处理的人来说,需要20周的工作量。相比之下,培训一个研究小组进行预处理所需的时间要少得多,这将大大提高整体效率。
2.1.3 EEG监督小组
最后,建议组建一个EEG监督小组,负责从解决数据收集问题到培训预处理小组等各种活动,该小组主要负责以下工作:①对于多站点的大型研究,应对各站点进行实地访问以确保数据采集的一致性。②对实验过程中的特殊情况进行及时处理。③确保实验中的每个过程按照流程开展。④对实验中的失误进行及时修正。⑤对于有多名主要研究者的研究,指定一个人来整合关于数据质量、因伪迹丢失的数据集数量、初步结果等信息,确保数据质量和研究的顺利进行。⑥需要有人负责监督任何实验更新后的实施和测试(例如,如果在研究进行中更新了操作系统)。同样,应考虑到执行和测试实验更新的人力成本,并确保有足够的资源和时间来完成这项任务。⑦与数据收集小组召开质量控制会议,并对数据预处理小组进行培训。
2.1.4 小结与建议
1.在研究计划阶段,应当仔细全面计算各项任务(培训员工、解决问题、处理数据、召开质量控制会议、向主要研究者总结进展、预处理和分析数据,以及数据收集和监控方案等过程)所需的时间。确保为数据收集、数据预处理和EEG监督小组预留了足够的时间,以满足这些需求。
2.考虑在脑电监督小组中加入高级培训员。高级培训员的任务包括:召开质量控制会议,培训和监督预处理小组,并对数据收集团队的紧急消息做出回应。确保这些监督活动的负责人得到高级培训员的充分支持和密切监督。
3.对于经验丰富的研究人员来说,适合承担的任务包括完成多站点研究的现场访问、在数据收集的前几周对EEG质量进行深入检查、监督高级培训员、以及与小组的主要研究人员进行沟通。
2.2 实验设计
2.2.1 多任务的研究
如果你的研究包含多个任务,就应该应用一些专门的实验设计功能。首先,所有任务都应使用相同的实验控制软件(例如,PsychToolbox,PsychoPy)和相同的编程结构(例如,输入受试者ID号的格式、计时方法)进行编程。尽管这可能需要重新编程现有的任务,可能看起来效率较低,但从长远来看,这将节省时间:当发现脚本中存在错误时,这种方法更容易排错。尤其是涉及多站点的研究,标准化脚本显得尤为重要。其次,任务演示、练习以及实验的指导语应当保持一致,这对于数据收集小组和参与者都有益处,前者可以更容易地了解任务流程,后者可以更轻松地理解任务指令。此外,我们建议在适当的时候使用提示屏幕来提醒研究人员记录和命名EEG文件。第三,对文件名的命名以及数据文件夹结构进行规定,并尽量减少用户犯错的机会。例如,想要确保行为文件名和EEG文件名都包含以下元素:参与者ID号、任务缩写和版本号。对于任务文件,应当标注时间以免数据文件被意外覆盖。总的来说,文件名看起来像这样:A001013_Task1_v2_03192022。如果你的参与者ID号包含字母和数字(例如,A00),应当将其编写入脚本,以便在控制提示中自动填充开头字母/数字,避免实验程序的不一致。最后,应当创建一个用于跟踪实验版本和数据分析脚本的系统。在大型项目中,由于程序漏洞、试点结果、操作系统更新等原因,不可避免地会产生多个版本的刺激演示和数据分析脚本。建议使用集中式存储库来跟踪多个版本,比如Github。无论你使用哪种系统,都应该包括以下信息:
1.任务的简要描述。
2.所有更新脚本的详细描述。如果在研究过程中发布了多个脚本版本,那么需要记录每个数据收集站点实施和测试该版本的日期。
3.所有任务参数,包括每个条件下的试次数量、刺激时间信息、试次结构,以及所有事件代码及其对应事件的列表。
4.对脚本进行特定修改的详细说明。
2.2.2 小结与建议
1.如果你的研究包括多个实验任务,那么确保这些任务都使用相同的实验控制软件,具有相同的结构,并以类似的提示、演示和练习序列开始。
2.仔细考虑保存行为和EEG数据文件的命名约定和文件夹结构,确保它能够有效地适应你的预处理和数据分析计划。一旦你的研究开始,对于进行数据分析的人员来说,调整不理想的数据组织方式可能会非常耗时。
3.如果需要,并且预算允许,可以聘请一个专职程序员,他可以将现有的任务转换为相同的实验控制包。如果现有的团队中没有具备必要编程技能的成员,那么这样做的成本效益可能更高,而且值得考虑。
4.将任务的每个版本、任务修改的详细描述和实验参数存储在一个集中的存储库中,以便调查小组的所有成员访问。对于多站点的研究,特别重要的是要跟踪各站点的脚本更新和测试错误的日期。根据我们的经验,获得每个站点已实施和测试更新的明确确认是至关重要的,以避免多个版本的任务同时使用的情况。强烈建议将“version”字段添加到行为数据文件中,或者将版本号添加到文件名中,以最大限度地降低此类错误的风险。
2.3 预实验
当使用新的范式或经典范式有所改动时,建议首先在一组易于测试的参与者(例如,20名大学生)中进行试点研究(预实验),并考虑以下问题:
1.参与者能否正确理解实验指导语?可以征求研究助手的反馈意见,他们更熟悉试点参与者在任务中的反应,可以提供有关实验指导语是否容易理解的有用反馈。
2.评估参与者对实验任务的理解程度。例如,让参与者在开始实验之前进行一个简短的测验,或者计算练习过程中的正确率?如果参与者未能达到所要求的正确率,是否应该允许他们重复练习?
3.事件代码是否合理且完整?是否确保能够测试计划中的所有比较?每个条件下的试次数是否足够?
4.输出文件中每个条件的预期事件数目是否完整?
5.如果你的实验任务需要进行按键反应,那么反应事件代码是否能正常显示?
6.任务时长是否合理?
7.行为数据文件的保存是否正确?所有计划的行为分析是否可以使用这些数据执行?在试点数据中能否观察到预期的行为效应?行为数据文件应包含重建实验的每个试次细节所需的所有信息。
强烈建议对预实验得到的数据进行所有预期的分析,在早期阶段完成这一任务,能发现并解决许多潜在的问题。对于多站点研究,在预实验结束后,每个研究站点都至少要运行一次完整的分析流程,预实验和分析预实验数据的目的是确保没有引入来自不同站点的错误(例如,软件版本不兼容、事件代码端口识别错误等)。最后,如果你研究的是一个特殊人群,比如儿童或临床样本,请至少在几个具有代表性的实验样本中进行预实验,以确保任务参数是可行的。此外,不同人群中需要考虑的因素也是不同的。应当选用有代表性参与者,并征求反馈意见,可以及早发现任务设计和数据收集的潜在问题,并对任务进行必要的调整,从而有助于确保在数据收集完成后能够解释你的效应。
2.3.1 小结与建议
1.在开始正式的数据收集之前,建议选择易于访问的参与者样本进行预实验。
2.使用预实验数据开发并验证EEG和行为数据分析流程,并确保在正式数据分析阶段你可以使用所选择的事件代码结构和行为数据文件格式执行各种预期的分析。
3.对于多站点的EEG研究,请至少在每个站点的一个参与者上试点所有任务,并对每个生成的数据文件执行完整的分析流程,以确保没有引入特定于站点的错误。
4.如果你的研究包括特殊人群,应当对目标样本成员也进行预实验,以确保任务参数对特殊人群是可行的。
2.4 事件代码延迟测试
几乎所有的视频显示设备在图像发送或图像呈现在屏幕上之间会出现一个固定的延迟,这一延迟时间会因设备型号而异,最长可达50ms。此外,如果刺激呈现的脚本编写不当,则可能会在这个固定延迟的基础上增加一个随机延迟。无论是单站点研究还是多站点研究,在研究开始前应当在每个研究站点测量事件代码延迟。对于视觉刺激,可以在显示器前放置一个光敏传感器并记录每次刺激时显示器发出的光信号来完成(请联系脑电系统制造商获得有关说明)。测量延迟的重要性体现在两个方面:首先,你需要改变分析流程中的事件代码,以考虑到固定的延迟。其次,如果你发现还存在一个可变的延迟,这意味着刺激呈现系统中有一个必须修复的bug。即使可变延迟很小,它也可能造成严重的后果。
2.4.1 小结与建议
1.在开始数据收集之前,测量每个采集系统的事件代码延迟时间,并明确它是恒定的还是可变的。
2.假设事件代码延迟时间是恒定的,通常只需在数据分析管道中根据所有试次的平均延迟时间来进行调整。对于多站点研究,该延迟时间可能因站点而异。
3.当发现事件代码延迟时间存在显著的可变性(即,超过±1个样本周期),这表明必须在数据收集开始之前消除错误。
2.5 处理流程和协议文档
2.5.1 处理流程
在预实验阶段开发几个不同的数据处理流程是至关重要的,每种处理流程都有不同的用途。此外,开发额外的脚本以向研究助理和监督小组提供有关数据质量的反馈也很重要。我们建议开发两个脚本来进行反馈。第一个是初始质量保证脚本,在每次数据收集结束后立即执行。该脚本执行简单、自动化的数据清理,并输出基本的质量指标,为收集数据的研究助理提供即时反馈。第二个处理流程是一个更复杂的质量保证脚本,研究助理可以使用它来检查他们的数据,为与脑电监督小组的定期会议做准备。使用EEGLAB和ERPLAB,该脚本提示研究助理可视化地检查数据,并观察伪迹对平均ERP波形的影响。这有助于研究助理了解他们在记录过程中监控和消除伪迹的工作如何影响数据,以便他们能够发现和解决可能导致脑电数据不可用的问题。
2.5.2 协议文档
与数据处理流程一样,你至少可以使用两种类型的协议文档,每种类型的协议文档都有不同的用途。首先,我们建议创建一个详细的培训手册,详细解释EEG设置过程,对出现的问题提供排除建议,以及常见伪迹示例和如何校正它们。此外,在该协议文档中还包括一些基本的EEG理论说明,并建议数据收集小组的所有成员观看开源教学视频,以熟悉常见的概念(https://erpinfo.org/resources)。其次,我们建议创建一个简短的协议清单(也称为工作表),用于说明数据收集的每个步骤。本文档旨在确保所有实验步骤都能执行,尽量减少设置过程中的偏差。详细的培训手册和简短的协议清单示例可参见网址https://osf.io/wdrj3/。最后,研究员可以考虑录制培训视频来补充协议文档。这些视频包括参与者问候和同意、脑电帽放置、数据收集和处理协议。
2.5.3 多站点研究的设备要求
建议监督小组在数据收集之前对每个站点进行访问,以确保设备连接、软件、反应设备、声音系统、计算机显示器的视觉输出、听觉输出、刺激呈现时间等方面在各站点之间的一致性。如果可能,所有数据收集站点都应该使用相同的刺激呈现、EEG采集设备和软件。关于设备的设置还有以下四点建议:(1)在数据采集期间使用高采样率,以便所有系统在预处理期间都可以降采样至相同的采样率。(2)在数据采集期间应用最小滤波,以便在预处理过程中可以对所有系统的数据应用相同的离线滤波。(3)使用相同的电极蒙太奇。(4)在预实验阶段记录每个系统的校准信号,并确保这些信号在通经过处理后仍然是等效的。
2.5.4 小结与建议
1.除非研究设计中另有说明,否则采集系统的所有要素在数据收集站点之间应尽可能保持一致。
2.对于多站点的研究,脑电监督小组的一名成员应访问每个站点,并确保采集系统的正确连接和校准。每次现场访问都应使用一份包含所有所需设备的清单,并记录任何异常情况,以便在预处理过程中加以考虑。对于较长时间的研究(即超过一年的研究),脑电监督小组应每年复查一次,以确保数据的一致性和可靠性。
3.如果需要组装新的EEG系统,当地工作人员应在线上会议中与脑电监督小组一起进行系统组装和测试。
2.6 软件
人们往往认为在研究开始时只需要一次性设置硬件和软件就可以了。然而,在大型研究的过程中,由于以下情况,软件或硬件可能会发生变化:(1)一台计算机意外故障,需要为新的计算机配置所有所需的软件;(2)操作系统的更新,导致软件无法正常运行;(3)人员变动需要以不同的用户名重新安装软件。建议为测试更新后的软件和硬件制定一个正式的计划,并提供一份运行本研究所需的所有软件的全面清单。此外,视频教程对于指导研究人员安装软件非常有用。查看安装过程的视频教程通常比基于文本的指令(如“打开Matlab并设置路径以包含存储分析管道脚本的文件夹”)更清晰明了。
2.6.1 小结与建议
1.制订一份所有所需软件及其版本的全面清单,确保所有数据收集系统使用相同的软件(除非研究设计另有说明),并将其作为研究中断时需要安装新软件的参考。
2.当需要进行多次程序安装时,视频教程尤其有用。
2.7 人员培训
对研究人员进行系统培训是十分重要的,包括新研究人员的初步培训以及老成员的再培训。即使研究人员具有以前实验室的脑电数据收集经验,我们仍然建议要求他们完成正式的培训,以确保数据收集程序完全符合研究方案。为提高训练的效率,应在准备和试点阶段,制定标准化的人员培训方案,这对于数据采集程序的一致性是必不可少的。
2.7.1 小结与建议
1.在准备和预实验阶段,应制定一个正式的培训计划。培训新员工时要确保他们遵循协议中的步骤,以防止数据质量随着时间的推移或在不同的数据收集站点之间发生变化。
2.当出现需要立即解决的问题时,研究人员应该实时告知监督小组,以便能对整个流程进行持续监控,并在出现问题时及时采取措施。
3.确保所有数据收集人员都知道如何联系EEG监督小组处理紧急问题,备份他们的EEG数据,进行适当的质量控制分析,并记录下所有异常问题。
2.8 保持沟通渠道畅通
在计划阶段,应制定详细的沟通计划,以便在记录过程中出现紧急问题时,数据收集小组的所有成员都能与监督小组成员进行沟通。数据采集小组中有经验的成员或许能够识别数据中的伪迹,但他们可能无法很好地判断哪些伪迹可以进行离线校正,哪些伪迹必须在数据采集过程中消除。有时,研究人员可能对他们所看到的情况是否“看起来正常”不太确定。研究人员应当将记录问题的图片发送给EEG监督小组,这样可以更容易地解决问题,同时也防止了数据丢失。另外,使用诸如Slack或Microsoft Teams这样的消息传递应用程序也是有用的。所有研究人员都能查看记录,并从脑电监督小组提供的反馈中获益。随着经验的积累,他们甚至可以为解决记录问题提出自己的建议,从而减轻监督人员的负担。
2.9 结语
无论你的项目是单个EEG研究,还是纵向研究,又或是多站点的联合研究,在开始阶段进行详细的规划可以在项目过程中节省大量的时间和金钱,并增加数据的真实性和可靠性。如果没有明确的计划,很容易低估人员需求量或者时间安排不合理。即使是最精心策划的研究,在数据收集开始后,也可能会遇到难题。在第二部分,我们将提供一些监控策略以确保在整个研究过程中收集高质量的数据,并快速发现和解决出现的错误。
3 第二部分:数据收集开始后的相关工作
即使在开始研究之前有了彻底和详细的计划,但随着时间的推移,研究实践也常常偏离最初的实验方案。因此,在整个项目过程中建立清晰且文档完备的数据质量监控是非常重要的。此外,在研究过程中常有意外发生,例如为了解决意外问题而临时编写的新规则、程序和代码,可能导致最后的分析出现异常,以下的建议旨在帮助你避免这种情况的发生。
3.1 工作表和会议记录
我们建议制定一份简短的协议清单或工作表,其中包括数据采集过程中需要遵循的所有步骤以及做笔记的地方。如第一部分所述,你应该在预实验和计划阶段创建此文档,以便在第一次EEG记录会话期间和此后的每次数据收集会话中使用该文档。工作表应包括关键要素的简短清单(例如,参见:https://osf.io/wdrj3/),以及收集数据者在数据采集期间所做的即时注释,将有助于确保所有成员遵循相同的步骤。
我们建议将工作表保存并存储在与原始数据相同的文件夹中。在我们的示例数据和脚本中,我们将工作表以PDF格式保存在原始数据文件夹中,以便在预处理期间轻松加载它,并便于数据检查。在项目的数据分析阶段,这些注释是非常宝贵的信息来源(例如,工作表上的注释可以作为预处理期间标记坏通道的指南),将这些注释与数据一起存储在文件中以便访问。我们还建议在工作表中加入上传和备份数据文件的提醒。我们的一般规定是,每个参与者的数据应该至少在两个地方可用,其中一个是在线存储(例如,Box)。理想情况下,每次记录结束后的“清理”协议应包括检查清单项目,以确保数据的本地副本已经保存,并上传了备份副本。
工作表不仅对所有的脑电研究都很有用,而且对于大规模的研究尤其重要,因为在大规模的研究中,数据的预处理和分析通常不是由收集数据的同一个人进行的,或者数据收集和分析之间经过了很长的时间。在这些情况下,工作表可能是分析阶段关于数据收集过程中情况如何的唯一可用的信息来源。工作表的示例可以在https://osf.io/wdrj3/上找到。
何时完成:在数据收集过程中,实时完成。
谁完成这项工作:收集数据的人。
建议形式:与个体参与者的脑电数据文件一起存储。
3.2 质量控制评估
在预实验和规划阶段,我们建议开发一系列质量控制管道来监控数据收集,并确保随着时间的推移,所有数据收集的成员继续遵循相同的标准。在本节中,我们对每个推荐的质量控制检查进行了描述。我们还提供了示例和相关资源,包括视频教程,网址为https://osf.io/wdrj3/。
很难客观评估EEG数据的质量,目前缺乏单一、经过良好验证的测量方法用于确定EEG数据的质量。鉴于此,我们推荐使用一系列检查(这些检查提供了多种机会)来识别不同阶段的常见问题。然而,下面提供的建议并非详尽无遗,研究者在将这些指南改编用于自己的研究时,可能希望纳入更多的数据质量指标。以下建议是为CNTRACS项目制定的质量控制评估,我们也会考虑在未来研究中纳入其他指标。例如,我们已经尝试使用自动化预处理管道(例如PREP;HAPPE)作为“首关”质量控制检查的一部分,这样EEG数据质量指标(如标准化测量误差(SME))可以作为初始质量控制评估的一部分。因此,读者应将以下建议作为评估数据质量的初步建议,可以根据新的指标进行改进。关于EEG数据质量指标的详细讨论,请参阅附录1。
3.2.1 实验前检查
我们建议实验人员在每位参与者到达之前对所有任务和设备进行实验前检查。只要打开任务并确保它按预期运行,并且所有软件和硬件都正常工作即可。最好使用某种类型的“虚拟”对象(例如,校准设备或简单的电阻器)来确保记录硬件正常工作。虽然这不能保证在实际的数据收集过程中不会出错(这就是为什么我们建议进行下面的检查),但它可以提供一个宝贵的机会来排除故障,或者在参与者到来之前采取措施纠正任何问题。
3.2.2 “首关”质控检查
首关质量控制检查是一个简短的数据处理脚本,在每次记录会话结束后立即运行,以便向数据收集小组提供即时反馈。我们建议这至少包括(1)每个不同事件代码(即触发代码)的出现次数和(2)参与者对任务的准确性总结。首关质控检查的输出具有两个功能。首先,它提供了检测可能被数据收集人员忽略的重大问题和意外错误的机会。数据丢失的最常见原因之一就是从刺激呈现系统到EEG记录系统时事件代码传输失败(由于任务脚本中的错误或硬件故障)。理想情况下,在实验开始时就能迅速发现并加以纠正。然而,有时会出现错误(没有检查事件代码),或者错误很难发现(例如一小部分重要的事件代码丢失或乱码)。在记录数据后立即完成数据的首次质量控制检查,可以及时发现错误,并且在运行其他参与者之前进行修正。其次,这可以提醒数据收集小组持续监控数据的重要性。在EEG会话结束后花几分钟时间运行这样一个简短的脚本,可以强化收集高质量数据的重要性。建议根据首次质控检查结果(如输出的事件编码数不正确),为数据收集小组提供与EEG监督团队联系的具体指导。
何时完成:数据收集后立即完成(当日)。
谁完成这项工作:收集数据的人。
建议形式:Matlab脚本的建立和确认工作,作为人员培训的一部分(参见第一部分)。
3.2.3 深入的质控分析
在大规模或多站点的脑电研究中,数据收集和数据分析往往是分开的。例如,在CNTRACS项目中,十名研究助理在五个不同的测试地点收集数据,然后由九名研究成员进行预处理,最后由EEG监督小组进行分析。对全部样本数据的“最终”分析可能需要几年的时间。如果你不希望等那么久才发现数据质量方面的问题,那么这些问题可以在很早前就被发现和纠正!
这些问题包括:(1)事件代码或行为表现中的错误使其通过了最初的数据质量检查,但最后无法进行比较;(2)在执行完整分析和查看平均ERP时,伪迹或数据质量的系统问题将显而易见。让数据收集小组完成深入的质量控制分析,并参加定期会议来审查数据,这也有助于让数据收集小组成员了解数据中可能出现的不同类型的伪迹,以及它们对分析的影响。正如第一部分所建议的那样,应该在预实验和规划阶段开发一个深入的质控分析脚本。它应该包含一个简短的EEG预处理(不包括像伪迹校正这样需要大量用户输入和经验的步骤),并且它应该生成一个简单的ERP图,以获得对数据质量的总体感觉。例如,如果一个实验涉及任何类型的视觉刺激的呈现,这个脚本可能包含基本的分段、伪迹拒绝、滤波,以及在所有条件下对所有试次进行平均,以生成一个可以观察到视觉诱发电位的ERP。即使实验的目标不涉及测量视觉诱发电位,这也允许基于评估已建立的可靠ERP来检查数据的质量。
我们建议在你的研究开始时与数据收集小组的所有成员每周召开一次会议。每周的会议应该在一开始就进行,以建立良好的数据监控实践。在这些会议上,所有参与数据收集的小组成员都应该准备好回顾深度质控分析的结果,由EEG监督小组的一名成员领导会议,并回答关于如何处理数据中观察到的伪迹的任何问题。该分析的输出将包括基本的ERP图和脚本中包含的简化伪迹拒绝例程的结果。示例脚本和数据集可以在https://osf.io/wdrj3/上找到。
在项目的早期阶段,我们建议在每次会议上预留时间来审查所有传入的数据。集中讨论可以发现并解决的故障上,例如信号漂移、坏导等。数据质量并没有公认的“黄金标准”,但EEG监督小组提供的主观判断和反馈可以作为在未来会议中讨论提高数据质量策略的重要起点。
何时完成:数据收集小组在每周监督例会上总结小组的分析结果。
谁完成这项工作:数据收集小组成员。
建议形式:该分析应包含一个“即插即用”脚本,一旦设置好,只需输入参与者ID号并点击“运行”即可。
3.3 预处理流程
正如在第一部分所讨论的,我们强烈建议在数据收集开始之前,在预实验和规划阶段开发一个处理流程。至少有两种方法可以做到这一点。首先,假设EEG监督小组的成员具有做出通道插值和伪迹校正等决策的专业知识,则EEG监督小组的成员可以对每个文件进行预处理。这种方法的优点根本不需要进行额外的训练来处理数据。当然,这种方法的缺点是耗费了大量的人力,特别是对于大型研究来说。其次,可以建立一个研究助理团队专门进行预处理分析。下面将介绍这种方法的要点。
在讨论对研究团队成员如何大规模预处理EEG数据集的培训建议之前,我们想对本节的范围做一个说明。首先,本节适用于标准化预处理流程。在这里,我们将EEG预处理定义为一系列步骤,将原始数据转换为一组“干净”(即不包含坏通道和可校正的伪迹)的数据文件,这些数据文件准备好进行分段、伪迹拒绝(预处理后数据中仍然存在的任何伪迹),并最终进行ERP平均或时频分析。后面这些步骤通常由研究团队中一位具有足够专业知识的成员来执行,以完成分析并准备手稿。其次,分析EEG数据需要时间、训练和技能,我们这里的目标不是提供EEG数据分析的一般背景知识。我们建议的解决方案是开发一个标准化的预处理流程,并对所有成员进行彻底的培训。虽然有一些完全自动化的预处理管道试图从数据筛选和伪迹校正中去除主观因素(例如,PREP),但我们仍建议使用半自动化的预处理管道(示例可以在https://osf.io/wdrj3/上找到)。一个原因是,在大多数情况下,用来判断自动预处理管道质量的基准仍然是由训练有素的人分析数据获得的结果。另一个原因是,即使你选择采用完全自动化的预处理管道,你仍然需要查看数据以确认一切都按照预期工作。
我们建议开发一个最终的预处理脚本,该脚本可以生成干净的、无伪迹的数据,但不包括许多其他处理步骤,这些步骤需要针对特定的分析进行定制。这将允许你灵活地使用预处理脚本进行许多不同的分析。在预处理培训开始,我们建议向所有数据预处理小组成员提供伪迹类型以及校正伪迹的方法。示例材料可以在https://osf.io/wdrj3/上找到。本文还建议数据预处理小组成员学习一些概念性的EEG/ERP基础知识,例如学习免费的在线课程(例如,https://courses.erpinfo.org/courses/Intro-to-ERPs)。然后,建议每周召开培训会议,在该会议上,EEG监督小组的一名成员将首先演示如何使用脚本对一名参与者的数据进行预处理,接下来,每个数据预处理小组成员轮流“领导”分析,这样数据预处理小组的所有其他成员都可以参与进来,并帮助达成关于数据评估决策的共识。
何时完成:完成大约8周的培训(每名预处理成员每周处理特定数量的数据集);此后参加每月会议以审查结果。
谁完成这项工作:数据预处理小组成员。
建议形式:建议在整个流程中使用脚本来生成图形和弹出式提示,以提醒各个环节的操作指导。
3.4 突发情况的处理
3.4.1 研究团队成员的流动
在大规模或多站点脑电研究中,研究团队可能会发生变化。应当在研究开始时讨论处理方案。当新的数据收集成员或数据预处理成员加入项目时,是由EEG监督小组的成员进行正式培训,还是由经验丰富的研究助理来担任这一角色?如果涉及到出差(如多站点研究),是否有相应的预算?这些都是需要考虑的重要问题,最好是在数据收集开始之前考虑这些问题。
简单地重复原始数据收集团队完成的初始培训方案可能不足以使新员工跟上进度。这是因为在一个项目的过程中会出现无数的小事情,这些小事情已经成为不成文的规则,只存储在实验室的集体记忆中。根据我们的经验,失去一个知道所有这些“不成文”规则的团队成员,是员工流失中最困难的部分。这不仅对主要研究人员来说很困难,而且对试图跟上进度的新团队成员来说也很困难。这个问题的最佳解决方案是进行详细的文档记录。文档记录虽然无法完全替代经验,但详细的文档可以帮助加快培训新员工的速度,减轻每个人的压力,并消除许多障碍。我们建议在研究开始时建立一份详细的培训手册。随着研究的进展,手册应该包含有关项目和研究团队的最新信息,实验任务和脑电记录协议的任何更改,订购用品的程序,以及日常操作方面的任何变化。
3.4.2 任务修改
对于在数据收集已经开始后对大规模研究中的任务进行修改,我们的主要建议是“坚决拒绝”。即使是对脚本的微小修改,如更改任务指导语或试次数目,也会引入错误的可能性,因为很容易出现使用多个版本任务的情况。然而,有时修改是不可避免的,例如当脚本中存在明显的错误时。在这种情况下,请谨慎使用。如果你必须修改实验任务,应该为每个新推出的任务创建唯一的版本号。版本号应该包含在启动实验任务时出现的文件保存提示符中。
请记住,任何影响事件代码或其编号、时间或试次结构的更改都可能涉及对预处理和后续分析脚本的修改。还要注意,对任务的修改需要同时对处理管道进行修改,以及修改所有管道的所有副本,并确保更改已在正确的数据集上生效。正如第一部分的实验设计所述,我们建议使用正式的软件版本控制系统(例如,GitHub)。至少使用一个跟踪表来记录每个新版本的名称、与上个版本相比有何改动,以及该版本实施的日期。理想情况下,EEG监督小组的一名成员将负责监督任务和脚本修改的安装和文档记录工作。
结束语
大规模的脑电研究需要大量的资金和人力投入,但它们有可能为科学变革做出重大贡献。在计划这样一项研究时,很容易只关注科学问题、实验范式和预期结果。然而,收集高质量的数据对于这项投资能够以可复制和对科学产生高影响的成果回报是至关重要的。如果脑电记录不干净或预处理不仔细和不一致,将难以获得具有统计显著性的结果和得出科学合理的结论。从本文中可以清楚地看到,进行EEG研究需要大量的准备、培训和监测工作,以确保研究高效进行,并使得时间和金钱的投入得到回报。我们希望在CNTRACS联合研究项目中的经验,包括我们在提前计划方面的成功以及在实施过程中所学到的经验,能够帮助其他人进行高效的大规模脑电研究,并最终在科学领域取得重大突破。
原文:Managing EEG studies: How to prepare and what to do once data collection has begun. DOI: 10.1111/psyp.14365