1. 简介
在本文中,我们提供了一个数据集,实现了这一宏伟规模的采样。NSD由高分辨率(1.8毫米)全脑7T功能磁共振成像(fMRI)组成,八名经过仔细筛选的人类参与者在一年内的30-40次扫描中,每人观看了9000万种颜色的自然场景(22000万次试验)。在参与者中,NSD包括对70,566幅不同的自然场景图像的反应,这比涉及许多图像的fMRI采样的类似数据集要大一个数量级。此外,正如我们所展示的,NSD数据集的高质量使得充分利用现代ML方法的全部力量来开发更好的可视化表示模型成为可能。获得高数据质量的部分原因是使用超高磁场强度(7T),以提高较低磁场强度下获得的信噪比(SNR)。NSD除了其前所未有的规模和质量之外,还融合了一些创新。为了协调广泛的抽样与实际的时间承诺,我们使用了积极的快速事件相关设计。这推动了新的分析技术的发展,这些技术可以精确补偿连续试验中血液动力学反应的重叠。为了确保参与者的参与和控制认知状态,我们加入了一个连续的识别任务,在这个任务中,参与者被要求指出他们是否在过去的任何时间看到了每个呈现的图像。据我们所知,这项任务的加入不仅使实验对参与者来说可以忍受(甚至有些有趣),还使NSD成为历史上最长的连续识别记忆fMRI研究,因此,它可能为长期记忆形成和视觉认知环境提供新见解。最后,为了确保NSD数据集的广泛覆盖,我们将设计输入纳入了一个大型的协作网络,该协作网络由不同的科学兴趣(例如,低水平视觉、高水平视觉、记忆、连接和神经解剖学)和技术专长(例如,映射、多元模式分析、编码模型、表征相似性分析和神经网络建模)的协作者组成。这种输入帮助形成了一个精心策划的数据集,并附带了大量辅助测量。本文对NSD数据集的设计、采集和准备进行了全面的描述。特别是,我们详细介绍了我们为数据集开发的最先进的获取和分析方法,并提出了证明数据高质量的全面评估。我们还对NSD数据集进行了初步分析,论证了使用数据驱动分析来揭示视觉和记忆的可行性。我们期待NSD将作为一个宝贵的资源,广泛应用于神经科学及其与人工智能的交叉。
2. 结果
2.1 在连续识别过程中对数千幅图像进行采样
我们从注释丰富的Microsoft Common Objects in Context (COCO)图像数据集中获得了73000个颜色的自然场景,该数据集在计算机视觉和ML社区中大量使用。我们的实验设计规定,8名参与者中的每个人将查看10,000张不同的图像,并且一组特殊的1000张图像将在参与者中共享(8名参与者9000张独特的图像+ 1000张共享的图像= 73,000张图像)。每张图片将被展示给一个给定的参与者三次。虽然这是一个较低的数字,但我们推断,考虑到我们使用超高场(7T)功能磁共振成像(fMRI),三次试验就足以产生稳健的反应。此外,图像将使用快速事件相关设计,包括4秒试验(图1a)。这样做是为了最大化统计力量,并为参与者创造一种吸引人的体验。此外,与慢事件相关设计和模块设计相比,任务参与的连续性有助于避免不必要的呼吸变化和觉醒相关的混淆,而慢事件相关设计和模块设计的参与可能会波动。
NSD实验被分为40个扫描阶段对每个参与者(图1b)。为了控制认知状态和鼓励对图像的深度处理,参与者被要求执行一个连续的识别任务,在这个任务中,他们要报告当前的图像是否在实验之前的任何时间出现过。我们控制了图像呈现的分布,以便探索短期和长期重复(扩展数据图1a)。所选择的参数是,即使在第一次扫描会话中,图像也不总是新的,即使在最后一次扫描会话中,图像也不总是旧的(扩展数据图1b)。
图1 实验设计
2.2 收集精心挑选的参与者的神经影像学数据
NSD的所有功能磁共振数据均在7T时采集,采用1.8 mm、1.6 s、梯度回波、回波平面成像(EPI)脉冲序列。在根据基本资格标准对几个潜在参与者进行口头筛选后,我们招募了14名受试者参与初步的7T fMRI筛查,包括群体接受野(pRF)和类别功能定位(fLoc)实验。基于这次扫描的数据,我们根据数据质量对14名参与者进行了排名。具体而言,我们量化了pRF和fLoc实验中解释的BOLD方差、pRF和fLoc实验中的行为表现以及头部运动的两个指标,将这六个测量指标归一化,然后平均测量值(详细信息请参见方法中7T fMRI筛查阶段的排名)。然后,我们邀请了排名前八的个体参与整个NSD实验(所有个体都被接受)。这一选择过程是为了确保NSD的最佳数据质量。在完成NSD实验后进行的分析证实,排序过程成功地识别了产生高质量数据的个体,如果我们忽略选择过程,数据质量将受到很大影响(图2c)。
图2 采集数据大观
数据收集自8名NSD参与者,历时1年(图1c)。参与者始终坚持完成任务:所有参与者在扫描会话中的平均响应率高于99%,而在任何单个扫描会话中,响应率从未低于96%。此外,所有参与者都表现出了成功的识别能力(图1d),对之前看到的图像(蓝线和橙线)比对新的图像(黄线)更容易做出旧的反应。完整的NSD数据集包括各种解剖神经成像测量(包括T1、T2、弥散、静脉图和血管图)、功能神经成像测量(包括pRF和fLoc实验、NSD实验、静息状态数据和两个涉及合成刺激和视觉图像的附加实验)和行为测量(图2a、b)。在一些功能磁共振成像(fMRI)会话中,生理数据(每个参与者10次会话)和眼球追踪数据(每个参与者2-4次会话)也被收集。对眼球追踪数据的分析表明,参与者能够在大多数时间成功地保持中央注视,不同参与者的注视表现有一定的差异(扩展数据图4)。在核心NSD实验中,我们为4名参与者完成了40次完整的NSD扫描,但是,由于不可预测的夏季缺席和7T扫描仪的预定停用,我们为其他每个参与者完成了30-32次NSD扫描。扩展数据图2和3提供了数据收集和分析过程的完整分类。
2.3 跨扫描会话稳定的高分辨率成像
根据我们的经验,尽管视觉检查是非定量的,而且有些主观,但它仍然是评估fMRI预处理许多常见方面的最有效方法。因此,我们生成了一组全面的可视化,详细描述了原始和预处理的NSD数据的优秀质量。
除了目视检查外,定量数据质量指标被计算为每次NSD扫描会话。事实上,这是在获取数据的滚动基础上进行的,使我们能够监控数据质量,并为参与者提供性能奖金。通过检查指标,我们发现每个参与者的时间信噪比(tSNR)在扫描会话中是稳定的(图2d,左)。参与者8比其他参与者表现出较低的tSNR;这可以归因于该参与者更高水平的头部运动(图2d,中)。我们还观察到,每个参与者的大胆反应(量化为跨体素解释的中位数方差,并通过简单的ON - OFF一般线性模型(GLM)运行)在扫描过程中是稳定的,尽管不同参与者的BOLD反应强度存在显著差异(图2d,右)。
在对fMRI数据进行预处理时,我们实现了一个特性,即以校正切片时序差异和空间位移(例如头部运动)的相同步骤,在精细的时间网格和精细的空间网格上插值数据。
2.4 广泛的辅助测量以补充NSD数据
为了丰富NSD实验的fMRI数据,我们收集并准备了大量的辅助测量。这些测量包括大量的静息状态数据(每个参与者至少100分钟),静息状态扫描期间的外部生理测量,弥散数据和相关衍生品(白质束和结构连接矩阵),以及大量手工定义的感兴趣区域(ROIs)。
2.5 单个trial fMRI响应幅值的精确估计
我们对NSD实验的数据进行了GLM分析,以帮助简化后续的数据分析。GLM的目标是获得单次试验beta,即估计每个体素对每个试验的fMRI响应振幅。由于fMRI的低信噪比和多次试验的血流动力学反应的重叠,估计准确的beta是一项具有挑战性的工作。因此,我们开发了一种新的GLM方法,包括三个组件。首先,我们使用了从数据集的初始分析中得出的血流动力学响应函数(HRFs)库,作为估计体素特异性HRFs的有效和良好正则化的方法(图3a-c)。其次,我们将GLM去噪技术应用于单次试验GLM框架,从而能够使用数据驱动的干扰回归变量(图3d)。第三,为了解决高度相关的单次试验回归因素带来的挑战,我们开发了脊回归的有效实现,并使用它来规范化和提高beta的准确性(图3e)。为了评估这些不同的GLM技术的有效性,我们生成了三个版本的Beta,反映出日益复杂的程度(扩展数据图8a-c)。Beta版本1 (b1)是简单地对所有体素使用规范的HRF的结果。Beta版本2 (b2)是使用HRF库方法将HRF拟合到每个体素的结果。测试版3 (b3)与b2一样使用了hrf库方法,但也增加了glm去噪和脊回归的使用,以试图提高测试版的准确性。
我们通过计算单个体素的噪音上限来量化不同beta版本(b1、b2和b3)的质量。噪声上限是对试验可靠性的度量,量化了个体素响应中归因于刺激而非测量噪声的方差百分比(方法)。噪音天花板结果的表面图揭示了对NSD刺激的可靠反应的位置:高噪音天花板存在于枕叶皮层,并延伸至颞叶和顶叶皮层(图3f和补充视频10)。值得注意的是,这些地图显示噪音上限从b1到b2再到b3有很大的增加,这表明在b2和b3中加入的额外的GLM技术提高了反应的可靠性。详细的量化表明,这些改进在体素和参与者之间高度一致(图3g和补充图6a),噪声上限估计高度可靠(补充图6b)。对于b3,视觉皮层的噪音上限水平平均为36%(通过计算NSD general ROI的中位数,然后在参与者中平均)。这意味着NSD数据集中一个典型的视觉皮层体素与其关联的是一组10,000个响应(30,000次试验除以3次每个图像= 10,000张图像),这10,000个值中很大的百分比(36%)的方差在理论上是可预测的信号。用Pearson相关系数(r)表示,其预测精度为r = 0.60。除了噪声上限分析,我们还对NSD beta进行了简单的单变量分析(扩展数据图8d,e);这些分析表明,NSD数据集包含参与者内部试验的高响应可靠性,以及参与者之间的高响应可靠性。
图3 采用新的响应估计和去噪方法提高信噪比
2.6 大量增加同等试验
为了更好地分析NSD数据的质量,我们提出了等效试验的概念,它允许对不同的数据集进行比较,这些数据集的信噪比和试验分布不同(详见方法)。与NSD性质相似的下一个最大的数据收集工作是BOLD5000。
2.7 视网膜病变的成功恢复
在展示了NSD数据的质量之后,我们现在转向示例分析,说明可以从数据中获得丰富的科学见解。作为一个简单的起始例子,我们拟合了一个体素级pRF模型,该模型使用NSD图像中的局部对比度来解释NSD beta。这个简单的模型有望恢复早期视觉皮层的空间调节,在那里,反应与刺激能量共变。事实上,在所有8名参与者中,都在早期视觉皮层中获得了高质量的角度和偏心估计图,并且这些估计一直延伸到中央凹(扩展数据图9和补充建模注1)。这些结果为NSD beta的有效性提供了检验。他们还表明,参与者能够保持足够可靠的中央固定,以支持视觉空间的详细映射。这一发现与我们对眼球追踪数据的分析一致(扩展数据图4)。
2.8 可靠和长期的识别记忆效果
连续识别任务的使用使NSD成为与人类记忆相关的最大的数据集之一。尽管任务具有挑战性,我们发现参与者能够成功地从新图像中区分旧图像(参与者的平均值:1.28,最大值:1.47,最小值:0.94)。此外,即使在重复之间的长时间尺度上,识别记忆仍然高于机会(图4a)。具体来说,对于每个会话,我们计算了一个包含猜测的识别精度度量(调整的命中率:命中率减去误报率),并在上次曝光后丢弃了这个度量(只考虑那些涉及先前显示的图像的试验)。在群体层面,参与者表现出的表现水平大于机会在所有测量间隔内,范围从1秒到1年。在个体水平上,所有参与者在每个参与者都可以获得的最长时间仓。这些结果表明,仅从其行为组成部分来看,NSD就能解决有关人类记忆的问题,时间跨度从短(秒)到长(月)不等。
图4 可靠和长期的识别记忆效果
2.9 丰富的刺激采样用于探测大脑表征
NSD对各种各样的自然场景进行了采样。为了深入了解可用刺激采样的广度,我们从NSD beta构建了表征性不同相似性矩阵(RDMs),并执行t分布随机邻居嵌入(t-SNE)来可视化底层表征。我们计算了一个示例参与者沿着腹侧视觉通路的不同区域的t-SNE嵌入(图5a)。这些嵌入反映了刺激的安排,这些安排是由大脑中多体素活动模式的整体相似性驱动的,在给定的ROI内独立于它们的解剖组织。用这种方式对数据进行可视化,可以清楚地看到有趣的语义表示模式。例如,我们将得到的嵌入结果根据动画属性进行颜色编码(图5b),我们发现,在后颞叶腹侧皮层(pVTC)中,从包含人的图像(左下灰色点)、包含动物的图像(中红色点)和包含无生命物体的图像(右上蓝色点),有一个明显的大规模模式进展,而在早期视觉区域V1、V2和V3不存在这种模式。这方面的语义表征与之前的研究是一致的。
图5 表征相似性分析揭示了沿腹侧视觉流的表征转换
2.10 视觉系统的脑优化神经网络模型
NSD的主要动机之一是收集足够的大脑活动采样,以便能够驱动渴求数据的ML技术。作为一个有趣的测试案例,我们专门调查了我们是否可以成功地使用NSD的规模从头开始训练一个深度CNN来准确预测大脑活动。采用编码模型的框架,我们从视觉区域V1 hV4中提取NSD beta,将这些数据分为训练集(用于参数调优)和验证集(用于评估预测性能),并评估不同的计算模型根据所呈现的图像预测验证集中大脑反应的准确性。我们感兴趣的主要编码模型是基于一种新的网络,我们称之为GNet,这是一种大脑优化的CNN,其参数使用在训练集中观察到的图像响应对进行训练。为了进行比较,我们还评估了基于AlexNet的编码模型,AlexNet是一个任务优化的CNN,其参数使用从图像数据库中获取的对象的显式标签进行预训练。AlexNet先前已经被证明能提供最先进的视觉反应建模性能。最后,我们加入了一个简单的基于面向Gabor滤波器的V1-like控制模型。
通过改变提供给模型的训练数据量,我们发现,当只有少量训练数据可用时,基于GNet的编码模型的性能相对较差(图6a,橙色箭头)。这是意料之中的,因为GNet中的特征提取器没有经过预先训练,因此需要数据进行调优。然而,当有大量训练数据可用时,GNet模型表现出令人印象深刻的性能提升,实现了与基于AlexNet的编码模型的近似奇偶(图6a,蓝色箭头)。有趣的是,当我们使用多个参与者的大脑活动训练一个单一的GNet模型时,我们发现该模型能够超越AlexNet模型,尽管略有优势(图6a,红色箭头)。值得注意的是,简单的Gabor模型在响应中占了很大的差异;尽管如此,更复杂的基于CNN的模型提供了额外的预测能力,与之前的观察结果一致。为了进一步了解模型性能,我们将GNet模型的体素性能水平与噪声上限估计进行了比较(图6b)。在体素中,预测精度与噪声上限紧密相关,这表明预测精度的体素方面的差异只是反映了信噪比的差异。此外,性能水平接近,但没有达到,噪音上限。最后,皮层表面图表明,体素水平的表现在中央凹和外周表征中有所不同(图6c)。
图6 使用大脑优化的神经网络预测大脑活动
3. 讨论
在过去的几年里,一些大规模的神经成像数据集已经被公开用于重用。当前工作的几个不同方面将NSD与过去的数据集区别开来。其一是数据集的规模空前。NSD与最近的深度(或精确)神经成像研究有着相同的动机,这些研究试图从个体受试者那里收集大量数据,而不是从大量受试者那里收集少量数据。在深度神经成像方面,据我们所知,NSD是迄今为止进行的最广泛的功能磁共振数据收集工作。这不仅可以通过每个参与者的fMRI数据采集小时数来衡量(核心NSD实验中8名参与者每人30 - 40小时的数据)和获得的数据的高空间分辨率(1.8毫米),还可以通过核心实验之外的大量额外测量来衡量,包括大量的静息状态和扩散数据、生理数据和功能定位器。广泛测量方法的可用性为建立个体大脑如何支持视觉和记忆的完整模型提供了机会。当然,对个体深度的强调是以取样更少的个体为代价的;强调大量个体的数据集,如Human Connectome Project,更适合研究一般人群中的变异性,以及心理特征如何广泛地与大脑结构和功能相关。
第二个方面是数据的高质量。虽然神经成像数据的质量评估比数量更复杂,但由于MRI数据的敏感性相对较低,容易出现错误和伪影,因此对数据质量的评估至关重要。
本研究的第三个方面是为改进fMRI时间序列数据的GLM分析而开发的新分析技术。这包括:(1)一种高效、稳健的方法来估计体素特异性HRF;(2)将GLM降噪技术应用于单次试验的GLM框架;(3)发展脊回归作为一种有效的方法来正则化单次试验响应估计。
4. 数据分析方法简述
我们设计了定制的分析策略,以最大限度地提高从NSD数据导出的度量的质量。有几个方法是基于最近的工作,在那里可以找到更多的细节。使用MATLAB和Python中的自定义代码以及FreeSurfer、SPM、FSL、ANTs74和ITK-SNAP75等软件包中的工具进行数据分析和可视化。使用的代码存档在线提供(https://github.com/cvnlab/nsddatapaper/),下面的文本中引用了特定的代码文件。扩展数据图3提供了概述本文进行的数据分析的全面示意图。NSD数据的分析可分为三个部分:(1)解剖、扩散和功能数据的预处理;(2) fMRI数据的时间序列分析,以估计trial-level betas;(3)进一步分析试验性贝塔以回答具体的科学问题。前两个组成部分产生的所谓的准备数据通常对社区有用,而第三个组成部分指的是为本文的目的进行的分析(从NSD数据估计PRF,单变量记忆分析,表征相似性分析和大脑优化神经网络训练)。数据收集和分析不受实验条件的影响。分析中没有排除任何数据,除了少数T1卷和某些眼动数据被噪声破坏。我们为NSD数据集设计的预处理方法优先考虑信息的准确性和保存(例如,避免空间平滑)。我们避免陷入不必要的假设(例如,在没有仔细评估有效性的情况下,积极地消除信号波动),我们避免假设自动化方法的准确性;小心采取手动检查每个预处理步骤,以确保满意的结果。尽管我们认为我们的预处理是通用的,并且可能适用于数据的大多数下游使用,但是对于那些希望探索其他预处理方法(如fmriprep)的人来说,也可以使用原始数据。我们注意到NSD数据集的几个方面可能会使数据集从预处理的角度具有挑战性:fMRI数据相对较高的空间分辨率(1.8 mm)对空间精度提出了更高的要求;与低场强相比,用于fMRI数据的超高场强(7T)产生更高水平的EPI空间失真;而且,对个体多次重复扫描的强调强调了在扫描过程中获得一致成像结果的重要性。
参考文献:A massive 7T fMRI dataset to bridge cognitive neuroscience and artificial intelligence