在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法

胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性、不同的预后和不同的组织学亚区,即瘤周水肿/瘤周浸润侵犯组织,坏死组织,增生活跃的组织,非强化的组织。这种内在的异质性也表现在它们的影像学表型上,因为它们的亚区域通过多参数磁共振成像(mpMRI)扫描中不同强度分布来描述,反映了不同的生物学特性。它们的形状、范围和位置的不均匀性是导致这些肿瘤难以切除的一些因素,在某些情况下甚至无法手术。在纵向扫描中,在评估表观肿瘤的潜在预后诊断时,需要切除肿瘤的数量也是一个考虑因素。此外,越来越多的证据表明,精确分割各种肿瘤亚区域可以为定量图像分析提供基础,从而预测患者的总体生存率。本研究评估了2012-2018年国际脑肿瘤分割(BraTS)挑战赛最后七次比赛中,mpMRI扫描中用于脑肿瘤图像分析的最新机器学习(ML)方法。具体而言,我们关注

i)在术前mpMRI扫描中评估各种胶质瘤亚区的分割;

ii)通过肿瘤亚区的纵向生长评估潜在的肿瘤预后,而不是使用RECIST/RANO标准;

iii)通过对接受大体全切除的患者进行术前mpMRI扫描预测总体生存率。

引言

脑肿瘤分割(BraTS)挑战集中于评估在多参数磁共振成像(mpMRI)扫描中分割脑肿瘤的最新方法。自成立以来,它的主要作用有两个方面:a)公开可用的数据集和b)公共基准。BraTS利用多机构术前mpMRI扫描,重点研究内在异质性(外观、形状和组织学)脑肿瘤(即胶质瘤)的分割。此外,为了明确该分割任务的临床相关性,BraTS 2018还通过对影像特征和机器学习(ML)算法的综合分析,重点预测患者的总体生存率。

临床相关

胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性、不同的预后和不同的组织学亚区,瘤周水肿/瘤周浸润侵犯组织,坏死组织,增生活跃的组织,非强化的组织。胶质瘤的这种内在异质性也表现在其成像表型(外观和形状)上,因为它们的亚区域通过mpMRI扫描的不同强度分布来描述,反映了不同的肿瘤生物学特性。由于这种高度异质的外观和形状,在多模态MRI扫描中分割脑肿瘤是医学图像分析中最具挑战性的任务之一。

在脑肿瘤分割(BraTS)挑战赛之前

关于解决这一重要任务的算法有关的文献越来越多(图1)。但是目前还没有用于设计和测试这些算法的公开的手动注释数据集,而私有数据集的差异如此之大,以至于很难比较迄今为止报告的不同研究方法。导致这些差异的关键因素包括但不限于i)采用的成像方式,ii)肿瘤类型(胶质母细胞瘤或低级别胶质瘤,原发性或继发性肿瘤,实体或浸润性生长),和iii)疾病状态(图像不仅可以在治疗前获得,也可以在手术后获得,因此存在放疗效果和手术造成的差异)。为此,BraTS提供了一个大型mpMRI数据集,并附带了相关肿瘤亚区的描述(图2)。标准的mpMRI数据包括:a)常规T1加权扫描(T1),b)对比增强后T1加权扫描(T1Gd),c)常规T2加权扫描(T2),和d)T2流体衰减反转恢复(T2-FLAIR)扫描。

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第1张图片

图1,2012年在PubMed上的搜索相关文献显示了数量不断增长。

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第2张图片

图2,胶质瘤亚区

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第3张图片

图3,预测患者总体生存率示意图

1.4 2017年与2018 BraTS挑战赛对比

BRAT的最后两个实例(即2017年和2018年)集中于肿瘤亚结构的分割和原发性新生胶质母细胞瘤(GBM)患者总生存率的预测。

为了在术前mpMRI扫描中对胶质瘤进行分割,要求参与者使用大赛提供的临床获得的训练数据来开发自动化方法并生成不同胶质瘤亚区的分割标签,从而完成这项任务。

对于从术前mpMRI扫描图像中预测患者总体存活(OS)的任务,一旦参与者在术前扫描中产生其分割标签,他们被要求使用这些标签与所提供的mpMRI数据结合来提取他们认为合适的影像学特征,并通过机器算法进行分析,预测患者OS(图3)。参与者不需要局限于体积参数,也可以考虑强度、形态、直方图和纹理特征以及空间信息,以及胶质瘤的扩散特性。

2 材料和方法

2.1 BraTS的标注和结构

所有影像数据集均由一至四名评分员按照相同的标注标准手动分割,其标注标准由经验丰富的放射科医生批准。考虑用于评估的肿瘤亚区为:1)明显强化的肿瘤区域(AT),2)大体肿瘤区域,也称为“肿瘤核心”(TC),以及3)完整肿瘤区域,也称为“整个肿瘤”(WT)(图2)。明显强化的肿瘤的诊断描述为与常规T1相比,T1增强显示出高信号,但与T1增强中的正常白质组织相比也是如此。肿瘤核心区包含了肿瘤的大部分,这是典型的需要切除的区域。核心区包括明显增强区域以及肿瘤坏死(充满液体)和固体非强化部分。与T1相比,T1增强中坏死(NCR)和非强化(NET)的肿瘤外观通常呈低信号。整个肿瘤描述了疾病的完整程度,因为它包括肿瘤核心区和瘤周水肿/浸润组织(ED),通常由T2-FLAIR中的高强度信号描述。

真实的标注由领域专家批准,而它们实际上是由多个专家创建的。尽管为每个数据提供了非常具体的标注协议(如下所述),但对于参与该过程的不同评分员,标注风格略有不同。因此,具有15年以上经验的委员会认证的神经放射科医生还进一步审查了BraTS数据集中包含的所有最终标签是否符合标注协议。

2.2 标注协议

BraTS数据集描述了在标准临床条件下从多个不同中心采集的脑肿瘤MRI扫描数据集,但由于使用不同的设备和成像协议,从而产生了反映不同机构不同临床实践的极不均匀的图像质量。然而,我们设计了以下肿瘤标注协议,以便能够在不同的标注者之间创建类似的标准的描述。

对于与BraTS相关的任务,只考虑结构MRI体积(T1、T1Gd、T2、T2-FLAIR),所有这些体积都共同注册到一个通用解剖模板(SRI),并重新采样到1mm3。表1给出了原始扫描的详细信息。请注意,存在不同的T1扫描,这取决于它们是3D还是2D快速自旋回波,甚至只是定位图像,因此并非所有T1扫描都适用于分割任务。根据我们的经验,T1增强和T2-FLAIR对于分割最为有用。

表1,数据集原始扫描信息

我们注意到,肿瘤边界的影像学定义,特别是在像胶质瘤这样的浸润性肿瘤中,是一个众所周知的问题。为了提供一种标准化的方法来评估各种肿瘤亚区,BraTS在咨询国际知名的神经放射学专家后,定义了以下类型的肿瘤亚区。然而,我们注意到,可以设定其他的划分标准,从而产生稍微不同的肿瘤亚区。BraTS肿瘤亚区并不基于严格的生物学实体,而是基于图像的。例如,明显强化的肿瘤(AT)的定义可能只是T1增强图像上具有高强度信号的区域。然而,在高级别肿瘤中,有非坏死、非囊性区域不增强显示,但可与周围血管源性水肿分离,代表非增强型浸润性肿瘤。另一个问题是低级别胶质瘤肿瘤中心的定义。在这种情况下,很难区分肿瘤和血管源性水肿,尤其是在没有增强的情况下。还值得注意的是,为了产生所提供数据中使用的真实标签,我们建议从肿瘤外部边界开始使用半自动工具描绘感兴趣的子区域,即,应该从T2加权图像中异常信号的手动描绘开始,主要定义整个肿瘤,然后处理明显强化区,最后是增强型和非增强型/坏死型。

2.2.1 BraTS 2012-2016 BraTS 2012-2016定义了四个肿瘤亚区,描述了AT、NET、NCR和ED。

标签1:坏死区(NCR):该亚区描述位于高级胶质瘤强化边缘内的坏死区或坏死囊肿,有时表现为囊性。

标签2:瘤周水肿和浸润区(ED):该亚区描述肿瘤周围水肿和浸润组织,在T2加权图像上很容易定义为高信号异常信号分布和T1低信号。这个标签主要描述回皮层下手套状水肿白质区域,与囊性区域和脑室有区别。

标签3:非增强区域(NET):通过查看T2加权图像,可以识别描述非增强但大体异常的此类区域。高级别肿瘤的某些部位没有增强,但它们与T2上周围的血管源性水肿有明显区别,因为它们具有较低的信号强度和不均匀的纹理。此外,在低级别胶质瘤中,这是唯一一种用于描绘大体肿瘤的分类。

标签4:明显强化区(AT):这是一个相对简单的定义,因为它描述了肿瘤大体异常内的增强区域,而不是坏死区域。从增强部位排除坏死中心的阈值应根据受试者单独设置。注意,邻近区域和沟中的血管不包括在内。

我们注意到,非增强区(即“标签3”)可能被一些标注者高估,并且通常在该子区域的图像数据中几乎不显著。因此,强制定义该区域可能会引入伪影,这可能导致不同中心的标注者创建的实际标签存在实质性差异。这种情况可能会对BraTS参与者的分割结果产生潜在影响,也就是说,偏向于标注性能,而不是实际算法性能。

2.2.2 BraTS 2017年至今(三个肿瘤亚区)

为了解决上述问题,在BraTS 2017中,NET签(“标签3”)已被删除,并与NCR(“标签1”)合并。此外,T2-FLAIR高强度的对侧和脑室周围区域被排除在浸润区域之外,除非它们与肿瘤周围浸润组织相邻,因为这些区域通常被认为代表慢性微血管改变或年龄相关脱髓鞘,而不是肿瘤浸润。其基本原理是,对侧和脑室周围的白质高强度区域可能被认为是与小血管缺血性疾病相关的先决条件,尤其是在老年患者中。

WT:分割整个肿瘤范围(所有标签的联合)。

首先应该加载T2-FLAIR图像并为WT创建新标签。我们建议从大脑顶部开始,由于该子区域通常较大且形状相对平滑,因此每三个切片进行一次手动描绘就足够了。然后,可以使用膨胀和侵蚀的形态学操作来填充轴向切片之间的空隙。最后,可以使用高斯核(σ=1)平滑来平滑冠状面和矢状面上标签的锯齿。

TC:分割大体肿瘤核心轮廓(标签1、3和4的联合)。

对于该亚区,有必要检查是否存在非增强肿瘤区域。TC边界可以在每个其他切片上划定。然后,可以使用膨胀和侵蚀的形态学操作来填充轴向切片之间的空间,然后使用高斯平滑滤波器来帮助在冠状视图上进行非连续描绘。一旦定义了TC边界,WT的剩余部分将对应于ED子区域(“标签2”),其由T2-FLAIR体积上的高强度信号描述。

AT:分割明显强化和非增强/坏死肿瘤区域。

明显强化的肿瘤(T-即增强边缘)的描述是,与T1相比,T1 增强上显示高强度的区域,但与正常/健康的T1增强白质(WM)相比也显示高强度的区域。生物学上,AT表示高级别胶质瘤中常见的通过破坏的血脑屏障漏出对比剂的区域。NET代表非增强性肿瘤区域,以及属于TC非增强部分的过渡前和坏死区域,通常除AT外都被切除。与T1期相比,T1 增强期的网状结构表现为典型的低信号,但与正常/健康的WM相比,T1增强期的网状结构也表现为低信号。

我们建议使用T1增强扫描和现有的TC轮廓来描绘胶质瘤中的AT。然后可以在该标签内设置强度阈值,以区分高强度活动/增强肿瘤和低强度非增强/坏死(以及非常弯曲)核心区域。请注意,脉络丛和出血区域(当它们可以通过与原始T1扫描相比较来识别时)不应标记。

LGG:关于低级别胶质瘤的评论。

对于低级别胶质瘤(LGG),我们注意到它们没有表现出太多的对比度增强或浸润。从生物学角度来看,LGG可能具有较少的血脑屏障破坏(导致扫描过程中对比度泄漏较少),并且可能以足够慢的速度生长,以避免因快速破坏、刺激而导致的显著水肿形成,肿瘤细胞浸润正常脑实质。具体而言,在考虑所有上述因素之后,在没有明显的ET区域的LGG扫描中,我们仅通过观察T2-FLAIR图像上的纹理或强度来考虑NET和血管源性ED标签,而在没有ET的和没有明显的纹理差异(例如,小星形细胞瘤)LGG扫描中,我们只考虑NET标签,区分正常和异常的脑组织。分割标签也反映了在手术室中估计肿瘤和健康组织之间精确边界的困难;神经外科医生、神经放射科医生和成像科学家在划定这些边界时存在高度不确定性。

2.3 BraTS自成立以来的数据

通过BraTS计划公开的mpMRI扫描描述了T1、T1Gd、T2和T2-FLAIR扫描的体积,这些体积是通过不同的临床方案和来自多个机构的各种扫描仪获得的,在确认部分提到了数据贡献者。在标准化预处理之后,在不影响图像中明显信息的情况下,提供的数据在其和谐后公开。具体而言,所有BraTS mpMRI扫描中应用的预处理过程包括同一解剖模板的共配准,均匀各向同性分辨率(1mm3)的插值,以及颅骨剥离。

2.3.1不断增长的公共可用数据集。

BraTS数据集在过去几年(2012-2018)中不断发展,患者病例数量不断增加,并通过改进用于分割的算法开发和评估(表2)。

表2,总结自BraTS计划开始以来,BraTS数据在训练、验证和测试集中的分布,以及BraTS实例的重点任务

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第4张图片

BraTS的前两个实例(2012-2013)分别包括35次和15次mpMRI扫描患者的训练和测试数据集。有研究总结了这两个第一版的结果和发现,这是IEEE TMI杂志自出版以来最受欢迎和下载的论文,反映了科学研究界对BraTS计划的兴趣,该计划是一个公开可用的数据集和标准。

随后BRATS(2014-2016年)的数据集大幅增加,还包括纵向mpMRI扫描。第一次增长浪潮是在2014-2015年期间出现的,主要来自于癌症影像档案馆(TCIA)储存库和海德堡大学的贡献,第二次增加的浪潮发生在2016,来自宾夕法尼亚大学生物医学图像计算和分析中心(CCBICA)的贡献(UPENN)。此外,根据对BraTS 2012-2013年结果的分析,BraTS 2014-2016采用了由优化方法标签融合产生的具体真实数据。

2017年,多亏CBICA@UPenn和伯明翰阿拉巴马大学(UAB)对BRATS数据集的额外贡献,以微调优化ML算法在训练,验证和测试数据集的性能。值得注意的是,2017年的病例数量比前一年翻了一番,达到477例,2018年又增加了542例,这要归功于德克萨斯州MD安德森癌症中心、圣路易斯华盛顿大学医学院和印度塔塔纪念中心的贡献。

2.3.2 聚焦分割

正如其首字母缩略词定义所示,BraTS主要关注脑肿瘤亚区域的分割。然而,在其首次出现后(20122013),其潜在的临床相关性变得明显。BraTS引入了次要任务,其中脑肿瘤分割算法的结果用于促进进一步分析和发现。从临床角度来看,BraTS挑战中的这些次要任务对于培养能够以比当前临床实践更可靠的方式满足临床需求的算法的发展至关重要。具体而言,为了精确定位分割任务的临床相关性,在2014-2016年的BraTS实例中,纵向扫描包括在公开的数据集中,以评估自动肿瘤体积测量在评估疾病进展方面的能力和潜力。按照同样的研究思路,在最后两个BraTS实例(2017-2018年)中,纳入了患者年龄、总体生存率和切除状态的临床数据,以促进通过综合分析影像特征和ML算法预测患者总体生存率的次要任务。

2.3.3 最新的BraTS数据

BraTS 2017年和2018年使用的数据集已经更新(自BraTS 2016年以来),更多常规临床获得的3T mpMRI扫描和所有真实性标签已经评估,并在需要时由专家委员会认证的神经放射科医生手动修订。多机构(n=19)常规临床获得的GBM/HGG和LGG术前mpMRI扫描,经病理证实的诊断和可用的生存率分析,作为训练、验证和测试的数据。

自2017年以来提供的数据与之前的BRAT挑战(即2016年及以后)期间提供的数据有显著差异。特别是,自BraTS 2017年以来,神经放射科医生对完整的原始TCIA胶质瘤标本(即TCGA-GBM,n=262[9]和TCGA-LGG,n=199)进行了放射学评估,并将每次扫描分为术前扫描和术后扫描。随后,所有术前TCIA扫描(即135 GBM[3]和108 LGG[4])由专家对各个亚区进行标注,并包括在BraTS数据集中。

2.3.4 数据获取

由于BraTS计划的主要目标之一是为算法的持续开发提供一个开源存储库,BraTS 2012-2016年的数据已通过瑞士医学图像存储库(SMIR-www.SMIR.ch)提供,BraTS 2017-2018年的数据通过CBICA@UPenn(IPP http://IPP.cbica.upenn.edu)图像预处理协议。这两个平台都提供数据集下载功能,以及参与者提交结果的自动评估功能。

2.3.5 分割任务的方案排序

2017年和2018年BRAT期间遵循的排序方案包括针对每个测试受试者、每个评估区域(即A T、TC、WT)和每个测量(即Dice和Hausdorff(95%),每个团队相对于其竞争对手的排序。例如,在BraTS 2018中,每个团队针对191名受试者、3个地区和2个指标进行了排序,最终获得1146个个人排名。然后计算每个团队的最终排名分数(FRS),首先对每个患者的所有个人排名进行平均(即累积排名),然后对每个参与团队的所有患者的这些累积排名进行平均。该排名方案也被用于其他挑战,并取得了令人满意的结果,如缺血性中风病变分割挑战。

我们还进行了进一步的排列测试,以确定每对团队之间相对排名的统计显著性。这种排列测试将反映出性能上的差异,这些差异超过了偶然预期的差异。具体来说,对于每个团队,我们从观察到的学科水平累积排名列表开始,即上述实际排名。对于每个团队,我们重复随机排列(即100000次)计算每个主题的累积排名。对于每个排列,我们计算了这对团队之间FRS的差异。计算随机排列的数据计算的FRS差异超过观察到的FRS差异(即使用实际数据)的次数比例,它们的相对排名作为p值具有统计学意义。这些值在上三角矩阵中。

2.3.6 预测生存率

我们确定了346例GBM患者的总生存率(OS)、年龄和切除状态信息。其中164例接受了大体全切除(GTR)手术。GBM患者在训练、验证和测试数据集中的OS分布是匹配的(表3)。患者分为三组,分别为长期存活(存活超过15个月)、短期存活(存活不足10个月)和中期存活(存活10至15个月)。这些阈值是在对整个数据集的生存分布进行统计考虑后得出的。具体来说,我们根据平均OS(大约12.5个月)的相等分位数选择这些阈值,以避免对其中一个存活组(短存活者与长存活者)的潜在误差,同时考虑到对组的区分应具有临床意义。所述队列的中位OS与几项随机III期试验中GBM患者的中位OS没有显著差异,注意到我们的队列包括未经选择的患者,而不是符合此类试验条件的患者。

将具有可用OS信息的患者群体随机按比例分为训练集、验证集和测试集。a)训练集,包括163个案例,b)验证集,包括53个案例,以及c)测试集,包括130个案例。表3显示了OS预测任务的患者病例分布。参与团队被要求在数天内为每个接收大体全切除(GTR)手术的患者提交OS预测结果。然后,评估系统自动将这些幸存者分为短期、中期和长期幸存者。

表3,2017年和2018年BRAT训练、验证和测试组患者的总体生存率分布

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第5张图片

2.3.7 框架评估

为了在BraTS 2017& 2018挑战中保持一致性,两个参考标准用于挑战的两项任务:1)肿瘤亚区的手动分割标签,2)OS的临床数据。

自2017年BraTS以来引入的验证集允许参与者在未看到的数据中获得初步结果,此外,他们还可以在培训数据中获得交叉验证结果。最后,所有参与者在有限的受控时间(48小时)内获得相同的测试数据,然后要求参与者提交其最终结果进行定量评估和排名。对于分割任务,为了与以前BraTS挑战的配置保持一致,使用了“Dice分数”和“Hausdorff距离”。在该评估方案的基础上,还使用了“敏感性”和“特异性”指标,从而通过参与方法确定肿瘤亚区的潜在过度分割或欠分割。由于BraTS 2012-2013是BraTS 2018测试数据的子集,因此对2012-2013数据的性能比较将允许直接评估中报告的性能。

对于生存预测任务,考虑了两种评估方案。首先,对于参与团队的排名,评估将基于长期、中期和短期幸存者的受试者分类。参与团队的预测将根据该分组的分类准确性(即正确分类的患者数量)进行评估。请注意,只需为具有GTR切除状态(即总切除)的受试者提供预测生存状态。此外,在预测和实际生存天数之间进行了成对误差分析,并将结果与参与者分享,以便评估他们的异常值处理方法。这些评估基于:均方误差(MSE)、中位误差(medianSE)、均方误差标准差(stdSE)和斯皮尔曼相关系数(斯皮尔曼R)。

3 结果

3.1 BraTS 2012-2013

为了强调我们之前总结BraTS 2012和BraTS 2013的分析的最显著的结果,我们将重点放在两个要点上(图4)。首先,我们注意到,尽管大多数单独的自动分割方法表现良好,与更擅长的临床医生相比,它们的表现并没有超过评分者之间的一致性,因为他们已经接受了多年的培训,更能识别浸润区域并将其与健康大脑区分开来。其次,来自排名靠前的算法的分割标签的融合超过了所有单独的方法,并且与评分者之间的一致性相当。更具体地说,当我们观察到单个的自动分割,在不同的肿瘤分割任务和所有指标下(即,在评估WT、TC和AT分割时,关于Dice分数和Hausdorff距离),方法的排名不一定相同。我们注意到,融合的分割标签在所有任务和两个指标中都始终排在第一位。这表明融合分割算法的集成可能是将肿瘤分割方法转化为临床实践的有利途径。

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第6张图片

图4,2012-2013年BraTs的总结结果

3.2 BraTs 2017(测试集)

在2017年BRAT挑战赛的测试阶段,有48个独立团队的参与。具体而言,47个团队提交了分割任务的结果,16个团队提交了生存预测任务的结果(其中1个团队未参与分割任务)。

我们注意到,排名方法的可变性(图5)在任何两个顺序排名的团队中没有显著变化,表明一种方法没有特别优势于其他排名相近的方法。为了评估团队间潜在的统计显著绩效差异,我们还对100000个排列进行了两两比较,以确定显著差异。这使我们能够在分割任务的第三个排序中包含一个平局(表4)。具体而言,对排名靠前的队进行的统计评估显示,第一队在统计上优于第二队(p值为0.0003),而第二队在统计上并不优于第三队(p值为0.1)和第四队(p值为0.14),但仅优于第五队(p值为0.01)。这证明了在第三排打成平局的决定是正确的。表 4,对2017年BraTS的参与团队进行了细分和生存预测任务的排名。

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第7张图片

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第8张图片

图5,BraTS 2017年所有参与Task细分的团队排名。(值越小,级别越高)

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第9张图片

图6,BraTS 2017生存Task中所有参与团队的排名。(值越大越好)

3.3 BraTS 2018(测试集)

在BraTS 2018挑战赛的测试阶段,有63个独立团队的参与。具体而言,61个团队提交了分割任务的结果,26个团队提交了生存预测任务的结果(其中2个团队未参与分割任务)。

BraTS 2018 AT分段结果显示Dice度量分布中存在非常明显的偏斜,如平均值和中值所示。这些结果说明了大多数方法在中位数方面表现相对较好的趋势(排名前54/63的团队的中位数:[0.74-0.85]),但也说明了稳健性水平的差异,因为平均值受到结果中异常值数量增加的影响(相同54/63团队的平均值:[0.61-0.77])。TC的分割结果与AT呈现了一个类似的模式。与以前的BRAT实例的观察结果类似,相同的团队没有系统地占据最高位置,这反映了融合来自不同方法的分割标签的贡献。与AT相比,TC的分割总体上似乎更稳健(相同54/63组Dice的四分间距中位数范围(IQR),TCvsAT,0.16vs0.18)。值得一提的是,由于体积较小,所以Dice值对AT的误差更敏感。正如在以前的BraTS实例中所指出的,WT的分割代表了三个评估肿瘤分区(即AT、TC、WT)的最稳健和准确的分割结果,Dice值为0.9适用于大多数参赛团队。

注:1)明显强化的肿瘤区域(AT),2)大体肿瘤区域,也称为“肿瘤核心”(TC),以及3)完整肿瘤区域,也称为“整个肿瘤”(WT)

95% Hausdorff距离度量用于表征自动化结果的鲁棒性水平。总的来说,对于所有三种肿瘤标记物,AT的结果似乎最稳健(相同组54/63的IQR中位数为1.9),其次是WT和TC的结果(相同组54/63的IQR分别为4.0和5.4)。

在参与团队的患者排名(图7)中,分布更接近于逐步改进的排名方法,类似于BraTS 2017的结果。值得注意的是,显著级别的方法排名的可变性在团队之间没有显著变化,这表明一种方法没有特别的优势。我们还根据100000个排列进行了两两比较,显示了各团队在统计上的显著表现。具体而言,排名靠前的统计评估显示,第一队在统计上优于第二队(p值=0.02),而第二队在统计上并不优于第三队(p=0.06)和第四队(p=0.07),但仅优于第五队(p=0.01)。这证明了在第三排打成平局的决定是正确的。

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第10张图片

图7,BraTS 2018所有参与T ask细分的团队排名。(值越小,级别越高)

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第11张图片

图8,BraTS 2018生存问题所有参与团队排名。(值越大越好)生存任务的结果如图8所示。总的来说,前五名的方法获得了0.6左右的准确度,而其他团队的准确度在[0.15-0.55]范围内。

表5显示了排名1-3的最终表现最佳的参与团队。

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法_第12张图片

4 讨论

4.1 自动分割方法的性能

虽然个别自动分割方法的准确性有所提高,但我们注意到它们的鲁棒性水平仍然低于专家的性能,即评分者之间的一致性。由于收集更多不同的患者群体,以及改进的训练方案和ML体系结构,随着训练集规模的增加,这种鲁棒性有望不断提高。除了这些推测性的预期之外,我们的定量分析结果支持,在准确性和一致性方面,来自不同个体自动化方法的分割标签的融合显示出比基本评分者之间的一致性(由临床专家提供)更高的稳健性。然而,所提出的集成多个模型的策略对应于一种实用的方法,通过跨不同模型的一致性分割来减少异常值并提高自动分割系统的精度。我们认为未来的研究是必要的,以提高个体的方法的鲁棒性,通过增加分割系统去处理通常使用的临床工作流程获取的图像中所看到的混杂效应。与BraST相关的此类效应包括但不限于:a)存在血液,b)“气囊”切除术后扫描中的,c)非GBM实体的更好分化(或处理),以及d)以弥漫边界为特征的低级别胶质瘤的改善表现,特别是在考虑无AT亚区的病例时,e)高灵敏度可有效检测和评估其缓慢进展。

4.2 BraTS 排序方案

BraTS challenge最近采用了一种案例排序模式,该模式能够对参与团队进行临床相关的评估,因为它考虑到了可能存在显著差异的患者案例的复杂性。此外,对算法结果差异的统计显著性的额外特征评估,还可以对BraTS挑战的不同实例的结果进行评估,这反过来又可以对BraTS倡议过去七年中取得的改进进行彻底分析。

4.3 分割之外

重要的是,在过去七年中,BraTS计划补充增加了两项临床相关任务/子挑战,旨在强调脑肿瘤分割任务的临床相关性。这两项与临床相关的任务都促进了分段标签的自然利用,以回答临床问题,满足临床需求,并可能支持临床决策过程。最终目标是评估潜在的可用性,并为自动分割方法向常规临床实践的转化铺平道路。

4.3.1 疾病进展的评估。

纳入纵向(即随访)mpMRI扫描是在BraTS 2014-2016年期间进行的。在临床实践中,迄今为止,通过实体瘤(RECIST)中的反应评估标准和神经肿瘤(RANO)中的反应评估标准对疾病进展进行评估,其定量成分基于肿瘤大小的相对变化(即百分位变化),由被评估肿瘤的最长两个轴测量。在这方面,我们假设执行脑肿瘤体积分割(即三维)的自动算法应能产生可靠的肿瘤体积变化评估(如果不是更好的话)。

4.3.2 生存率预测

生存率预测任务的纳入发生在2017-2018年的BraTS实例中,并强调深度学习(DL)方法处理小型训练集的困难,以及传统ML方法的优越性。虽然这一发现明确要求更大的训练集,但它也确定了在我们将来过渡到更大的训练集时DL和传统ML方法之间潜在协同作用的需要,这可能包括更多非均匀分布的临床和/或分子信息。换句话说,RIS报告称,需要开发先进的ML方法,能够处理诊所中现有的大量患者特定信息的异质性,例如影像基因组学。

4.4 BraST的未来方向

前几年BraST实例的当前趋势强调(或者更确切地说确认):

a)DL在分割任务中优于传统ML方法(尤其是在Dice方面),与此相反,b)DL的局限性和传统ML方法的优势,评估更多临床相关问题,例如临床结果的预测(即总生存率),其中较小的训练集通常可用,需要处理。

专注于分割任务,在算法设计方面,目前的普遍共识似乎指向以分层/级联方式解决问题的方向,首先区分正常和异常/肿瘤组织,然后继续分割肿瘤子区域。替代研究方向包括增强可能缺少给定输入图像集的DL系统的灵活性,作为全球采用GBM成像标准化举措的过渡措施。

有许多临床问题,BraTS计划可能产生潜在影响,包括但不限于:a)神经放射学员培训系统,b)鉴别诊断(例如,转移分化,疾病进展评估,放射分型),c)预后(如总生存期预测、药物反应预测),d)放射治疗计划。然而,对于任何可能被认为是更广泛应用开发方法的方法,都需要进行,这就是我们创建BraTS算法库的原因,与临床专家更紧密的合作是定制BraST挑战设计的基础,以有效利用研究成果并将其转化为临床实践。

你可能感兴趣的:(脑科学)