论文名称
Convolutional Neural Network T echniques for Brain Tumor Classification (from 2015 to 2022): Review, Challenges, and Future Perspectives
本文使用CNN架构使用MR图像的脑肿瘤进行分类的研究进行全面回顾,目的是确定该技术发展的有用策略和可能的障碍。对于每篇文章,提取了关于训练数据、目标问题、网络架构、验证方法和报告的定量性能标准的数据。然后评估这些研究的临床相关性,通过考虑卷积神经网络的优点来确定局限性,以及为了促进CNN算法的临床应用和发展需要解决的剩余挑战。最后,为生物医学和机器学习领域的研究人员讨论了未来研究的可能方向。
共确定并回顾了83项研究。它们在目标的精确分类问题和用于构建和训练所选CNN的策略方面有所不同。因此,报道的表现差异很大,区分脑膜瘤、胶质瘤和垂体瘤的准确性为91.63-100%(26篇文章),区分低级别胶质瘤和高级别胶质瘤的准确性为60.0-99.46%(13篇文章)。本文综述了基于cnn的深度学习方法在脑肿瘤分类中的研究现状。许多网络表现出了良好的性能,并且不明显任何特定的方法选择都大大优于替代方案,特别是考虑到验证方法、性能指标和遇到的训练数据的报告不一致。很少有研究关注临床可用性。
脑肿瘤是一种异质性的常见颅内肿瘤,具有显著的死亡率和发病率。恶性脑肿瘤是所有年龄段人群中最具侵略性和最致命的肿瘤之一,2014年至2018年,每年报告的男性死亡率为5.4/10万,女性死亡率为3.6/10万。根据世界卫生组织(WHO) 2021年《中枢神经系统肿瘤分类》,脑肿瘤分为恶性程度日益严重、预后恶化的四级(I至IV级)。的确,在临床实践中,肿瘤类型和分级影响治疗选择。在世卫组织IV级肿瘤中,胶质母细胞瘤是最具侵袭性的原发性脑肿瘤,诊断后的中位生存期仅为12-15个月。
组织样本的病理评估是肿瘤诊断和分级的参考标准。然而,一种能够准确分类肿瘤类型和推断分级的非侵入性工具将是非常可取的。虽然有几种非侵入性成像方式可以可视化脑肿瘤,即计算机断层扫描(CT),正电子发射断层扫描(PET)和磁共振成像(MRI),其中最后一种仍然是临床实践的标准。MRI传达的信息包括病变的位置、大小、范围、特征、与周围结构的关系以及相关的肿块效应等信息。除了结构信息,MRI还可以评估微结构特征,如病变细胞、微血管结构和灌注。先进的成像技术可以显示与类型、侵袭性和分级相关的肿瘤异质性的许多方面;然而,它们在评估宏观变化之前的介观变化方面是有限的。最近开发了许多分子成像技术来更好地揭示和量化异质性,从而可以更准确地描述脑肿瘤。然而,为了利用这些丰富的新信息,更复杂的和可能部分自动化的图像分析工具可能是有用的。
计算机辅助检测和诊断(CADe和CADx,分别指结合人工智能和计算机视觉来分析放射学和病理学图像的软件,已经被开发出来帮助放射科医生诊断人体多个区的疾病,包括在结直肠息肉检测和分割和肺癌分类的应用。
机器学习有力地加速了CAD系统的发展。机器学习在CAD中的最新应用之一是根据输入特征将感兴趣的对象(如病变)分类为特定的类别。在机器学习中,各种图像分析任务可以通过寻找或学习成功描述数据中规律性或模式的信息特征来完成。然而,传统上,有意义的或与任务相关的特征主要是由人类专家根据他们对目标领域的知识来设计的,这使得那些没有领域专业知识的人利用机器学习技术具有挑战性。此外,传统的机器学习方法只能检测到表面的线性关系,而支撑生物体的生物学则要复杂几个数量级。
深度学习的灵感来自对人脑中神经网络的理解,通过将特征提取和选择步骤纳入训练过程,在面对上述挑战时取得了前所未有的成功。一般来说,深度学习模型是由一系列的层来表示的,每一层都是由前一层的元素加权和形成。第一层代表数据,最后一层代表输出或解决方案。多层使复杂的映射函数得以重现,使深度学习模型能够解决非常具有挑战性的问题,同时通常比传统机器学习方法需要更少的人工干预。深度学习目前优于其他机器学习方法,在过去的几年里,它被广泛用于医学图像分析的各种任务。
卷积神经网络 (CNN) 是一种深度学习方法,经常应用于医学成像问题。它克服了以前深度学习方法的局限性,因为它的架构允许它使用足够种类和质量的训练数据自动学习对问题重要的特征。最近,由于在研究环境中具有非常高的准确性,CNN 在脑肿瘤分类中受到欢迎 。
尽管研究界对基于 CNN 的 CADx 越来越感兴趣,但由于诸如缺乏足够数量的可靠数据用于训练算法以及用于多模型的数据集不平衡等障碍,尚未实现转化为日常临床实践。多类分类[32,33] 等。
在这方面已经发表了几篇综述[31-36],总结了分类方法和主要成果,并指出了以往研究的一些局限性,但到目前为止,还没有一项研究关注临床采用的不足或试图确定促进深度学习模型在临床实践中应用所需的未来研究方向。由于这些原因,当前的审查考虑了关于使用 CNN 算法进行脑肿瘤分类研究的临床适用性以及如何将基于 CNN 的 CADx 技术转化为更好的临床决策的关键限制和障碍。
在这篇综述中,我们探讨了 2015 年至 2022 年间发表的关于使用基于 CNN 的深度学习技术进行脑肿瘤分类的最新研究。我们决定将重点放在 CNN 架构上,作为替代深度学习技术,例如深度置信网络或受限玻尔兹曼机器,在当前文献中的代表性要少得多。
回顾的目标有三方面:
(1) 回顾和分析文章特征以及 CNN 方法应用于 MRI 神经胶质瘤分类的影响
(2) 探索当前研究的局限性和从工作研究到临床应用的转化的差距
(3)找到该领域未来研究的方向。
本综述旨在回答以下研究问题:
如何将深度学习应用于处理 MR 图像以进行神经胶质瘤分类?
该领域的论文取得了何种程度的影响?
如何弥合转化差距以在临床实践中部署深度学习算法?
综述组织如下:
第 2 节介绍了用于搜索和选择与综述重点相关的文献的方法。
第 3 节介绍了基于 CNN 的脑肿瘤分类深度学习方法的一般步骤
第 4 节介绍了相关的初步研究,概述了它们的数据集、预处理技术和脑肿瘤分类的计算方法,并提出了定量分析涵盖的研究。
此外,我们介绍了可能直接或间接降低基于 CNN 的 CADx 系统的性能和临床适用性的因素,并提供了参考降低因素的纳入研究的概述。
第 5 节对所选研究进行了比较,并提出了进一步改进的方向
第 6 节总结了本研究的工作和发现。
在这次回顾中,我们使用两个在线数据库 PubMed 和 Scopus 确定了初步来源。表 1 描述了用于查询每个数据库的搜索查询。
选择了出版年份(2015-2022)的过滤器选项,以便只有选定时期的论文才会被送入筛选过程(补充材料)。检索于 2022 年 6 月 30 日进行。PubMed 产生了 212 个结果,Scopus 产生了 328 个结果。
根据一系列纳入和排除标准,使用三阶段筛选过程(补充材料)选择文章进行最终审查。在删除使用两个数据库生成的重复记录后,首先仅根据标题筛选文章。然后评估摘要,最后检查全文以确认是否合格。整个筛选过程(补充材料)由一位作者进行。如有疑问,其他作者审查了记录,并以协商一致的方式做出了关于纳入的决定。
符合纳入标准的文章必须:
• 是在博洛尼亚大学提供的具有全文访问权限的同行评审期刊上发表的原创研究文章;
• 涉及使用任何种类的核磁共振图像;
• 以英文出版;
• 关注CNN深度学习技术在脑肿瘤分类中的应用。
收录的文章仅限于 2015 年至 2022 年发表的文章,重点关注深度学习方法。在这里,一项研究被定义为采用基于 CNN 的深度学习算法对脑肿瘤进行分类的工作,并且涉及使用以下一个或多个性能指标:准确性、接受者操作特征曲线下的面积(AUC)、灵敏度、特异性, 或 F1 分数。
排除标准是:
• 评论文章;
• 书籍或书籍章节;
• 会议论文或摘要;
• 简短的交流或病例报告;
• 数据描述不明确;
• 未执行验证。
如果一项研究涉及使用 CNN 模型进行特征提取,但使用传统的机器学习技术进行分类任务,则将其排除在外。使用其他深度学习网络(例如人工神经网络 (ANN)、生成对抗网络 (GAN) 或自动编码器 (AE))而不是 CNN 模型的研究被排除在外。本研究包括使用多种深度学习技术和 CNN 的研究,但仅审查 CNN 的性能。
图 1 报告了根据系统评价和荟萃分析 (PRISMA) 指南的首选报告项目在每个阶段排除后筛选的文章数量。本文对 83 篇精选论文进行了回顾。所有文章都涵盖了使用基于 CNN 的深度学习技术对脑肿瘤进行分类。
本节详细介绍了 2015 年至 2022 年期间发表的使用基于 CNN 的深度学习技术进行脑肿瘤分类的研究论文。本节内容如下:
3.1 节简要概述了大多数论文采用的使用 CNN 算法对脑部 MRI 图像进行分类的一般方法。 3.2 节以表格的形式介绍了已在审查的研究论文中使用的流行的公开可用数据集。
3.3 节介绍了审查研究中常用的预处理方法。
3.4 节介绍了广泛使用的数据增强方法。
3.5 节简要概述了性能指标,这些指标为特定分类算法模型的可信度提供了证据。
最近,深度学习在医学图像分析方面表现突出,尤其是在脑肿瘤分类方面。深度学习网络已经取得了比经典机器学习方法更高的准确性。在深度学习中,CNN通过适应图像中的微小变化自动提取深层特征的能力获得了显着认可。深层特征是那些从与最终模型输出相关的其他特征派生出来的特征。
图2描述了一个典型的基于深度CNN的脑肿瘤分类框架的架构。要训练一个具有数万个参数的基于CNN的深度学习模型,一般的经验法则是至少有大约 10 倍的参数样本作为网络中的参数以有效泛化问题。如果训练数据集不够大,则在训练过程中可能会出现过拟合。
因此,许多研究 [40-44] 使用从 3D 大脑 MRI 体积中提取的 2D 大脑图像切片来解决这个问题,这增加了初始数据集中的示例数量并减轻了类不平衡问题。此外,它还具有降低输入数据维度和减轻训练网络的计算负担的优势。
数据增强是通过使用常用的形态学技术添加现有数据的修改副本来增加训练数据的数量和多样性的另一种有效技术,例如旋转,反射(也称为翻转或镜像),缩放,平移,和裁剪。这种策略基于图像块的大小和方向不会产生用于肿瘤分类的稳健特征的假设。
在深度学习中,过拟合也是一个常见的问题,当学习能力如此之大以至于网络将学习虚假特征而不是有意义的模式时,就会发生这种情况。在训练过程中可以使用验证集来避免过度拟合,并在临床实践中获得脑肿瘤分类系统对未来未见数据的稳定性能。验证集使用训练数据集的多个子集对分类模型进行无偏评估,同时在训练过程中调整模型的超参数。此外,当验证数据集上的错误增加时,验证数据集可用于通过提前停止进行正则化,这是对训练数据过度拟合的标志。因此,在文章选择过程中,我们排除了在训练过程中省略验证的文章。
评估 CNN 算法的分类性能是研究的重要组成部分。准确性、特异性、F1 分数(也称为 Dice 相似系数)、曲线下面积(AUC)和灵敏度是评估分类模型性能并将其与该领域的类似工作进行比较的重要指标。
需要一个大型训练数据集来创建一个准确且值得信赖的基于深度学习的脑肿瘤分类系统。在当前实例中,这通常包括一组 MR 图像体积,并且对于每个图像体积,分类标签由领域专家(例如神经放射学家)生成。在回顾的文献中,几个数据集被用于脑肿瘤分类,针对二元任务 [27,40,41,45] 和多类分类任务 [24,30,49–51]。表 2 简要列出了本文审查的研究中使用的一些可公开访问的数据库,包括 MRI 序列以及大小、类别、无偏基尼系数以及特定数据集的在线存储库的网址。
基尼系数 (G) 是一种分布特性,使用均匀性衡量其差异。它可以应用于分类数据,其中类别按流行程度排序。如果所有类别的代表均等,则其最小值为零,其最大值在两类分布的 0.5 到1的渐近线之间变化。无偏 Gini 系数将 G 除以存在的类数的最大值,并取 0–1 范围内的值。具有 n 个类别的分布的最大值为 (n − 1)/n。使用 R 包 DescTools [52] 计算无偏基尼系数的值。表 2 显示了公共数据集在平衡可用肿瘤类别样本(无偏基尼系数)方面的特征,同时考虑了数据集中的样本总数(“大小”列)。
在公共数据集中,Cheng [55] 提供的来自 Figshare 的数据集是最受欢迎的数据集,已广泛用于脑肿瘤分类。 BraTS 指的是多模态脑肿瘤分割挑战(自 2012 年以来每年都会举办的一项众所周知的挑战),是另一个经常用于测试脑肿瘤分类方法的数据集。提供的数据经过预处理、共同注册到相同的解剖模板、内插到精确的分辨率 (1 mm3),并剥离颅骨。
大多数 MR 技术可以生成高分辨率图像,而不同的成像技术显示出明显的对比度,对特定组织或液体区域敏感,并突出脑肿瘤的相关代谢或生物物理特性 [64]。表 2 中列出的数据集收集了一个或多个 MRI 序列,包括 T1 加权(T1w)、T2 加权(T2w)、对比增强 T1 加权(ceT1w)、流体衰减反转恢复(FLAIR)、弥散加权成像( DWI)和动态对比增强磁共振成像(DCE-MRI)序列。其中,T1w、T2w、ceT1w 和 FLAIR 序列广泛用于研究和临床实践中的脑肿瘤分类。每个序列都由一系列特定的射频脉冲和磁场梯度来区分,从而产生具有特征外观的图像 [64]。表 3 列出了 T1w、T2w、ceT1w 和 FLAIR 的成像配置和主要临床区别,以及从 [64–67] 中检索到的信息。
T1w:水含量较高时信号较低 ,例如水肿、肿瘤、炎症、感染或慢性出血;脂肪信号较高;亚急性出血信号较高
T2w:水含量越高,信号越高,例如水肿、肿瘤、梗塞、炎症、感染或硬膜下积液;脂肪信号较低;纤维组织信号较低
ceT1w:脑屏障破裂区域的高信号表明诱发炎症
FLAIR:异常的最高信号;灰质的最高信号;脑脊液的低信号
预处理主要用于去除输入数据中的无关方差并简化模型训练任务。需要其他步骤(例如调整大小)来解决神经网络模型的局限性
输入 CNN 模型的数据集可以使用不同的临床协议和来自多个机构的各种扫描仪进行收集。数据集可能由具有不同强度的 MR 图像组成,因为 MR 图像的强度在不同的 MR 扫描仪上并不一致。此外,MR 图像的强度值对采集条件敏感。因此,应规范化输入数据,以尽量减少扫描仪和扫描参数之间差异的影响。否则,创建的任何CNN网络都将是病态的。
数据归一化的方法有很多,包括min-max归一化、z-score 归一化和小数尺度归一化。最小-最大归一化是在所包含的文章中找到的最常见的MR图像归一化方法之一。在该方法中,输入 MR 图像的强度值被重新缩放到 (0, 1) 或 (-1, 1) 的范围内。
Z-score归一化是指对 MR 图像中发现的每个强度值进行归一化的过程,使得所有值的平均值为 0,标准差为 1。
MRI 图像通常还包含非大脑区域,例如硬脑膜、颅骨、脑膜和头皮。在模型中包含这些部分通常会降低其在分类任务期间的性能。因此,在保留颅骨和脊柱区域的脑 MRI 数据集的研究中,颅骨剥离被广泛用作脑肿瘤分类问题的预处理步骤,以提高性能 [24,72,73]。
由于深度神经网络需要固定大小的输入,因此所有图像在输入 CNN 分类模型之前都需要调整大小。可以通过裁剪背景像素或使用插值缩小尺寸来缩小大于所需尺寸的图像。
图像配准被定义为将不同图像在空间上变换到一个坐标系中的过程。在脑肿瘤分类中,通常需要分析患者的多张图像以改进治疗计划,但这些图像可能是从不同的扫描仪、不同的时间和不同的角度获取的。必须进行注册才能整合从这些不同测量中获得的数据。
刚性图像配准是回顾研究中使用最广泛的配准方法之一。刚性配准是指变换前后MR图像中任意两点之间的距离保持不变。这种方法只允许平移和旋转变换。
在医学图像中,偏置场是由扫描位置和使用的仪器等因素以及其他未知问题引起的不良伪影 。这种伪影的特点是整个图像的亮度存在差异,并且会显着降低许多医学图像分析技术的性能。因此,在将损坏的 MR 图像提交给 CNN 分类模型之前,需要一个预处理步骤来校正偏置场信号。
N4 偏置场校正算法和统计参数映射(SPM) 模块是校正MR图像强度不均匀性的常用方法。 N4 偏置场校正算法是校正 MR 图像数据中存在的低频强度不均匀性的一种流行方法 [80]。 SPM 包含几个用于大脑分割的软件包。这些包通常包括一组用于颅骨剥离、强度不均匀性(偏差)校正和分割例程。
基于 CNN 的分类需要大量数据。一般的经验法则是将至少大约 10 倍的样本数量设置为网络中的参数,以便有效地泛化问题。如果数据库小得多,则可能会发生过拟合。数据增强是解决不平衡分布和数据稀缺问题的最重要的数据技术之一。它已用于许多关注脑肿瘤分类的研究,涉及几何变换操作,例如旋转、反射(也称为翻转或镜像)、缩放、平移和裁剪(图 3) .
图 3. 数据增强:(a) 原始图像; (b) 18°旋转。当旋转任意度数(非模数 90)时,旋转将导致图像在每个角落被填充。然后,从新旋转图像的中心进行裁剪,以在保持图像纵横比的同时保留尽可能大的裁剪;© 左右翻转; (d) 上下翻转; (e) 扩大 1.5 倍; (f) 通过中心裁剪裁剪至 150 × 150 大小; (g) 随机亮度增强; (h) 随机对比度增强。
数据增强技术可以分为两类:位置增强和颜色增强。一些最流行的位置增强方法包括旋转、反射(也称为翻转或镜像)、缩放、平移和裁剪,它们通常用于在侧重于脑肿瘤分类的研究中放大 MR 数据集 [45,51] ,72,77]。包括的研究中也应用了颜色增强方法,例如对比度增强和亮度增强 [28,43]。
最近,成熟的数据增强技术已开始通过使用深度学习方法的自动方法得到补充。例如,[44] 中的作者提出了一种渐进式增长的生成对抗网络 (PGGAN) 增强模型,以帮助克服 CNN 分类模型所需图像的短缺。然而,此类方法在所回顾的文献中很少见。
评估 CNN 算法的分类性能是研究的重要组成部分。在这里,我们概述了在脑肿瘤分类文献当中常用的评估指标,即准确度、精确度、灵敏度、F1 分数和曲线下面积。
在分类任务中,True positive (TP) 表示根据ground truth正确分类为正类的图像。类似地,真阴性是模型将想象正确分类为负类的结果。另一方面,假阳性 (FP) 是一种结果,其中当基本事实为阴性时,模型错误地将图像分类为阳性类。假阴性 (FN) 是一种结果,其中模型错误地将应放置在正类中的图像分类。
准确度Accuracy (ACC) 是衡量模型在给定数据集中正确分类类别的性能的指标,表示为总正确分类除以图像总数的百分比。
Specificity (SPE) 表示正确分类的负样本占数据中识别出的所有负样本的比例。
精确度 (PRE) 表示真阳性与所有已识别阳性的比率。
灵敏度 (SEN) 衡量分类模型识别阳性样本的能力。它表示数据中真阳性与(实际)阳性总数的比率。
F1 分数是最流行的指标之一,同时考虑了精确度和召回率。它可用于评估具有类不平衡问题的分类模型的性能,并考虑模型产生的预测错误的数量,并查看所产生的错误类型。如果 PRE 和 SEN 之间有平衡,它会更高。
曲线下面积 (AUC) 测量 ROC 曲线下从 (0, 0) 到 (1, 1) 的整个二维面积。它衡量分类器区分类别的能力。
临床医生和软件开发人员需要了解性能指标如何衡量 CNN 模型针对不同医疗问题的特性。在研究中,通常使用几个指标来评估模型的性能。
准确性Accuracy是评估分类模型最常用的指标之一,但在类在数据中具有不同分布的情况下也会产生误导。精确度Precision是一个重要指标,当遇到假阳性出现的情况下是不能容忍的。特异性Specificity衡量模型正确识别未患相关疾病的人的能力。灵敏度Sensitivity,也称为召回率Recall,在识别阳性数量至关重要以及假阴性的发生是不可接受/无法容忍的情况下是一个重要指标。在类别严重不平衡的情况下,必须谨慎解释它。
重要的是要认识到灵敏度和特异性之间总是存在权衡。两个指标之间的平衡必须基于医疗用例和相关要求。精度和灵敏度均与 TP 成正比,但呈反比关系。是最大化召回率还是最大化精确率取决于应用:是只识别相关情况更重要,还是确保识别所有相关情况更重要?在可以容忍一些误报的医疗用例中,必须考虑精度和灵敏度之间的平衡;例如,在癌症检测中,识别所有阳性病例至关重要。另一方面,对于患病率高的不太严重的疾病,实现尽可能高的精确度很重要。
本节概述了使用 CNN 技术对脑肿瘤进行分类的研究论文。
第 4.1 节对 2015 年至 2022 年发表的关于深度学习和 CNN 在脑肿瘤分类中的文章数量以及所涵盖研究中应用的不同 CNN 算法的使用情况进行了定量分析。
第 4.2 节介绍了可能直接或间接降低基于 CNN 的 CADx 系统的性能和临床适用性的因素。
第 4.3 节中,将参考第 4.2 节中介绍的降级因素提供纳入研究的概述。
正如引言中提到的,许多 CNN 模型已被用于对脑肿瘤患者的 MR 图像进行分类。他们克服了早期深度学习方法的局限性,并在脑肿瘤分类任务的研究人员中广受欢迎。图4显示了2015年至2022年6月在PubMed和Scopus上发表的使用深度学习方法和基于CNN的深度学习技术进行脑肿瘤分类的研究文章数量;使用 CNN 技术进行脑肿瘤分类相关的论文数量从 2019 年开始快速增长, 2020 年、2021 年和 2022 年发表的占研究总数的大部分。这是因为CNN算法它的高泛化性、稳定性和准确率。
图 5 显示了用于解决脑肿瘤分类问题的最常用预处理技术的用法,包括数据增强、归一化、调整大小、头骨剥离、偏置场校正和配准。在该图中,仅可视化了 2017 年至 2022 年的数据,因为 2015 年或 2016 年没有发表使用上述预处理方法的文章。自 2020 年以来,大多数研究都使用数据增强来缓解数据稀缺和过拟合问题。然而,偏置场问题尚未得到重视,很少有研究将偏置场校正纳入预处理过程
图 6 分解了本评论所含文章中使用的公开可用 CNN 架构的使用情况,包括自定义 CNN 模型、VGG、AlexNet、ResNet、GoogLeNet、DenseNet 和 Efficient
AlexNet 问世于2012年,是深度学习的革命性进步;它通过引入连续堆叠的卷积层的组合改进了传统的CNN,并成为图像分类的最佳模型之一。 VGG,指的是Visual Geometry Group(视觉几何组),是继AlexNet之后卷积神经网络领域的一个突破。它是一种多层深度 CNN 架构,最初由 K. Simonyan 和 A. Zisserman 在中提出,旨在通过增加此类 CNN 的深度来提高模型性能。
GoogLeNet是一个基于Inception架构的22层深度卷积神经网络;它是由谷歌的研究人员开发的。 GoogLeNet 通过使用 Inception 模块解决了大型网络面临的大部分问题,例如计算开销和过度拟合。该模块可以使用最大池化和三种不同大小的滤波器(1×1、3×3、5×5)在单个图像块中进行卷积;然后将这些块连接起来并传递到下一层。可以在 3 × 3 和 5 × 5 层之前向神经网络添加一个额外的 1 × 1 卷积,使该过程的计算成本更低。 ResNet代表深度残差网络。它是一种创新的卷积神经网络,最初在Kaiming He中提出。 ResNet 利用残差块来提高模型的准确性。残差块是一个 skip connection 块,通常具有双层或三层跳过,其中包含非线性 (ReLU) 和介于两者之间的批归一化;它可以帮助减少梯度消失的问题,或者可以帮助减轻精度饱和问题。 DenseNet,代表密集卷积网络,是一种利用层与层之间的密集连接的卷积神经网络。 DenseNet 的开发主要是为了改善神经网络中梯度消失导致的精度下降。此外,这些 CNN 接收像素分辨率为 224 × 224 的图像。因此,对于脑肿瘤分类,作者需要在每个图像中中心裁剪一个 224 × 224 的块,以保持输入图像大小一致。
卷积神经网络通常使用固定资源预算构建。当有更多资源可用时,需要扩大模型的深度、宽度和分辨率,以提高准确性和效率。与以前的 CNN 不同,EfficientNet 是一种新颖的基线网络,它使用基于复合系数和神经架构搜索方法的不同模型缩放技术,可以仔细平衡网络深度、宽度和分辨率。
本节介绍阻碍采用和开发基于 CNN 的脑肿瘤分类 CADx 系统进入临床实践的因素,包括数据质量、数据稀缺性、数据不匹配、数据不平衡、分类性能、对临床需求的研究价值,以及CNN 模型的黑盒特性。
在 MR 图像采集过程中,扫描仪和外部源都可能在接收器线圈中产生电噪声,从而在大脑 MR 体积中产生图像伪影。此外,MR 图像重建过程对采集条件敏感,如果被检对象在采集单个图像期间移动,则会引入更多伪影。这些错误是不可避免的,会降低用于训练网络的 MR 图像的质量。结果,训练数据的质量降低了 CNN 模型的灵敏度/特异性,从而影响了它们在临床环境中的适用性。
大数据是当今基于 CNN 的 CADx 系统面临的最大挑战之一。构建高性能的CNN分类模型需要大量高质量的标注数据,而由于医学数据的复杂性,对大量医学图像进行标注是一项挑战。当 CNN 分类系统没有足够的数据时,可能会发生过拟合——因为分类是基于训练集中的外来方差——影响网络泛化新数据的能力。
数据不匹配是指在实验室环境中训练好的模型无法概括真实世界临床数据的情况。这可能是由于训练集过拟合或研究图像与临床图像不匹配造成。如果研究省略验证步骤或测试集未反映临床数据的特征,则研究存在泛化失败的高风险。
在大脑 MRI 数据集中,例如由 210 名 HGG 和 75 名 LGG 患者组成的 BraTS 2019 数据集 (无偏基尼系数 0.546,如表 2 所示),HGG 所代表的样本比例远高于 LGG ,导致所谓的类不平衡问题,其中将所有数据输入 CNN 分类器以建立学习模型通常会导致学习偏向多数类。当使用不平衡的训练集时,使用多种性能指标评估模型性能很重要(第 3.5 节)。
在 2015 年至 2022 年期间,使用基于 CNN 的深度学习技术研究了不同的脑肿瘤分类任务,包括临床相关的两类分类(正常与肿瘤 [29,41,94,95],HGG与 LGG [27,40,45,73],LGG-II 与LGG-III等);三级分类(正常与 LGG 与 HGG [24]、脑膜瘤 (MEN) 与垂体瘤 (PT) 与神经胶质瘤、多形性胶质母细胞瘤 (GBM) 与星形细胞瘤 (AST) ) 与少突神经胶质瘤 (OLI)等);四级分类(LGG vs. OLI vs. 间变性胶质瘤 (AG) vs. GBM,正常 vs. AST-II vs. OLI-III vs.GBM-IV ,正常与 MEN 与 PT 与神经胶质瘤等);五级分类(AST-II vs. AST-III vs. OLI-II vs. OLI-III vs. GBM-IV [24]);和六级分类(正常与AST-II 与 AST-III 与 OLI-II 与 OLI-III 与 GBM-IV [24])。
并非所有分类任务都同样困难,深度学习研究社区和临床实践就是这种情况。 [24] 中的作者使用 AlexNet 进行多类分类任务,包括二类分类:正常 vs. 肿瘤,三类分类:正常 vs. LGG vs. HGG;四级分类:正常 vs. AST vs. OLI vs. GBM;五级分类:AST-II vs. AST-III vs. OLI-II vs. OLI-III vs.GBM-IV 和六级分类:正常 vs. AST-II vs. AST-III vs. OLI-II vs. OLI-III vs. GBM-IV。
结果报告了正常与肿瘤分类的 100% 准确度。五级分类的准确性(AST-II vs. AST-III vs. OLI-II vs. OLI-III vs.GBM-IV)仅为87.14%。同样,在最近的一篇文章 [98] 中,作者使用相同的 CNN 模型进行多类脑肿瘤分类。正常与肿瘤分类达到了 100% 准确度,四级分类任务(I 级 vs. II 级 vs. III 级 vs.IV 级)达到了较低的90.35%的准确率,以及五级分类 AST-II vs. AST-III vs. OLI-II vs.OLI-III 与 GBM中86.08% 的准确率。
CADx 领域的研究目标是帮助解决现有未满足的临床需求,并为人类专业人员在临床实践中无法轻松处理的艰巨任务提供辅助方法和工具。据观察,基于 CNN 的模型在正常/肿瘤图像分类方面已经取得了相当高的准确率,但需要更多的研究来提高更困难任务的分类性能,特别是在五类分类中(例如,AST-II vs. AST -III 对比 OLI-II vs OLI-III vs GBM)和四级分类(例如,I 级与 II 级与 III 级与 IV 级)任务。因此,将正常与肿瘤作为目标问题的研究几乎没有临床价值。
分类性能表明 CADx 系统的可靠性和可信度,是将研究成果转化为临床实践时要考虑的最重要因素之一。已经表明,CNN 技术在大多数脑肿瘤分类任务中表现良好,例如二分类(正常和肿瘤 [94,95] 以及 HGG 和 LGG [45,73])和三分类(正常 vs.LGG vs. HGG [24] 和 MEN vs. PT vs. 神经胶质瘤 [49,50])任务。然而,对于更困难的分类任务获得的分类性能,例如 AST-II、AST-III、OLI-II、OLI-III 和 GBM 之间的五级分类,仍然很差 [24,98] 并且值得进一步研究.
这里回顾的一些基于 CNN 的深度学习技术的脑肿瘤分类性能非常出色。尽管如此,它们的临床应用还受到另一个因素的限制:“黑匣子”问题。即使是 CNN 模型的设计者通常也无法解释模型的内部工作原理或为什么它会做出特定的决定。
用于决定任何给定图像分类的特征不是系统的输出。这种可解释性的缺乏降低了临床医生对技术结果的信心,并阻碍了深度学习工具在临床实践中的采用和开发。
概述自 2015 年至今,随着对基于 CNN 的深度学习技术的热情浪潮,涌现出许多研究论文。在这篇综述中,评估了 83 篇研究论文,以总结 CNN 算法在脑肿瘤分类中的有效性,并为该领域的未来研究提出方向。
在所收录的文章中,有 25 篇使用正常/肿瘤作为分类目标。然而,如第 4.2.5 节所述,区分正常图像和肿瘤图像并不是一项艰巨的任务。该问题在研究和临床实践中都得到了很好的解决,因此临床应用价值不大。因此,在以下评估步骤中将不会进一步回顾使用正常与肿瘤作为目标问题的研究。
表 4a 概述了包含的研究,这些研究侧重于基于 CNN 的脑肿瘤分类深度学习方法,但不包括使用正常与肿瘤分类的研究。总结了数据集、MRI 序列、数据集的大小和预处理方法。
如 4.2 节所述,在 MR 图像中使用 CNN 技术进行脑肿瘤分类面临的主要挑战在于训练数据,包括数据质量、数据稀缺、数据不匹配和数据不平衡所带来的挑战,这些挑战阻碍了 CNN 的采用和发展。基于 CNN 的脑肿瘤分类 CADx 系统进入临床实践。在这里,我们评估了几项最近发表的研究,以方便地收集用于解决这些问题和这些研究中尚未解决的问题的最先进技术。
目前,数据增强被认为是解决数据稀缺问题的最佳方案,并广泛应用于脑肿瘤分类研究。
[100] 中的作者使用了不同的数据增强方法,包括旋转、翻转、高斯模糊、锐化、边缘检测、浮雕、倾斜和剪切,以增加数据集的大小。所提出的系统旨在对 I 级、II 级、III 级和 IV 级进行分类,原始数据包含 121 张图像(36 张 I 级图像、32 张 II 级图像、25 张 III 级图像和 28 张 IV 级图像) ,并通过使用数据增强技术,从每个 MR 图像生成 30 个新图像。使用增强数据和原始数据对所提出的模型进行实验评估。结果表明,数据增广后的整体准确率达到90.67%,高于未增广时获得的87.38%的准确率。
虽然大多数数据增强技术旨在增加训练集中的外来方差,但至少在理论上,深度学习本身可以用来增加有意义的方差。在 Allah 等人 [44] 最近发表的一篇文章中,提出了一种称为渐进式增长生成对抗网络 (PGGAN) 的新型数据增强方法,并将其与旋转和翻转方法相结合。该方法涉及在训练过程中逐渐增加模型的大小,以生成脑肿瘤的 MR 图像,并帮助克服深度学习训练图像的短缺。使用 VGG19 特征提取器和 CNN 分类器对脑肿瘤图像进行分类。
结合 VGG19 + CNN 和 PGGAN 数据增强框架的准确性达到了 98.54%。
另一种有助于克服数据稀缺问题并且还可以减少计算成本和训练时间的方法是迁移学习。迁移学习是机器学习中的热门研究课题;通过使用更适合研究目标的较小数据集微调先前生成的模型,可以转移先前学习的知识以执行新任务。迁移学习通常使用在大型基准数据集 ImageNet [101] 上训练过的 VGG、GoogLeNet 和 AlexNet 等预训练模型来表示。
已经进行了许多尝试来研究迁移学习技术对脑肿瘤分类的价值。 Deepak 和 Ameer [39] 使用带有迁移学习技术的 GoogLeNet 从 Cheng [55] 提供的数据集中区分神经胶质瘤、MEN 和 PT。该系统的平均分类准确率为 98%。
在 Yang 等人 [45] 进行的一项研究中,AlexNet 和 GoogLeNet 都从头开始训练,并根据来自 ImageNet 数据库的预训练模型进行微调,用于 HGG 和 LGG 分类。该方法中使用的数据集包括来自 113 名经病理证实为神经胶质瘤的患者(52 名 LGG、61 名 HGG)的 ceT1w 图像。结果表明,GoogLeNet 在这项任务上优于 AlexNet。从头开始训练的 GoogLeNet 的性能指标,包括验证准确率、测试准确率和测试 AUC,分别为 0.867、0.909 和 0.939。通过微调,获得的预训练GoogLeNet在胶质瘤分级中表现更好,验证精度为0.867,测试精度为0.945,测试AUC为0.968。
[50] 中的作者提出了一种块式微调策略,使用预训练的 VGG19 进行脑肿瘤分类。该数据集包含来自 233 名患者(82 名男性、89 名神经胶质瘤和 62 名 PT)的 3064 张图像(708 名男性、1426 名神经胶质瘤和 930 名 PT)。作者在五折交叉验证下获得了 94.82% 的总体准确率。在 Bulla 等人 [108] 的另一项研究中,分类是在预训练的 InceptionV3 CNN 模型中使用来自同一数据集的数据进行的。在训练过程中使用了几种验证方法,包括保留验证、10 折交叉验证、分层 10 折交叉验证和组 10 折交叉验证。在组 10 折交叉验证下获得了患者级别分类的最佳分类准确度 99.82%。
[104] 中的作者使用已经在 ImageNet 数据集上预训练的 InceptionResNetV2、DenseNet121、MobileNet、InceptionV3、Xception、VGG16 和 VGG19 对 HGG 和 LGG 脑图像进行分类。本研究中使用的 MR 图像是从 BraTS 2019 数据库收集的,该数据库包含 285 名患者(210 名 HGG,75 名 LGG)。然后将来自数据集的 3D MRI 体积转换为 2D 切片,生成 26,532 张 LGG 图像和 94,284 张 HGG 图像。作者从 HGG 中选取了 26,532 张图像来平衡这两个类,以减少类不平衡对分类性能的影响。测试数据集的平均精度、f1 分数和灵敏度分别为 98.67%、98.62% 和 98.33%。
Lo 等人 [116] 使用带有微调 AlexNet 和数据增强的迁移学习对来自包含 130 名患者(30 名 II 级、43 名 III 级、57 名 IV 级)的小型数据集的 II 级、III 级和 IV 级脑肿瘤图像进行分类).结果表明,使用预训练的 AlexNet 时,准确率要高得多。所提出的迁移 DCNN CADx 系统实现了 97.9% 的平均精度和 0.9991 的平均 AUC,而没有预训练特征的 DCNN 仅实现了 61.42% 的平均精度和 0.8222 的平均 AUC。
Kulkarni 和 Sundari 利用五种迁移学习架构,AlexNet、VGG16、ResNet18、ResNet50 和 GoogLeNet,从作者收集的私有数据集中对良性和恶性脑肿瘤进行分类,该数据集仅包含 200 张图像(100 张良性和 100 张恶性).此外,还执行了数据增强技术,包括缩放、平移、旋转、剪切和反射,以推广模型并减少过拟合的可能性。结果表明,经过微调的 AlexNet 架构实现了 93.7% 和 100% 的最高准确度和灵敏度值。
尽管许多关于 CADx 系统的研究展示了鼓舞人心的分类性能,但几乎没有对其算法进行临床实践验证。外部验证是克服数据不匹配问题,提高分类算法泛化性、稳定性和鲁棒性的有效途径。它是在新的独立数据集中评估分类模型以确定模型是否表现良好的动作。然而,我们只找到了两个使用外部临床数据集评估所提出方案的有效性和泛化能力的研究,如下所述。
Decuyper 等人提出了一种 3D CNN 模型,用于将从 TCGA-LGG、TCGA-GBM 和 BraTS 2019 数据库收集的大脑 MR 体积分类为 HGG 和 LGG。本研究使用了多个 MRI 序列,包括 T1w、ceT1w、T2w 和 FLAIR。所有 MR 数据都被共同注册到相同的解剖模板,并插值到 1 mm3 体素大小。此外,在根特大学医院 (GUH) 获得的 110 名患者的完全独立数据集被用作外部数据集,以验证所提出模型的效率和泛化性。 GUH 数据集的最终验证准确度、灵敏度、特异性和 AUC 分别为 90.00%、90.16%、89.80% 和 0.9398。
在 [120] 中,Gilanie 等人提出了一种使用 CNN 架构在 AST-I、AST-II、AST-III 和 AST-IV 之间进行星形细胞瘤分级的自动方法。该数据集由 180 个受试者的 MR 切片组成,包括 50 个 AST-I 病例、40 个 AST-II 病例、40 个 AST-III 病例和 50 个 AST-IV 病例。实验中使用了 T1w、T2w 和 FLAIR。此外,在预处理阶段使用 N4ITK 方法 [80] 来校正 MR 图像中存在的偏置场失真。结果在本地开发的数据集上进行了验证,以评估所提出方案的有效性和泛化能力。所提出的方法在外部验证数据集上获得了 96.56% 的整体准确率。
在脑肿瘤分类中,当从不同序列或不同扫描仪收集图像时,通常需要使用图像配准来预处理输入数据。但是,我们发现这个问题还没有被认真对待。在调查的文章中,六项研究 [73,76,98,118,135,136] 使用来自多个数据集的数据作为一个分类目标,而只有两项研究 [73,76] 在图像预处理过程中执行了图像配准。
Different medical image registration techniques: A comparative analysis [76]中的作者提出了一个 2D Mask RCNN 模型和一个 3DConvNet 模型来区分多个 MR 序列(包括 T1w、ceT1w、T2w 和 FLAIR)上的 LGG(II 级和 III 级)和 HGG(IV 级)。本研究工作使用 TCIA-LGG 和 BraTS 2018 数据库来训练和验证这两个 CNN 模型。在 2D Mask RCNN 模型中,所有输入的 MR 图像首先通过刚性图像配准和强度不均匀性校正进行预处理。此外,还实施了数据扩充以增加训练数据的大小和多样性。使用提出的基于 2D Mask RCNN 的方法和 3DConvNet 方法的性能测量准确性、灵敏度和特异性分别达到 96.3%、93.5% 和 97.2% 的值,以及 97.1%、94.7% 和 96.8% 的值
在 Ayadi [98] 进行的研究中,研究人员为多个分类任务构建了自定义 CNN 模型。他们从三个在线数据库 Radiopaedia(Cheng 提供的数据集)和 REMBRANDT 收集数据用于脑肿瘤分类,但没有进行图像联合配准以最小化图像之间的偏移并减少其对分类性能的影响。肿瘤和正常分类的总体准确率达到100%; normal、LGG、HGG分类达到95%; MEN、胶质瘤、PT分类达到94.74%;对于正常、AST、OLI和GBM分类,达到94.41%;一、二、三、四级分类达90.35%;对于AST-II、AST-III、OLI-II、OLI-III和GBM分类,达到86.08%;对于正常、AST-II、AST-III、OLI-II、OLI-III和GBM分类,达到92.09%。
[118] 中的作者提出了一种用于 GBM、AST 和 OLI 之间脑肿瘤分类的 3D CNN 模型。包含来自 CPM-RadPath 2019 和 BraTS 2019 数据库的数据的合并数据集用于训练和验证所提出的模型,但作者没有执行图像联合配准。结果表明,该分类模型在脑肿瘤分类中表现非常差,准确率为74.9%。
在 [135] 中,研究人员提出了一种用于两种分类任务的 CNN-PSO 方法:正常与 II 级、III 级与 IV 级以及 MEN 与神经胶质瘤与 PA。用于第一项任务的 MR 图像是从四个公开可用的数据集收集的:IXI 数据集、REMBRANDT、TCGA-GBM 和 TCGA-LGG。对于正常、II 级、III 级和 IV 级之间的分类获得的总体准确率为 96.77%以及 MEN、神经胶质瘤和 PA 分类的 98.16%
与 [135] 中进行的工作类似,Anaraki 等人 [136] 使用了从四个在线数据库合并的 MR 数据:IXI 数据集、REMBRANDT、TCGA-GBM 和 TCGA-LGG,以及作者为正常、II 级、III 级和 IV 级分类。他们还使用 Cheng [55] 提出的数据集进行 MEN、神经胶质瘤和 PA 分类。执行不同的数据增强方法以进一步扩大训练集的大小。这些研究的作者没有为四类分类任务共同注册来自不同机构的不同序列的 MR 图像。结果表明,正常、II 级、III 级和 IV 级分类的准确率为 93.1%,MEN、胶质瘤和 PA 分类的准确率为 94.2%。
尽管在大多数使用 CNN 技术的研究中报告了高精度水平,但我们发现在几项研究中 [102,117,118,137],这些模型在脑肿瘤分类任务中表现出非常差的性能。
[102] 中的作者探索了用于脑肿瘤分类的迁移学习技术。实验是在 BraTS 2019 数据集上进行的,该数据集由 335 名诊断为脑肿瘤的患者(259 名 HGG 患者和 76 名 LGG 患者)组成。该模型在 66 名患者的单独测试数据集上实现了 82.89% 的分类 AUC。本研究中通过迁移学习获得的分类性能较低,阻碍了其在临床实践中的发展和应用。 [117] 的作者提出了一个 3D CNN 模型,该模型开发用于将成人弥漫性胶质瘤病例分类为 OLI 和 AST 类。实验中使用的数据集包括 32 名患者(16 名 OLI 患者和 16 名 AST 患者)。该模型达到了 80% 的准确率值。表现不佳的主要原因可能在于数据集较小,只有 32 名患者用于模型训练。这远远不足以训练 3D 模型。
在另一项研究 [137] 中,使用 Lenet、AlexNet 和 U-net CNN 架构研究了两个脑肿瘤分类任务。在实验中,利用从 Radiopaedia 获得的 11 名患者(2 名转移患者、6 名神经胶质瘤和 3 名 MEN)的 MR 图像对转移、神经胶质瘤和 MEN 进行分类;从 BraTS 2017 收集的 20 名患者的数据用于 HGG 和 LGG 分类。结果表明三种 CNN 架构在两个任务上的分类性能较差,第一个任务 AlexNet 获得的准确率为 75%,Lenet 获得的准确率为 48%,AlexNet 获得的准确率为 62%,而U-net 为第二个任务获得的 60%。 Lenet 的性能不佳可能是由于其简单的体系结构,无法进行高分辨率图像分类。另一方面,U-net CNN 在分割任务中表现良好,但不是最常用的分类网络。
尽管 CNN 在大多数回顾的研究中在脑肿瘤分类任务中表现出色,但它们的可信度和透明度水平必须在临床环境中进行评估。在所包含的文章中,只有 Artzi 等人 [122] 和 Gaur 等人 [127] 进行的两项研究调查了用于脑肿瘤分类的 CNN 模型的黑盒性质,以确保模型在正确的位置而不是在正确的位置进行查找而不是噪声或不相关的伪影。
[122] 中的作者提出了一种预训练的 ResNet-50 CNN 架构,用于从私有数据集中对三个后颅窝肿瘤进行分类,并使用梯度加权类激活映射 (Grad-CAM) 解释分类决策。该数据集包括 22 名健康对照和 63 名 PA、57名MB 和 16 名 EP 患者的 158 次 MRI 扫描。在这项研究中,使用了几种预处理方法来减少 MRI 数据对所提出的 CNN 模型的分类性能的影响。执行图像配准以确保图像在空间上对齐。还进行了偏置场校正以从图像中去除强度梯度。数据增强方法,包括翻转、反射、旋转和缩放,用于增加数据集的大小和多样性。然而,数据集中的类别不平衡,特别是 EP 的代表性不足,没有得到解决。所提出的架构实现了所提出的使用 Grad-CAM 的网络可以识别感兴趣的区域并根据病理学相关特征训练分类模型。
Gaur 等人 [127] 提出了一种基于 CNN 的模型,该模型与局部可解释模型不可知论解释 (LIME) 和 Shapley 附加解释 (SHAP) 相结合,使用 MRI 数据集对脑膜瘤、神经胶质瘤、垂体和正常图像进行分类和解释2870 幅 MR 图像。为了获得更好的分类结果,在预处理步骤中引入高斯噪声以提高 CNN 的学习能力,均值 = 0,标准差为 10 0.5。所提出的 CNN 架构对 MRI 数据集的准确率为 94.64%。所提出的模型还提供了与局部模型无关的解释,以更定性地描述普通人的结果。
本综述中的许多文章表明,基于 CNN 的架构在应用于不同的脑肿瘤分类任务时可以非常强大和有效。表 4b 显示 HGG 和 LGG 图像的分类以及 MEN、神经胶质瘤和 PT 图像的区分是最常研究的应用。
表 4b 总结了评论文章的分类任务、分类架构、验证方法和性能指标。
这些应用程序的流行可能与众所周知且易于访问的公共数据库的可用性有关,例如 BraTS 数据集和 Cheng [55] 提供的数据集。图 7 显示,从 2018 年到 2022 年,CNN 架构对脑肿瘤分类的总体准确率有所提高。据观察,从 2019 年开始,大多数研究的总体分类准确率达到 90%,只有少数作品获得精度较低,到 2020 年,极端异常值精度为 48% [137]。从这个图中也可以明显看出,准确率高于95%的论文比例增加了
为了讨论本综述中包含的论文之间的技术差异和相似点,我们决定按主题进行。在可能的情况下,对包含尽可能少的差异的研究进行比较更有用。
最常报告的指标,也是唯一将在此处使用的指标,是准确性accuracy。有几项研究使我们能够仅对一个因素进行此类比较。在其他情况下,几项研究采用了类似的方法,我们可以进行跨研究比较。最后,可以绘制单个因素的准确性数据,以便进行简单的视觉比较,而无需尝试分离混杂因素。
三篇论文研究了将数据集拆分为不同数量类别的效果。随着类别数量的增加,它们都显示出预期的准确性单调下降,需要注意的是“正常”图像类别相对容易与其他类别区分开来,并且在添加为附加类别时不会降低准确性。这种模式在图 8 中也很明显——二分类问题的最大准确率为 100%;对于四类问题,为98.8%;对于六类问题,它是 93.7%。
两篇论文采用单一架构来执行不同的分类任务 [30, 138],同时保持类的数量不变。 [30] 中的结果表明,针对两个不同问题获得的准确度几乎没有差异,这可以用数据集的差异来解释。 [138] 的结果显示四个二分类问题之间的差异略大。奇怪的是,在较大数据集上训练的网络产生较差的准确度值,这表明从较小样本获得的结果具有夸大的准确度(基于 219 张图像的问题为 100%,基于 2156 张图像的问题为 96.1%)。
参考图 8,分类任务似乎比类数对准确性的影响更大。请注意,将各种特定任务(二类、三类)组合在一起的类别比用于特定比较的具有相同数量类的类别显示出更大的异质性。关于该任务重要性的进一步证据来自于比较肿瘤分级(LGC 与 HGC)和那些试图区分不同类型肿瘤(MEN 与神经胶质瘤与 PT)的论文的准确性;尽管后一项任务涉及更多类别,但准确率中位数为 97.6(前者为 94.4)。
我们比较了研究 HGG 和 LGG 分类的文章,发现分类性能差异很大,即使在 2021 年发表的使用最先进的 CNN 技术的文章之间也是如此。显着影响 CNN 模型脑肿瘤分类性能的关键因素之一在于数据集的大小。 [40,78] 的作者都提出了自定义 CNN 模型来对来自 BraTS 2017 数据集的 285 个 MRI 扫描的 HGG 和 LGG 图像进行分类。总体准确度值分别为 90.7% 和 94.28%。 [137] 的作者利用 AlexNet 完成相同的任务,但仅研究了来自同一数据集的 20 名患者的 MRI 数据。这项研究中的模型的分类准确率很差,为 62%,是有关该分类任务的文章中最低的。
图 8 显示了针对不同分类任务的回顾研究所取得的总体准确度。图中突出的是,除了五类任务的准确率低于 90%,CNNs 在不同的脑肿瘤分类任务上取得了令人鼓舞的准确率,尤其是在区分 MEN、胶质瘤和PT的三类分类任务中。我们还注意到,三类分类任务的准确度波动很大,[137] 中转移、神经胶质瘤和 MEN 分类的准确度最低,为 48%。应该更多地关注提高这些分类任务的准确性。
一些研究将相同的网络架构应用于两个不同的数据集。对于 He 等人 [78],证明更高准确度(94.4% vs 92.9%)的结果是基于更大且更不平衡的训练集。第一个因素会改进训练过程,而后者会使分类任务更容易。几篇论文从不同的数据集派生出不同的子组(例如,来自 IXI 的健康受试者数据和来自其他集的肿瘤)。这是一种糟糕的做法,因为从不同中心获得的集合之间可能存在非病理性差异,这会人为地提高分类准确性。
如结果部分所述,数据集大小被认为是决定 CNN 架构分类性能的关键因素。一些研究根据包含的受试者数量报告数据集大小,而其他研究根据图像数量报告数据集大小。通常,每个主题都包含几张图像,但未指定此数量。
图 9 和图 10 总结了根据每个因素获得的分类精度;图 9 显示,随着更多的训练对象,总体准确度有了显着提高。通过增加图像数量获得的改进似乎更为温和。
所用数据集的另一个有趣方面是 MRI 序列的选择。这可能会提供有关用于分类的特征的提示。比较关注相同分类任务的文章,在表 3 中列出的序列中,只有 ceT1w 与显示更高分类准确性的研究相关,而不是那些排除它的 MEN vs. Glioma vs. PT 分类,而所有序列有助于改进 LGG 与 HGG 分类。因此,使用多个序列的研究与 LGG 与 HGG 任务的更高准确性相关,但与 MEN vs 神经胶质瘤 vs PT 分类无关。
三项研究比较了针对相同问题训练的不同架构(Yang 等人 [45]、Kulkarni 等人 [121]、Wahling 等人 [137])。
在 Yang 等人 [45] 进行的一项研究中,GoogLeNet 和 AlexNet 都从头开始训练,并根据来自 ImageNet 数据库的预训练模型进行微调,用于 HGG 和 LGG 分类。当两者都从头开始训练时,事实证明 GoogLeNet 在任务方面优于 AlexNet。测试准确度分别为 0.909 和 0.855。微调预先存在的网络在这两种情况下都有更好的性能,测试集上的准确度分别为 0.945 和 0.927。在[121]中,五个网络被用来区分良性和恶性肿瘤。报告的准确度出奇地多变;从最差到最好,结果分别是 VGG16 (0.5) 和 ResNet50 (0.68)。在[137]中,AlexNet和LeNet都被用来区分三类。
图 11 总结了广泛用于脑肿瘤分类的不同 CNN 架构所实现的总体准确度。
它表明大多数 CNN 模型在脑肿瘤分类任务中都取得了高性能,其中使用 ResNet、VGG 进行迁移学习,并且 GoogleNet 表现出比其他模型更稳定的性能,例如 3D CNN。在回顾的文章中,有五篇文章使用 3D CNN 进行脑肿瘤分类,这些研究的分类准确性波动很大。最高精度为 97.1%,由 Zhuge 等人 [77] 实现,他们使用 315 名患者(210 名 HGG,105 名 LGG)的数据集训练了 3D CNN 架构。
Pei 等人 [118] 获得了 75% 的最低准确度,他们使用 398 个大脑 MR 图像体积进行 GBM vs. AST vs. OLI 分类。在另一项研究 [117] 中,作者使用 32 名患者(16 名 OLI,16 名 AST)的非常小的数据集探索了用于 OLI 和 AST 分类的 3D CNN 模型,并获得了 80% 的低准确度。 3D CNN 似乎是一种很有前途的实现患者诊断的技术,大型 MRI 数据集的可访问性有望提高 3D CNN 在脑肿瘤分类任务上的性能。
研究人员越来越关注通过在将脑 MRI 数据集传播到 CNN 架构之前对脑 MRI 数据集执行不同的预处理步骤来提高输入图像质量。没有研究系统地测试优化分类准确性的操作的数量和组合。图 12 显示了使用不同数量的预处理操作获得的总体精度。它表明,与不执行预处理方法的研究相比,对输入 MR 图像进行预处理的研究共同获得了更高的分类精度。然而,更多的步骤导致更好的性能并不明显。
如前所述,数据增强可以在图像中产生变化,从而提高模型对新图像的泛化能力,并且已经广泛探索和应用了不同的数据增强技术来增加训练数据的数量和多样性。图 13 说明了使用不同数量的数据扩充操作获得的总体准确度。可以看出与执行较少操作的研究相比,执行五种数据增强技术的研究实现了更高和更稳定的分类性能。
准确性数据不支持使用任何单一的数据增强方法。有趣的是,是否在那些缺乏训练数据的研究中专门实施了数据增强技术。然而,平均而言,59 项研究包括或省略数据增强步骤的 27 项研究之间几乎没有差异。平均而言,前者包含 233 个案例或 4743 张图像,后者包含 269 个案例或 7517 张图像。奇怪的是,无论是与总数相比还是与使用预处理方法的研究相比,采用数据增强的研究数量在 2022 年发表的研究中所占的比例都有所下降。
图14 显示了表 4 中报告的研究中未完全报告或考虑的因素的累积影响。具有不同因素的多重分析的文章得分为 1(即缺失)。
数据来自表 4,但有以下例外:“考虑可解释性”意味着文章中对用于诊断的信息进行了一些分析。当对训练/验证阶段未使用的队列(即不同的医院或扫描仪)执行 CNN 测试时,就会发生队列外测试。作者隶属关系源自参考书目中列出的 DOI/CrossRef 中的作者信息。如果作者列出的从属关系包括放射科、临床神经病学、神经外科或肿瘤科,则作者被认为具有临床从属关系。
从图中可以看出,其他性能标准执行的类别意味着报告了准确性以外的性能标准。如果未执行验证或未明确描述验证步骤中使用的方法,则认为未正确报告验证。正确报告训练患者/图像意味着明确定义用于训练/验证的每个类别中的患者/图像数量。这两个因素作为来自同一患者的单独图像是相关的,并且不是完全独立的。
使用的公共数据意味着所使用的数据可供其他研究人员使用。实际上,所有使用的公共数据都是在其他研究中收集的,并且没有任何已确定的研究提供非公开数据。
图中,执行其他性能标准的类别意味着报告了准确性以外的性能标准。如果未执行验证或未明确描述验证步骤中使用的方法,则认为未正确报告验证。正确报告训练患者/图像意味着明确定义用于训练/验证的每个类别中的患者/图像数量。这两个因素作为来自同一患者的单独图像是相关的,并且不是完全独立的。使用的公共数据意味着所使用的数据可供其他研究人员使用。
除了显示准确性的提高外,接受调查的文章很少检查它们的泛化能力和可解释性。只有极少数研究在独立数据集上测试了他们的分类模型,只有一项研究调查了 CNN 模型用于脑肿瘤分类的黑盒特性,以确保他们获得的模型在正确的位置寻找决策而不是噪音或不相关的工件。
这项调查的局限性来自于在研究之间以客观的方式进行比较以分析每个降级因素如何影响分类性能的挑战。一个原因是一些研究针对相同的分类任务,但使用了不同的数据集、预处理方法或分类技术。
另一个原因在于报告的性能指标的多样性。虽然准确性是最流行的性能指标,但并未得到普遍报道。基于在准备本综述时遇到的困难,我们建议至少,所有用于分类的深度学习研究都清楚地报告所构建模型的分类准确性以及用于训练的每个类别的图像/主题数量,验证和测试目的。
从表 4b 中的比较分析可以清楚地看出,CNN 技术和算法具有强大的处理医学 MR 数据的能力和能力,但到目前为止,还没有达到临床可用性的地步。如果要将 CNN 研究转化为临床实践,就必须适当解决我们在此确定的挑战。本次回顾确定了一些常见的性能下降因素和潜在的解决方案。
从头开始训练深度学习算法需要大量的训练案例。在训练数据数量有限的情况下,与从头开始训练此类 CNN 相比,在预训练的 CNN 上进行微调的迁移学习被证明可以产生更好的脑肿瘤分类结果。当训练数据昂贵或难以在医学领域收集时,这是一种训练网络的有效方法。除此之外,高硬件要求和长训练时间也是基于CNN的CADx脑肿瘤分类系统在当今临床应用中面临的挑战。最先进的 CNN 架构的持续发展导致了对计算能力的强烈需求。由于训练深度学习模型的成本与参数数量和输入数据量成比例,这意味着计算需求的增长速度至少是训练数据数量的平方。
通过预训练模型,迁移学习也有望解决在临床实践中采用基于 CNN 的 CADx 系统进行脑肿瘤分类时因硬件要求高和训练时间长而造成的困难。与优化迁移学习相关的许多问题仍有待研究。
CADx 系统主要用于教育和培训目的,但不用于临床实践。诊所仍然对使用基于 CADx 的系统犹豫不决。原因之一是缺乏在现实环境中评估 CADx 系统的标准化方法。 4.2 节中描述的性能度量是比较算法的有用且必要的基线,但它们都对所使用的训练集高度敏感,因此需要更复杂的工具。定义使用中性能评估的途径将很有用,例如最近为定量神经放射学提出的途径 [141]。值得注意的是,许多被审查的论文不包括任何具有临床背景的作者,并且用于训练模型的图像格式是 AI 研究社区 (PNG) 的典型格式,而不是放射学社区的格式(DICOM、NIfTI ).
深度CNN 的黑盒性质极大地限制了它们在研究环境之外的应用。为了信任由 CNN 模型提供支持的系统,临床医生需要知道他们如何做出预测。然而,在调查的文章中,很少有文章提到这个问题。 [142] 中的作者提出了一个原型部分网络(ProtoPNet),它可以突出用于决策的图像区域,并且可以通过将测试图像的代表性块与从图像中学习的原型进行比较来解释分类目标的推理过程大量的数据。迄今为止,一些研究已经测试了 [142] 中提出的解释模型,该模型能够突出显示用于医学成像领域决策的图像区域,例如肿块病变分类 [143]、肺部疾病检测 [144,145] 和阿尔茨海默氏症疾病分类 [146]。脑肿瘤分类领域的未来研究将需要测试可解释模型如何影响放射科医生或其他临床医生的态度和决策过程。
缺乏关于如何与 CADx 系统交互以及如何解释其结果以做出诊断决策的医生培训是一个单独但相关的技术挑战,它可能会降低 CADx 系统在实践中的性能,这在任何论文中都没有解决纳入审查。医生在研究过程中发挥更大的作用可能会在研究项目的相关性和对研究结果的接受度方面带来好处。
总而言之,基于 CNN 的脑肿瘤分类研究的未来非常有前途,并且参考上述挑战关注正确的方向将推动这些研究从研究实验室到医院。我们相信,我们的回顾为生物医学和机器学习社区的研究人员提供了用于此目的的未来有用方向的指标。
CADx 系统可能在协助医生做出决策方面发挥重要作用。本文调查了 83 篇采用 CNN 进行脑 MRI 分类的文章,分析了当今基于 CNN 的 CADx 脑肿瘤分类系统在临床应用和发展中面临的挑战和障碍。本研究详细分析了影响分类准确性的潜在因素。表 4b 的分析表明,CNN 技术和算法具有处理医学 MR 数据的强大能力。然而,目前已经发展起来的许多CNN分类模型在临床应用和发展方面仍然存在或多或少的不足。旨在适当解决此处提到的挑战的研究可以帮助推动 CNN 研究转化为脑肿瘤分类的临床实践。在这篇综述中,还讨论了一些性能下降因素及其解决方案,为生物医学和机器学习社区的研究人员提供开发用于脑肿瘤分类的优化 CADx 系统的指标。
统在实践中的性能,这在任何论文中都没有解决纳入审查。医生在研究过程中发挥更大的作用可能会在研究项目的相关性和对研究结果的接受度方面带来好处。
总而言之,基于 CNN 的脑肿瘤分类研究的未来非常有前途,并且参考上述挑战关注正确的方向将推动这些研究从研究实验室到医院。我们相信,我们的回顾为生物医学和机器学习社区的研究人员提供了用于此目的的未来有用方向的指标。
CADx 系统可能在协助医生做出决策方面发挥重要作用。本文调查了 83 篇采用 CNN 进行脑 MRI 分类的文章,分析了当今基于 CNN 的 CADx 脑肿瘤分类系统在临床应用和发展中面临的挑战和障碍。本研究详细分析了影响分类准确性的潜在因素。表 4b 的分析表明,CNN 技术和算法具有处理医学 MR 数据的强大能力。然而,目前已经发展起来的许多CNN分类模型在临床应用和发展方面仍然存在或多或少的不足。旨在适当解决此处提到的挑战的研究可以帮助推动 CNN 研究转化为脑肿瘤分类的临床实践。在这篇综述中,还讨论了一些性能下降因素及其解决方案,为生物医学和机器学习社区的研究人员提供开发用于脑肿瘤分类的优化 CADx 系统的指标。