影像组学是放射学领域的一个相对较新的词,意思是从医学图像中提取大量的定量特征。人工智能(AI)大体上被定义为一组先进的计算算法,可以对所提供的数据模式进行学习,以便对未知的数据集进行预测。由于与传统的统计方法相比,人工智能具有更好的处理海量数据的能力,因此可以将影像组学方法与人工智能结合起来。总之,这些领域的主要目的是提取和分析尽可能多和有意义的深层定量特征数据,以用于决策支持。如今,影像组学和人工智能都因其在各种放射学任务中取得的显著成功而备受关注,由于担心被人工智能机器取代,大多数放射科医生对此感到焦虑。考虑到计算能力和大数据集可用性的不断发展进步,未来临床实践中人与机器的结合似乎是不可避免的。因此,不管他们的感受如何,放射科医生都应该熟悉这些概念。我们在本文中的目标有三个方面:第一,让放射科医生熟悉影像组学和人工智能;第二,鼓励放射科医生参与这些不断发展的领域;第三,为未来方法的设计和评估提供一套良好实践建议。本文发表在Diagnostic and Interventional Radiology杂志。
影像组学是放射学领域的一个新词,源于“放射”(意为医学图像)和“组学”(意为基因组学和蛋白质组学)的结合,有助于我们理解各种医学状况的各种领域,如基因组学和蛋白质组学。影像组学只是从医学图像中提取大量特征。典型的影像组学特征分析包括尺寸、形状和纹理特征的评估,这些特征具有关于像素或体素分布有用的空间信息。这些影像组学特征进一步用于创建统计模型,旨在为各种器官和系统的个性化诊断和管理提供支持,如大脑(2,3)、垂体(4,5)、肺(6)、心脏(7)、肝(8)、肾(9-12)、肾上腺(13,14)和前列腺(15)。
人工智能(AI)是一组基于先进计算算法的系统,可以从大量数据中准确地进行推理学习(16)。就像人类一样,学习是机器智能行为的基本要求。因此,AI是包含不同学习算法的一般概念,即机器学习(ML)和最近非常流行的深度学习算法(图1)。尽管人工智能的概念可以追溯到20世纪50年代,但由于计算能力的进步(19-21),自2000年以来,人工智能的发展势头迅猛。如今,人工智能技术为智能数据分析提供了许多不可或缺的工具,用于解决一些医疗问题,特别是诊断问题(17、18、21-24)。
图1,人工智能(AI)相关概念的维恩图。人工智能是通过机器,特别是计算机系统模拟人类的智能过程,如学习、推理和自我修正。人工智能是一个广泛的概念,涵盖了许多机器学习技术,如k近邻、支持向量机、决策树和神经网络。神经网络包括各种算法,从非常简单到复杂的结构,如多层感知器和深度学习或卷积神经网络。
影像组学和人工智能之间的关系是相互的。由于其不断增长的高维特性,影像组学领域需要更强大的分析工具,人工智能凭借其强大的功能,似乎是实现这一目标的潜在候选者。另一方面,在医学图像分析中,人工智能应用不可避免地需要影像组学,因为用于训练和构建人工智能模型的指标是通过影像组学方法提供的,特别是特征提取和特征选择技术。
在这篇文章中,我们从一个相当实用的角度回顾了影像组学和人工智能。我们的目标有三个方面:第一,让放射科医生熟悉放射学和人工智能;第二,鼓励他们参与这些不断发展的领域;第三,为良好实践提供一套建议和技巧。
关键问题和解答
为什么我们需要用到影像组学?
在传统的放射学实践中,除了尺寸和体积等少数测量外,成像数据集通常通过视觉或定性的方式进行评估。这种方法不仅涉及观察者内和观察者之间的差异,而且在医学图像中留下大量未使用的深层隐藏数据。通过常见的临床情况中两名肿瘤患者的大小、形状、边界和异质性等具有不同的定性特征,可以解释医生对影像组学的需求。在这种情况下,患者的生存率可能会有所不同,即使肿瘤具有相似的组织病理学特征。如果在任何干预或治疗之前能够预测患者的预后,那么对患者的管理方法就会有所不同。这实际上被称为精准医学。在精准医学中,需要识别属于不同亚型的患者以获得更好的结果。可以认为,影像组学是实现这些目标的一种客观方法。无论使用常规或先进的成像技术,影像组学的主要目的是提取尽可能多和有意义的隐藏目标数据,以用于临床决策支持。
为什么我们要将人工智能引入到影像组学中?
与传统的统计方法相比,人工智能在影像组学中使用的主要原因是它具有更好的处理大量数据的能力。人工智能算法主要用于分类问题。这些算法基本上学习通过分析模式提供的数据,然后对未知的数据集进行预测,以评估这些模式是否正确。人工智能算法不仅能够分析预定义或人工提取的影像学特征,还能够直接分析图像,以便自动提取特征(17、27–30)。这种非常流行和先进的人工智能子集称为深度学习(28)。深度学习算法本身也能够执行分割任务,无需任何人工干预(31)。
作为一名放射科医生,有可能参与到影像组学流程中吗?
是的,这是完全可能的。集体工作极为重要,因为影像组学的工作流程涵盖了广泛的连续步骤,包括预处理、分割、特征提取和数据处理(1)。根据使用的软件,每个步骤可能需要大量的时间和工作量。作者认为,在医学影像学的任何一个分支领域中,至少有三种方法可以参与影像组学。
首先,最简单的方法是寻找付费软件。这些类型的软件很容易使用,因为提供商简化了几乎所有的影像组学流程。其中一些还可以为进一步分析提供一些统计工具。
第二,更难的方法是使用自由软件程序,通过图形用户界面(GUI)提取影像组学特征。最常用的手工特征提取软件程序是MaZda(32)、LIFEx(33)、PyRadiomics(34)和IBEX(35)。尽管作者鼓励放射科医生开始参与其中,但是对于这些软件程序,他们还强烈建议谨慎行事,因为这些程序中的流程没有很好地建立,并且有许多参数需要调整,例如建立离散化水平、标准化方法、重新采样以及从最终特征表中清除非放射性数据等。此外,还有一些软件程序,可以直接从神经网络层内的图像(如Nvidia的Digits软件)中使用GUI进行深度特征提取(https://developer. http://nvidia.com/digits)和 (https://deepcognition. ai/)。
第三,最难的方法是使用允许特征提取的编码软件,如果用户具有编码技能或至少熟悉编码,可以使用MATLAB和Python平台,它们有大量用于人工提取和深度特征提取的库。
作为一名放射科医生,有可能参与人工智能吗?
是的,这也是完全可能的。作者认为,作为一名放射科医生,至少有三种方式可以在没有正式数据或计算机科学基础的情况下参与人工智能。
首先,最简单的方法是找到或成为关于医学成像的数据科学合作的一部分。数据或计算机科学家需要有意义的临床观点来提供影像组学中人工智能未满足的需求。
其次,更难但不是最难的方法是获得一些传统的统计基础,并学习如何在不会编码的情况下使用数据挖掘软件程序来执行人工智能任务。有许多用于此目的的自由软件程序,如Waikato知识分析环境(WEKA)软件(36)、Orange数据挖掘软件(37)、RapidMiner(https://rapidminer. com/),Rattle in R statistics(38)和Deep learning studio(https://deepcognition. ai/)。所有这些软件程序都有一个GUI,可以轻松实现各种AI任务,包括非常简单到非常复杂的ML算法。此外,其中一些软件程序还可以选择与其他通用环境(例如Python和R)集成,以获得更高级的功能。作为放射科医生,作者建议首先从WEKA或Orange软件类程序,考虑到其界面的简单性和易用性。另一方面,应该记住,并不是每个软件都能够完成每项任务。例如,根据我们的个人经验,WEKA足以执行许多ML任务,但它的可视化能力有限且较差,除非它与其他环境集成。
第三,最困难的方法当然是从学习如何编码开始。虽然从零开始学习代码通常看起来很困难,也很令人畏惧,但有一些非常简单的语言可以开始,比如Python语言,它是一种面向对象的语言,语法直观易懂,与人类语言非常相似。学习Python语言为使用许多可用的AI库(如Google的TensorFlow)提供了各种机会,即使对于具有低级编程技能的用户也是如此。有大量的资源可以低成本学习编写实现AI代码,如书籍、网站和在线课程(如Coursera、Udemy、edX)。
考虑到人工智能的发展,放射科医生的未来会怎样?
正如在最近的世界范围的年度放射学会议(如北美放射学学会(RSNA)和欧洲放射学大会(ECR))上所看到的,整体主题明显转向了影像组学和人工智能,这比任何其他医学领域都要明显得多。影像组学和人工智能都因其在各种放射学任务中取得的显著成功而备受关注,由于担心被智能机器取代,大多数放射科医生对此感到焦虑。考虑到计算能力和大数据集可用性的不断发展进步,未来临床实践中人与机器的结合似乎是不可避免的。因此,不管他们的感觉如何,放射科医生都应该熟悉这些概念。作者认为,具有人工智能的影像组学组学在一定程度上可以帮助放射科医生完成或促进某些任务,减轻放射科医生的繁重工作量,这实际上将使放射科医生比以往任何时候都更加高效,因为他们有机会在实践中只处理更复杂的放射学问题。
影像组学工作流
为了给读者提供一个更广阔的视角,在对每个步骤进行详细回顾之前,图2中简单地给出了简单的影像组学流程示意图。
图2.传统和基于深度学习的影像组学示意图。
图像采集
影像组学可应用于各种成像技术,包括计算机断层扫描、磁共振成像(MRI)、正电子发射断层扫描、X射线和超声检查。目前使用的采集技术种类繁多。此外,不同的供应商提供不同的图像重建方法,根据需要在每个机构设置。这不仅是多机构规模的问题,也是同一机构的问题。尽管在视觉分析中通常被低估或忽略,但不同采集和图像处理技术的使用可能会对影像组学产生重大影响,因为这是一个像素或体素水平的过程,可能会影响图像噪声,进而影响纹理,可能反映不同的潜在病理学。这些差异还可能导致独立数据集中的影像学分析结果不一致,这是影像组学的主要问题之一。从现实的角度来看,我们应该承认,不可能将所有的图像采集协议统一起来。另一方面,我们的主要目标应该是找到最佳的技术方法,以创建最稳定和准确的影像组学模型,甚至适用于通过不同协议获得的图像。要做到这一点,必须考虑到每种成像方式各自的特点。
图像预处理
影像组学依赖于某些图像参数。在任何成像模态中需要处理的最重要的是像素或体素的大小(41)、灰度级的数量(41)和灰度值的范围(42)。此外,MRI应消除信号强度不均匀性(43,44)。有许多方法可以处理这些依赖关系。对于灰度值的标准化,±3sigma标准化是最广泛使用的方法(45)。像素重采样可以使用各种插值方法来完成,例如线性插值和三次样条插值(46)。不同的软件程序提供不同的离散化方法,例如,固定箱大小和固定箱数量。N3和N4偏置场校正算法是广泛采用的避免信号强度不均匀性的技术(44)。尽管这些预处理步骤中的一些已包含在放射科软件程序中,但应该知道,许多用户友好的开源工具可用于高级放射成像数据预处理,如ImageJ、MIPAV(医学图像处理、分析和可视化)和3DSlicer。
分割
分割被认为是影像组学中最关键的步骤,因为影像组学特征主要是从分割的区域或体积中提取的。由于某些肿瘤的边缘非常不清楚,因此分割过程具有挑战性。手工分割被认为是黄金标准,前提是它是由有经验的专家执行的,这非常耗时。另一方面,手动分割受读取器内和读取器间变化的影响,导致放射特征再现性问题。为了避免差异性,下面介绍几种自动和半自动的方法:主动轮廓(snake)方法(49)、水平集方法(50)、基于区域的方法(51)、基于图形的方法(52)和基于深度学习的方法(53)。尽管自动分割技术是客观的,但它们很容易出错,尤其是当图像存在伪影和噪声以及感兴趣的病变非常不均匀时。
特征提取
考虑到影像组学特征的定义,大多数特征不属于放射科医生词典的一部分。在这种情况下,应该记住,影像组学是一种无假设的方法。这意味着没有关于特征临床相关性的先验假设,这些特征由专家创建的图像分析算法自动计算。该方法的目的是使用这些不可知或非语义特征发现以前肉眼不可见的图像特征,并基于最具辨别力的特征进行分类,这也称为影像组学特征的发展。只要这些模型在独立的数据集上得到验证,影像组学就可能是一种有效的方法。总之,整个过程意味着,除了一些直方图或一阶特征外,如果试图在临床环境中定义每个影像组学特征,可能会导致失败。
有两类影像组学特征:第一个是预定义的或人工提取的特征,由图像处理专家创建。这些也被称为传统特征。表1列出了一些传统的影像组学特征(即预定义或人工提取的特征)。第二种是深度特征,它现在已经很流行了,因为一些深度学习算法在其提取层中为给定任务自行设计和选择特征,而不需要任何人为干预(28)。最近的一些研究也表明了深度特征相对于传统特征的优越性(54,55)。
表1,传统的影像组学特征示例
可以根据不同的图像类型提取影像组学特征,这有助于影像组学特征的高维性。常见的图像类型如图3所示。
图3,a-c:用于影像组学特征提取的不同图像类型:(a)原始图像;(b) 滤波图像;(c) 小波变换图像。
影像组学数据处理
数据预处理
在进一步分析使用AI算法获得的放射数据之前,需要对数据进行预处理。可能的数据预处理步骤如下:特征缩放、离散化、连续化、随机化、过采样、欠采样等。
考虑到它们对基于人工智能的分类性能的主要影响,作者建议在每项科学工作中至少需要考虑特征缩放和随机化。
影像组学特征值是在不同的尺度上产生的,这严重干扰了人工智能算法内部参数的稳定性,例如人工神经网络的权重和偏差。特征缩放意味着将数值更改为通用尺度,避免数值范围内的显著扭曲。特征缩放涉及两大类:规范化和标准化。处理方法的选择取决于人工智能算法对数据分布的假设,这些假设将用于进一步的分析。
另一方面,数据集的随机化是创建模型的另一个重要因素,因为ML算法的性能受初始值或种子因素的影响。如果在创建模型之前未预处理,数据集中的某些偏差可能会强烈影响结果。
类平衡是反映ML分类器实际性能的一个重要因素。在严重失衡的情况下,结果可能具有误导性。为了解决这个问题,可以使用过采样和欠采样技术。用于平衡类的常用和公认技术之一是合成少数过采样技术(SMOTE)(56),它从少数类创建新的和类似的实例,这些实例不是实际实例的精确复制。
降维
放射学方法通常会导致高维性,这意味着它们会产生大量需要处理的特征。通常的做法是将高维度降低到较低的水平,以优化分类器性能,这基本上被称为降维(57)。可以使用不同的方法进行降维,例如特征再现性分析(58)、共线性分析(9)、基于算法的特征选择(57、59)和聚类分析。
应进行特征再现性分析,以评估对变量敏感的特征,特别是需要人工干预的分割任务(10)。此外,如果可能,应扩展该分析,以评估不同采集协议的影响(60-62)。再现性分析的目标是通过排除再现性相对较差的特征来降低维度。这种分析最常用的统计工具之一是类内相关系数(ICC)(63)。
分析中需要考虑不同类型的ICC(63)。共线分析是另一种可行的降维方法,因为大量特征具有相似的信息,其程度称为共线强度(64)。皮尔逊相关系数可用于确定冗余特征,即共线特征。二元特征具有高共线性,与其他特征共线性最高的特征应排除在分析之外。值得注意的是,也有一些基于共线状态和与类的最大相关性选择特征的算法,例如,基于相关性的特征选择算法(59)。这些算法非常有用,因为它通过同时进行两种技术,即共线分析和特征选择,减少了降维的工作量。
最广泛使用的降维技术是基于算法的特征选择(57)。有各种具有不同功能的算法,如最小绝对收缩和选择算子(65)、基于相关性的特征选择算法(59)、ReliefF(66)和基尼指数(67)。研究人员应该对这些算法进行实验,以获得最佳结果。
降维中最令人困惑的问题是应该实现的功能的最终数量。虽然没有关于这方面的指导方针,但最好将特征的总数至少减少到标记数据总数的十分之一。然而,作者也认为,尽管应该尽可能减少特征的数量,但只要它们独立的外部数据在计算机上得到验证,具有令人满意的性能,就不应该成为主要问题。
基于AI的统计分析
AI训练之前的需求
在进行人工智能活动之前,有一些必须注意的事项:(i)一致的数据;(ii)数据的妥善整理;(iii)专家驱动的数据处理;以及(iv)有效的临床问题或AI需要回答的问题。
在基于AI的分析之前,样本量也是一个需要考虑的重要问题。尽管在文献中经常会遇到以AI或MLB为基础的研究,但放射科医生应该意识到,样本大小是避免模型拟合中出现一些问题(图4)和提高对未知数据的可推广性的一个重要因素。特别是对于像深度学习这样的非常复杂的算法,绝对需要大量的数据。尽管如此,在有限或小数据的情况下,应该知道也需要考虑一些众所周知的增强技术(例如,图像变换、合成少数过采样)。
图4。模型拟合示意图。
拟合不足(蓝色虚线)和拟合过度(绿色虚线)是要解决的常见问题,以创建对未知数据或新数据有用的最佳拟合(红色虚线)和可推广模型。欠拟合对应于在训练和测试数据方面表现不佳的模型。一般来说,不讨论拟合不足问题,因为这在性能指标的评估中很明显。另一方面,过度拟合是指模型在训练数据方面表现优异,但在测试数据方面表现非常差。在具有过拟合的模型中,该算法学习相关数据和噪声,这是导致过拟合的主要原因。实际上,所有数据集都有一定程度的噪声。然而,在小数据的情况下,噪声的影响可能更加明显。为了减少过度拟合,可能的步骤是扩大数据大小,使用数据增强技术,利用通用性好的架构,使用正则化技术(例如,L1-L2正则化和Drop out技术),并降低体系结构的复杂性或使用不太复杂的分类算法。黑色和橙色圆圈代表不同的类别。
人工智能的认知和训练被该领域的许多其他人低估了。与设计用于区分日常生活图像的人工智能系统相比,这项任务在医学领域要困难一些。非专业人员或外行无法为训练提供可靠的处理数据,因此需要专家,换句话说,需要优秀的放射科医生,特别是专门的放射科医生。
建模
可以使用各种算法进行模型构建。最常见的算法是:k-最近邻(图5)、朴素贝叶斯(图6)、逻辑回归(图7)、支持向量机(图8)、决策树(图9a)、随机森林(图9b)、神经网络和深度学习(图10)。这些算法还可以与元多分类器或集成技术(如自适应增强和引导聚合)相结合,以增强通用性(10)。此外,还有其他集成学习技术,它们由多个算法组成,特别是弱分类器,如k-最近邻、朴素贝叶斯和C4.5决策树算法(68)。虽然在文献中选择算法似乎是任意的,但最佳实践是通过多次实验选择算法。
图5,k-最近邻示意图。这种机器学习算法通过根据邻居的数量将未知对象或实例(蓝色三角形)分配给类的相似对象(橙色和黑色圆圈)来对其进行分类;
图6。概率空间中朴素贝叶斯示意图。朴素贝叶斯是一种概率机器学习算法,它简单地基于预测变量(或特征)之间的强(朴素)独立性。此外,该算法假设所有特征对结果或类别预测的贡献相等;
图7,逻辑回归的示意图。尽管logistic回归存在许多应用,但该算法只是使用logistic函数将实例分类为二进制类。
图8。支持向量机的示意图。简单地说,该算法将原始数据(左图)转换到不同的空间(右图),以生成分隔类的最佳平面或向量(红线)。
图9,决策树和随机森林的示意图。在面板(a)中,决策树简单地创建实例分类中最准确和简单的决策点,为人类提供最可解释的模型;x、 z和w表示特征。在图(b)中,为了提高分类的稳定性和泛化性,可以使用各种方法对决策树算法进行多次迭代。其中一个著名的例子是随机森林分类器。
图10,人工神经网络的示意图。
神经网络是受生物神经元结构启发的神经元或节点的多层网络。由于计算限制,早期的神经网络只有很少的节点层,通常少于5层。今天,可以创建具有许多层的有用的神经网络结构。深度学习或深度神经网络通常对应于具有20–25个隐藏层的网络。由于卷积神经网络(CNN)在图像分析中的广泛应用,存在着多种深度学习结构。在CNN中,使用小尺寸的过滤器或内核直接扫描图像输入,在某些层(如卷积层)内创建变换图像。卷积和池化(或下采样)层是CNN体系结构中的重要结构,提供图像的最佳和最重要的特征(如边缘)。深度学习体系结构还有许多重要部分,如激活函数(例如,校正线性单元[ReLU]、sigmoid函数、softmax)、正则化等等。目前,还没有为给定的分类问题确定正确层数和类型的公式。因此,通过试错过程创建最佳体系结构。另一方面,一些以前被证明有效的体系结构及其衍生方法也被广泛用于类似的任务,如用于图像分割的U-Net。
验证
如今,影像组学被认为仅仅是一个研究领域。为了在临床领域被接受,需要使用独立的数据集对结果进行验证,最好使用来自不同机构的数据(1,69)。因此,最有价值的模型验证方法被认为是独立的外部验证。然而,在小规模试点或初步工作中,并不总是能够获得此类独立的验证数据。在这种情况下,可以使用内部验证技术。文献中最常见的内部验证技术是k-fold、留一交叉验证。此外还有许多较为复杂的技术,如随机子抽样、引导交叉验证和嵌套交叉验证。广泛使用的验证技术在图11简单呈现。交叉验证技术的选择主要取决于软件执行者的需求和能力以及所用硬件的规格。内部验证中必须考虑的最重要的问题是:特征选择算法可能在整个数据中的过分筛选,这可能导致过于乐观的结果。对于创建这种未知的数据集,尽管留出法交叉验证技术似乎是最合适的内部验证方法,但也有嵌套交叉验证技术主要用于此目的,并可能对独立验证给出类似的估计(70)。
图11,交叉验证方法示意图。
在k-折叠交叉验证中,数据集被系统地拆分为k个折叠数,验证部分没有重叠。
在留一交叉验证中,数据集被系统地划分为N份,N等于标记数据集的数量,验证部分没有重叠。
在bootstrap验证中,对整个数据进行采样,以创建未知数据的验证部分,这些部分在训练数据集中填充或替换为类似的标记数据。
在随机子抽样中,对数据集进行多次随机抽样,以创建在不同实验中可能存在重叠的验证部分。
在嵌套交叉验证中,内部循环用于特征选择和模型优化;外部循环用于模型验证,以模拟独立的过程。在hold-out方法中,使用随机抽样创建单个分割。
在独立验证中,验证部分对应于完全不同的数据集,最好是外部数据集。除bootstrap验证外,黑色和红色圆圈分别表示训练和验证数据集。
性能评估
分类的性能评估通常使用受试者工作特性曲线(AUC)下的面积进行(39)。应该记住,如果数据集存在类不平衡,AUC可能是一个糟糕的性能评估器。因此,应提供其他性能指标,如总精度、敏感性、特异性、准确率、召回率、F1度量和马修斯相关系数等,以供进一步评估。
人工智能算法验证性能的比较可以通过传统的统计方法完成(71)。根据方法的假设和分类器的数量,比较常用的统计工具是t检验、Wilcoxon秩和检验、方差分析、Friedman检验等。在多重比较中,需要解决多重性问题。通常选择性能最佳且稳定的分类器用于感兴趣的临床应用。
建议
影像组学和人工智能是一个广阔的领域,有着广泛的不同的方法学。这种多样性导致在许多步骤上缺乏共识,这是一个需要在不久的将来克服的挑战。在表2中,作者建议在未来基于人工智能的放射工作中使用的至少需要考虑的关键特征清单。虽然不可能在综述文章中涵盖影像组学和人工智能的所有方面,但我们相信本文中包含的关键论点将有助于研究人员、评论家和影像组学的未来。
表2,人工智能影像组学研究中需要考虑的关键特征清单