心脏成像在心血管疾病(CVD)的诊断中起着重要作用。但到目前为止,它的作用仅限于对心脏结构和功能的观察和定量评估。然而,随着大数据和机器学习的出现,人工智能方法的出现将直接帮助临床医生诊断CVD。本文全面回顾了这一领域的最新研究成果,并为读者提供了机器学习方法的详细介绍,这些方法可以被进一步利用,以实现大多数心血管疾病的更自动化、更精确的早期诊断。本文发表在Frontiers in Cardiovascular Medicine杂志。
尽管在诊断和治疗方面取得了重大进展,心血管疾病(CVD)仍然是全世界发病率和死亡率的最常见原因,约占每年死亡人数的三分之一(1,2)。早期准确的诊断是改善CVD预后的关键。心血管成像在诊断决策中具有关键作用。目前的图像分析技术主要依赖于图像的定性视觉评估和心脏结构和功能的粗略定量测量。为了优化心脏成像的诊断价值,需要更先进的图像分析技术,以便对成像表型进行更深入的量化。近年来,大数据的发展和高计算能力的可用性推动了人工智能(AI)技术在医学成像领域的指数级发展(图1)。基于图像诊断的机器学习(ML)方法依赖于算法/模型,这些算法/模型能够通过识别隐藏和复杂的成像模式从过去的临床案例中学习。现有的研究已经证明了基于图像的心血管疾病诊断在许多重要情况下的增量价值,如冠状动脉疾病(CAD)和心力衰竭(HF)。人工智能图像分析诊断的优越性能有可能通过促进更快、更准确的诊断决策,大大减轻心血管疾病的负担。
图1,每年关于机器学习和心脏成像的出版物数量。
这表明了未来研究的上升趋势。浅绿色条表示2019年末预计出版的出版物数量。
在本文中,我们对设计、实现和验证基于图像诊断的新的ML方法和流程进行综述。我们还对现有文献进行了全面回顾,这些文献涉及ML在基于图像的CVD诊断中的应用。
2. 基于图像的机器学习诊断流程综述
构建基于图像的心脏诊断的ML工具的整个流程在下一节以及图2中进行了示意性描述。简而言之,它需要(1)输入成像数据集,从中可以提取合适的成像预测值,(2)准确的输出诊断标签,以及(3)基于成像预测心脏诊断从而选择和优化合适的ML方法。其他非成像预测因子(例如心电图数据、遗传数据、性别或年龄)通常被集成到ML模型中,通常会提高模型性能。
图2,构建基于图像的机器学习模型的示意图
在本节中,我们将首先详细地讨论输入和输出变量,然后介绍常用的ML技术及其应用。
2.1数据,输入和输出变量
2.1.1心血管成像数据来源
稳健的ML模型取决于足够且准确的数据的可用性。因此,数据准备是获得在内部和外部验证中表现良好的重要先决条件。在心脏成像领域,通过各种生物库、生物源和注册中心,有组织的大数据的高质量来源的数据可用性不断增加。可用队列可分为基于人群的队列和临床队列。英国生物银行(UK Biobank)等人群队列跟踪普通人群中具有代表性的个体样本的健康状况,因此对风险分层特别有用。相比之下,临床队列,如Barts生物源或欧洲心血管磁共振(EuroCMR)注册中心,由患者的临床成像组成,因此更适合构建诊断工具。这些数据集是开发和验证ML诊断模型的宝贵资源(其他心脏成像数据集示例见表1)。
表1,可供选择的心脏成像数据集
2.1.2输入变量
在建立基于图像诊断评估的ML模型之前,有必要适当地定义成像输入。成像输入可以是原始成像数据(即,像素强度)、常规心脏指数(和其他转换的定量图像参数)或从图像中提取的影像组学特征。有关输入变量的更多信息,请参见图3和图4。
图3,文献综述中的输入变量类型分布。
如饼图所示,传统指数是训练ML模型的主要特征,其次是影像组学和深度学习技术。
图4,基于图像诊断的ML算法的常见输入和输出变量摘要。
不同的心脏成像输入特征,如原始数据、从ROI或影像组学中提取的常规指数(最后两个病例需要描绘心脏解剖结构)和期望输出。这两种结构形成了ML心脏成像应用的最基本要求,即数据。
不同的心脏成像输入特征,如原始数据、从ROI或影像组学中提取的常规指数(最后两个病例需要描绘心脏解剖结构)和期望输出。这两种结构形成了ML心脏成像应用的最基本要求,即数据。
2.1.2.1常规成像指标
常规成像指标包括常规临床图像分析中常用的测量值,如舒张末期/收缩末期的心室容积和心室射血分数。
这些临床指标的估计需要事先绘制相关心腔的心内膜和心外膜边界轮廓。深度学习方法已被用于开发自动/半自动轮廓工具,以实现更高效和可重复的心腔分割。
由于手动划定这些边界非常繁琐且容易出错,因此开发了许多自动或半自动工具(现有工具示例见表2)。注意,最近发表了许多基于深度学习(DL)的方法,用于精确、稳健地分割心脏边界,并取得了令人满意的结果。
表2,心脏结构和功能分析软件的选择。
接下来列出最近的一些研究,以说明如何使用传统的成像指数作为ML诊断模型的输入。在Khened等人中,建立了一个人工神经网络(ANN)来自动诊断几种心脏疾病,如:肥厚型心肌病(HCM)、心肌梗死(MI)和异常RV(ARV),使用LV和RV射血分数、右心室(RV)和左心室(LV)容积、收缩期和舒张末期、心肌质量以及患者的身高和体重作为输入。在Chen等人中,作者综合了临床数据中的32个变量,包括射血分数、血压、性别、年龄以及其他常规风险因素,以诊断扩张型心肌病(DCM)。Juarez-Orozco等人将静息和应激时的射血分数与一组临床参数相结合,使用最大似然法预测缺血和不良心血管事件。
关于运动、应变和单强度分析,Mantilla等人提取了全局时空图像特征,基于支持向量机(SVM)分类器评估左室壁运动。SPECT灌注研究中的成对单一强度和方差区域差异模拟了Bagher-Ebadian等人中定性比较应激和静息图像的临床过程。在Moreno等人(9)和Zheng等人(10)中,收缩力差异和多尺度室壁运动评估是通过表观血流进行的,其中每个特征都描述了心脏ROI上给定位置的定向速度。
2.1.2.2 影像组学特征
影像组学分析是将数字图像转换为可获取数据的过程。通过应用各种统计和数学过程对数据进行分析,可以量化图像的各种形状和纹理特征,称为影像组学特征(表3)。影像组学分析量化了比视觉上更先进、更复杂的心腔特征。与临床成像指标类似,影像组学要求在提取特征之前勾画心脏结构。
表3,影像组学特征概述
影像组学于2012年引入,很长一段时间以来,它主要用于肿瘤学。最近,许多研究表明,影像组学与ML相结合有望用于CVD的图像辅助诊断。例如,Cetin等人证明,一个ML模型中集成的大约10个影像组学特征足以区分几种主要CVD。最近,哈佛大学(Harvard University)的研究人员Neisius等人建立了一个ML模型,该模型具有6个通过T1-mapping计算得出的影像组学特征区分高血压性心脏病(HHD)和肥厚性心肌病(HCM)。
2.1.2.3 原始图像特征
整个原始图像也可以用作ML模型的输入,无需对手工输入的图像特征进行任何预处理或计算。大约10%的已发布研究依赖于这种类型的建模。在这种情况下,预测心脏诊断的最佳特征由基于训练样本的ML技术自动学习,而不是人工智能专家家的先验定义。
为了便于说明,值得一提的是Betancur等人的工作,这是一个端到端的DL模型,在不提前从成像数据中对输入冠状动脉区域进行任何假设细分的情况下,估计每支血管的CAD(冠状动脉疾病)概率。Wolterink等人(17)建立了一个冠状动脉钙化(CAC)检测器,也基于原始CT图像上训练的深度学习模型。Lu等人(18)证明了直接从原始回波图像构建的类似DL模型,用于识别扩张型心肌病病例。Kusunose等人(19)也根据原始回波图像建立了一个DL模型,用于自动检测局部室壁运动异常。
2.1.3 输出
ML算法可以使用有监督或无监督学习方法开发。监督学习需要准确标注训练样本。在最简单的形式中,输出是一个二进制变量,患病个体的值为1,对照健康个体的值为0。为了获得稳健的ML模型,建议使用平衡的训练样本,包括相似数量的健康和疾病受试者。请注意,如果要在ML模型中包含多个疾病或疾病阶段,二元分类可以很容易地扩展到多类情况。因此,有监督的学习算法将输入变量与标记的输出联系起来。无监督学习是在不定义输出的情况下对算法进行训练。通过这种技术,ML算法通过识别数据中的固有模式对样本进行分组。一般来说,监督学习优于无监督学习,因此在已知基本事实的情况下,监督学习是首选方法。然而,无监督学习对于发现新的疾病亚型和患者分层(例如高血压性心脏病或CAD的不同表型组)具有独特的价值。
2.2 机器学习方法
ML指的是使用计算机算法,该算法能够从示例数据中学习执行给定任务,而无需明确编程的指令。人工智能领域使用先进的统计技术从训练数据中学习预测或判别模式,以便对新数据进行最准确的预测。我们将介绍心脏成像和诊断领域最常用的ML技术,并讨论其优缺点(更多信息见表4和图5)。每种方法的诊断应用列表将作为示例提供。
图5,机器学习方法分布
表4,机器学习方法概述
2.2.1 logistic 回归
与二元分类器相比,逻辑回归(LR)模型用于基于连续输入变量估计给定输出的概率。最终的概率加起来是一,所以我们可以将所有可能的结果和每个结果的概率进行分层。该模型的一个特点是,输入值的微小变化可能会对最终概率预测产生不成比例的影响,如图6A所示。此外,输入向量维度(预测变量的数量)必须保持较低,因为这可能会导致复杂的模型训练过程,并可能导致模型过度拟合,从而导致模型的通用性较差。因此,在处理大量输入变量时,采用了诸如主成分分析(PCA)或线性判别分析(LDA)等降维算法,将预测值的数量减少到信息量最大的数量。当不同的数据源必须集成到一个二进制分类任务中并且需要低复杂度时,LR是一个有价值的模型。在文献中,有几个研究将LRs应用,例如:Zheng等人(10)利用从MRI中提取的形状特征,应用LR模型,根据心脏病理对患者进行分类。因此,他们得到了一个简单且易于解释的模型,每个分类器只有三个输入特征。在另一个例子中,Arsanjani等人(20)使用了一种结合LR改进的分类器,使用SPECT图像诊断梗阻性CAD(冠状动脉疾病)。最后,Baeßler等人(21)也应用LR模型诊断急性或慢性心力衰竭,如心肌炎。
2.2.2 支持向量机
支持向量机(SVM)是有监督的ML模型,通过该模型可以确定将数据分为两类或更多类的最佳线性或非线性边界,如图6B所示。在应用支持向量机之前,应选择用于分离数据的函数,即所谓的核函数。最常用的是线性核或高斯核。SVM模型的剩余参数是通过训练一组模型并保持模型的设置,以最小的误差经验选择的。由于该模型对非判别维数不敏感,因此可以对输入变量进行降维,以简化训练并获得与线性回归更好的泛化。支持向量机的一个主要缺点是,当处理大量数据时,需要占用大量的内存。支持向量机是识别输入数据中非线性和稀疏性的良好选择:可以使用不同的核来拟合不同的分布。
在本文介绍的所有最大似然方法中,支持向量机是最常用的方法之一,一些研究发现该模型可以获得最佳性能。例如,Conforti和Guido(22)给出了不同核函数(多项式、高斯函数和拉普拉斯函数)、原始105个特征和经过特征选择的25个特征构建的SVM模型的比较,作为心肌梗死早期诊断的输入。类似地,Arsanjani等人(23)和Ciecholewski(24)发现,通过使用从SPECT图像中提取的数据,支持向量机模型优于之前用于CAD识别任务的算法。在第一个例子中,使用二次多项式作为核函数,而在第二个例子中,高斯函数表现出更好的性能。如Berikol等人(25)所示,当使用组织学、ECG和回声定性特征预测228名患者的急性冠状动脉综合征时,SVM也是最佳模型。最后一个例子是,Borkar和Annadate(26)使用影像组学特征和使用高斯核函数的支持向量机,在区分DCM(扩张型心肌病)和房间隔缺损(ASD)患者方面获得了非常好的准确性。
2.2.3决策树
这种方法包括在训练集的不同随机样本上训练的决策树(DTs)的组合,如图6C所示。每个DT都是基于输入特征值的,这些特征值经过优化,可以准确地对训练集的所有元素进行分类。DTs是非线性模型,往往具有高方差。如果决策树模型分支增长得很深,它可能会发现训练数据集中的不规则性,因此可能会遇到过度拟合的问题。在随机森林中,通过对训练数据集的不同样本进行训练,可以解决这个问题。通过这种方式,随着使用的DT数量的增加,方差减小,从而降低了泛化误差,并成为一种强大的技术。通过选择所有预测的模式(针对分类问题)或平均值(针对回归问题)来获得最终预测。这些模型必须选择两个参数:DTs的数量和每个DT的深度级别(即决策的数量)。然而,我们必须记住,虽然随着DT深度的增加,训练数据集上的判别能力会增加,但这通常是以失去泛化能力为代价的。选择RFs是为了将问题转换为一组以DTs表示的分级判别。然而,RFs对噪音的抵抗力不是很强。
在文献中,RF或DT被频繁使用,并在一些作品中被选为性能最佳的模型。Moreno等人(9)使用心脏MRI中的光流特征,基于二元分类任务中的SVM和RF模型以2964个不同心脏病理(如HF或HCM)作为输入特征进行了比较,后者在大多数情况下获得了最佳性能。在这种情况下,RF模型中的每个DT都有两个深度级别,用于临床实践中的快速预测。在另一个例子中,Wong等人(27)通过区域强度分析和运动建模,RF在梗死检测方面优于SVM。作为最后一个例子,Baeßler等人(28)也使用RF在HCM和正常患者分类的T1加权心脏MRI纹理分析中找到了最具辨别力的特征。
2.2.4聚类
聚类分析根据从输入变量(图像参数和\或临床信息)中提取的定量数据给出的参数空间中的相似性或接近性,以数据点的形式将受试者分组,如图6D所示。这项技术对于患者分层非常有用,因为根据现有的图像分析技术,具有明显相似病理学的患者可能属于之前未被识别的亚组,这可能有助于了解疾病病理生理学,并有助于更有效的靶向治疗。在分类任务中,一种非常常见的有监督聚类策略是k-最近邻(kNN)聚类,其中k是查找子组时要查看的相邻特征的数量。在这种情况下,周围被诊断的受试者将决定新患者的结局。大多数关于聚类的文献都使用kNN。
其他研究报告使用不同的聚类分析对心脏表型进行分类和/或发现。例如,Bruse等人(31)使用分层聚类技术,通过使用心脏MRI的形状特征,将60名患者分为三组,一组为健康组,两组为先天性心脏病组。Wojnarski等人(32)也使用了采用聚类分析技术,利用CT数据对二叶主动脉瓣患者进行分组,以发现三种表型,随后应用RF(随机森林),利用超声和临床数据确定这些表型的生物标志物差异。
2.2.5人工神经网络
人工神经网络受生物神经网络的结构和相互作用的影响。这些模型通过不同层中的内部节点以分层方式传播输入数据。每个输入行都有相应的权重,必须在训练过程中进行估计和迭代调整。ANN进行调整,直到确定给出最佳模型性能的权重(图6E)。在每个节点中应用一个非线性函数来计算连接的权重,以获得其净输入函数。权重优化使模型对复杂的边界分离类具有很强的适应性,因为此类模型中涉及的特征具有高度非线性组合。此外,ANN中各层之间的连接可用于根据应用设计不同的网络。需要注意的是,缺乏确定每层中的层或节点数量的基础理论,这取决于每个问题和训练数据的数量,以及模型和训练样本的参数/权重数量之间的巨大差异,这些模型适应训练集的趋势。当有大量数据可用时,人工神经网络是最佳选择。
在文献中,这些技术被频繁应用。例如,Tsai等人(33)利用从超声中提取的特征,使用人工神经网络检测HCM(肥厚型心肌病)和DCM(扩张型心肌病)患者。最近,Nakajima等人(34,35)的两项研究利用同一SPECT数据集和1001例病例,使用人工神经网络,使用从压力和休息图像中提取的特征,以较高的精度评估CAD(冠状动脉疾病)。
图6,机器学习方法汇总。
(A) 逻辑回归用于模拟二元结果的概率。在图中,Y轴代表概率,而X轴是连续输入变量。请注意,X的微小变化会产生最终概率Y的较大变化,主要是在图的中心部分,模型的不确定性较大。该模型可以推广到多类问题。
(B) 支持向量机模型能够使用核技巧将非线性边界转换为线性边界。在训练过程中,类与最终选定边界之间的距离最大化。
(C) 随机森林是一种结合决策树的技术,用于减少最终预测中的不确定性。它基于递归二进制分割策略,上层节点是最有区别的节点,后续分支应用于相关性较低的变量。
(D) 聚类是一种能够沿着数据找到子组(聚类)的技术。有不同的聚类技术,一些需要预先的聚类数(kMeans),一些可以与输出信息(kNN)一起使用,另一些完全无监督(meanShift)。
(E) 人工神经网络能够通过传播结构化数据(绿色节点输入变量),例如影像组学,通过隐藏层(蓝色节点)获得输出(橙色节点),从而模拟输入变量和结果之间的复杂非线性关系。
(F) 卷积神经网络是深度学习应用的支柱。它们由多个隐藏层分隔的输入层和输出层组成。它们分层传播成像信息和提取数据驱动特征的能力意味着自动检测中间层内的相关心脏成像生物标志物。
2.2.6卷积神经网络
CNN是ANN的扩展,其中给定层中节点的值通过称为卷积的操作受到前一层中节点的影响。这些模型是专门为图像处理设计的,其中节点(像素)的空间信息对于最终预测至关重要。和ANN具有相同的优点和缺点。如今,这些模型非常流行的主要区别在于,图像是作为输入提供的,没有任何特征提取。如图6F所示,这些模型能够为最终预测提取自己有意义的特征。
用于将图像压缩到低维表示空间的其他模型,例如可变自动编码器(VAE)和生成性对抗网络(GANs),在这些模型中,可以更容易地进行其他分析(例如,使用SVM模型进行聚类或分类)。
应该采取平衡的方法来定义CNN的层次;虽然更深层次的网络会随着每一层的增加而从原始图像中丢失信息,但只有几层的网络可能会在为最终预测提取有意义的特征时遇到问题。CNN被广泛用于图像分析,其在心脏成像中的应用在许多研究中均有报道。Wolterink等人(17)提出了一个框架,其中两个级联CNN能够使用心脏CT血管造影(CTA)图像检测CAC。他们的模型有8-13个卷积层,将200×200个特征(像素强度)减少到只有32个。Zhang等人(36)使用13层CNN从224x224大小的超声图像中诊断HCM、心脏淀粉样变性和肺动脉高压,这些图像缩小到4096个特征。Madani等人(37)使用CNN模型从大小为120×160的回声图像预测左心室肥厚。
2.2.7附加步骤
2.2.7.1标准化
由于心脏医学中不同信息源的多样性,在制作模型之前通常需要一个标准化步骤。一般来说,算法受益于数据集的标准化,例如,如果所有数值特征都以零为中心,并且具有相同数量级的方差,那么SVM等一些算法将改善心血管预测。此外,一些非线性变换可以准备选定的特征,以创建对异常值更鲁棒的模型。表5中提到了一些最常见的技术。
表5,常规的规范化技术
为了便于说明,Wong等人表明,特征规范化对ML模型的性能有积极影响。此外,分类变量应该使用整数编码,即使用整数引用每个可能的分类值,或者使用独热编码(One-Hot encoding,),将每个可能的分类值视为一个新的二进制变量。
2.2.7.2 特征选择和降维
通常,从不同来源(如人口统计学和临床数据、常规指数和成像参数)提取特征后,最终会得到定义单个患者的数千个值。这些信息后来会在ML模型的训练过程中得到应用,但大量输入参数与有限样本数的组合(在医学领域通常会发生这种情况)会使优化问题变得复杂,并可能限制我们模型的泛化能力。因此,通常对输入数据应用降维算法,例如主成分分析(PCA)或线性判别分析(LDA)。还有将为正在训练的特定模型实例依次添加最具识别性的特征,并消除冗余和非信息性的特征。
例如,Tabassian等人(29)旨在分析120名患者超声心动图记录中的左室变形曲线。通过主成分分析对得到的应变曲线进行了简化,并将结果用于训练应变kNN模型。结果准确率为0.87,显著高于临床医生的结果0.7。与常规指标(AUC=0.62)相比,所选影像组学(AUC=0.76)的预测能力显著提高。
2.2.8 验证
为了证明ML应用于心脏成像的有效性,必须从两个角度分析结果:统计有效性,考虑不同队列的再现性和获得的统计值的正确性(即指标),以及内部有效性,考虑算法的临床和实际影响(即临床有效性)。这是一种成对共存;如果双方没有达成一致意见,任何ML心脏成像算法都不会应用于临床常规。以下小节将描述如何考虑指标和临床有效性。
为了保证算法的有效性,整个心脏成像数据集应分为3个不同的子组,分别称为:训练集、验证集和测试集。这些群体的选择方式通常是子群体共享人口分布,如年龄或性别。当然,控制对象和病理对象的均衡分布也是必需的。一旦ML模型经过训练和测试,就会获得不同的指标来评估其性能。
准确度衡量算法正确分类输入数据的百分比。如果不存在类别不平衡(即一个类别代表的数量高于其他类别),这是在多个科学情境中使用的一种简单测量方法。使用准确度作为衡量标准的缺点之一是,在测量假阳性和假阴性观察值时,存在偏差。因此,特异性(Sp)和敏感性(Se)被广泛用于衡量算法的性能,这一次考虑到了可能的类不平衡。为了评估算法的性能并了解哪里可能存在未分类问题,使用了一个名为混淆矩阵的表格报告。这种特定的表格布局通常用于描述监督学习模型的性能。矩阵的每一行表示预测类中的实例,而每一列表示实际类中的实例(反之亦然)。从灵敏度、特异性和混淆矩阵中,我们可以提取一个性能图表示,称为受试者工作特征曲线(ROC)曲线。它是通过绘制各种阈值设置下的真阳性率(TP率)和假阳性率(FP率)来创建的。在ML中,真阳性率也称为灵敏度、召回或检测概率。ROC分析与诊断决策的成本效益分析有着直接而自然的联系。ROC曲线下的面积(AUC)是用来衡量算法性能的另一个指标。
值得注意的是,AUC可以从ML模型获得的决策边界中计算,尽管它是用离散输出进行训练的。当一个经过训练的模型被要求做出预测时,可以计算出一个概率,并用于生成ROC分析。
3 诊断应用-文献综述
我们对两个电子数据库(Google Scholar,Scopus)进行了有组织的预定义文献搜索。我们纳入了使用:超声心动图、心脏磁共振、心脏计算机断层扫描或单光子发射计算机断层扫描(SPECT)进行心脏图像分析的ML技术的研究。我们的搜索方法包括一系列标题和全文搜索,搜索词使用布尔运算符组合。搜索结果按主题区域过滤,仅限于心脏病学、计算机科学和工程领域的条目。我们详细回顾了基于图像的最大似然法诊断多种心脏疾病的各种成果。关于进行的文献综述的统计数据如图7所示。
图7,使用机器学习的基于图像的诊断应用的分布(A)每种疾病,(B)每种模态。
3.1 心肌梗塞
准确及时地识别心肌梗死有助于指导治疗策略,减少进一步检测所需的时间。虽然使用成像技术进行心肌梗死诊断评估容易出现观察者之间和观察者内部的差异,需要大量专家的时间,但ML方法提供了结合常规评估简化、加速和量化诊断过程的机会。例如,Nakada等人(39)证明,可以使用定量运动特征作为ANN的输入,在超声图像中实现心肌梗死诊断,避免观察者之间的人类变异性,达到0.95的准确度。后来,Ungru等人(40)通过在健康样本中诱导心肌梗死(预测准确度为0.91)并比较几种ML技术,在小鼠模型中验证了这些结果。阿加尼等人(41)在第一次纹理分析工作中获得了相同的准确度,只有17名受试者和一种聚类方法。这项超声心动图研究后来被Sudarshan等人扩展为一个完整的纹理特征库和160名受试者(42)。在这项工作中,对DT、ANN和SVM模型进行了基准测试,使用ANN获得了最佳精度:0.94(Se=0.91,Sp=0.97)。Vidya等人(43)还对800名受试者进行了深入的纹理分析,使用SVM获得了0.99的准确度。在他们的研究中,使用了不同的预处理技术来增强心脏图像。
心脏磁共振成像在心肌梗死的诊断中具有特殊价值。自2017年以来,共有13项研究整合了这种成像方式的输入变量。Baeßler等人(44)使用晚期钆增强MRI作为慢性和亚急性心肌梗死非增强MRI鉴别的标准参考。在180名患者队列中,结合LR的放射特征得出AUC为0.92。类似地,正如Larroza等人(45)所建议的那样,也可以使用影像组学在电影MRI上检测片段存活率。活节段、非活节段和远端节段的AUC为0.84。然而,我们认为,这些结果应该通过更大的群体和平衡的生存能力分布来验证。最近,Zhang等人(46)试图从非增强MRI图像中检测心肌梗死。212名慢性心肌梗死患者和87名健康对照患者被用于训练三级DL网络。检测慢性心肌梗死的每段AUC为0.94(Sp=0.99,Se=0.9)。在心脏CT中进行了两项连续的最先进的纹理分析研究:Mannil等人(47)和Mannil等人。前者强调了基于放射科医生眼睛看不见的特征在非对比低辐射剂量CT图像上检测心肌梗死的能力,获得了0.78的AUC。后一项研究评估了使用不同迭代重建(IR)强度的自动分类方法对对比度增强图像的影响,ML模型的准确度为0.94(IR 3)和0.97(IR 5),而三个独立审阅专家医生的平均准确度为0.73(IR 5)。MI(心肌梗死)研究总结见表6。
表6,基于图像的ML分析诊断心肌梗死的研究。
3.2 心肌病
心肌病是一个描述各种心肌疾病的宽泛术语,第一级亚类分为缺血性心肌病和非缺血性心肌病。这种异质性疾病有许多原因、体征和症状,需要不同的治疗。区分不同心肌病的挑战在于,许多心肌病可能与不同的表现有关。每个疾病实体都与典型的影像学表型相关。虽然在常规图像分析中,并不总是能够区分单个心肌病,但在ML模型中,通过更精细和定量的图像分析方法,这一点可能会得到改善。这些前提使得基于ML的成像诊断成为计算机辅助分析异质性心肌病的完美工具。例如,Gopalakrishnan等人(49)使用了一组来自83名受试者的儿科心脏MRI队列的常规指标来描述五种不同的心肌病。在本研究中,DT(AUC=0.79)与其他ML方法(AUC=0.73–0.77)进行了比较。Narula等人(50)使用一组模型,以2D echo的常规指数作为输入(Se=0.96,Sp=0.77),对HCM重塑的生理和病理模式进行了表征。2017年,Bernard等人组织了一次相关挑战。心脏自动诊断挑战赛(ACDC)旨在评估临床专家提供的150名受试者分为5类(健康、HCM、DCM、ARV和MI)的不同自动方法的性能。针对这个问题提出了几种方法。Khened等人(4)和Wolterink等人(52)使用从他们自己的自动描绘中提取的一组常规指数作为RF的输入,以在测试集上分别获得0.96和0.86的精度。Isensee等人(53)还使用RF和他们自己的分割方案对心动周期动力学特征进行分类,准确度为0.92。从这项研究中,增加时间分析的益处是显著的,并为未来电影MRI研究提供了进一步开发的有力论据。Cetin等人(14)使用SVM从手动分割中对完整的影像特征库进行分类,也获得了0.92的准确度。后来,使用同一数据集进行了额外的研究。Snauw等人(54)提出了一种新的方法,使用CNN表示来区分这五个类别,获得了0.78的适度准确度。Biffi等人(55)采用了另一种有趣的方法。他们的V-AE结构由两个多中心队列(537名和200名患者)进行训练,并在他们自己的数据集和ACDC数据集上进行测试,获得的准确度分别为1.0和0.9。
后来,Puyol Antón等人(56)结合MRI和超声数据以及每节段运动分析,通过LDA诊断扩张型心肌病,其准确度为0.94(Sp=0.96,Se=0.93)。在第一项工作中,完整的应变分析和LR的精度达到了0.67(Sp=0.64,Se=0.68)。第二种方法对T1-mapping进行了详尽的纹理分析。选择6个放射纹理特征和线性支持向量机模型显示,精确度提高了0.86(Sp=0.91,Se=0.77)。心肌病研究总结见表7。
表7,基于图像的ML分析诊断各种心肌病的研究。
3. 3 冠状动脉疾病
无创影像学检查对冠心病的诊断有着巨大的潜在影响。如果缺血很有可能被排除,就可以避免有创冠状动脉造影(ICA)。先进的ML图像分析技术可以提高心肌缺血的诊断准确性,并通过这一技术改进CAD诊断。
1999年的第一个方法显示了有希望的结果。Kukar等人(58)将ICA作为参考标准,使用闪烁扫描、ECG和327名患者的症状数据来检测CAD。对不同的ML模型和特征选择进行了测试,在某些情况下,ML模型在准确性(分别为0.92和0.91)方面优于临床医生,但在敏感性方面没有。Kurgan等人(59)的方法为灌注SPECT的半自动诊断方法奠定了基础。在他们的工作中,利用基于强度的特征的267名受试者构建DT模型,总体准确度为0.8。Bagher-Ebadian等人在灌注SPECT(n=115)和平衡放射性核素心血管造影(n=58)方面进行了另一项类似的研究。使用ICA作为两项研究的评估标准,使用从前、左前斜和左外侧的刺激和静息研究中提取的均值和方差强度特征评估CAD,使用ANN获得0.77和0.73的准确度。Guner等人(60)详细介绍了类似的方法。对308名接受临床冠状动脉CTA评估的患者进行队列研究,以训练一组ANN用于CAD识别。人口统计信息和作为输入变量的频率、相位和亮度特征的组合使得模型精度为0.74,优于一些非专家型临床医生。结果显示,单血管CAD更难识别。最近,Shibutani等人(61)对21名接受灌注SPECT的患者进行了补充研究,包括每节段分析。共检查了109个异常区域,ANN在应激缺陷和缺血检测方面取得了比两个独立观察者更好的结果,研究以ICA(有创冠状动脉造影)为金标准。
并且CT平扫可以用于CAD诊断,而无需额外的对比剂注射用于应力成像。Han等人(62)使用3个量化特征和17段模型获得51个输入变量,用于训练梯度增强算法,这是一种ML技术,用于构建集合分类器以提高最终精度。以有创血管造影和FFR(血流储备分数)为金标准。这项研究基于来自5个国家和17个中心的252名患者队列,AUC为0.75。Coenen等人(63)使用心脏CT,基于ML的图像分析可以改善非显著性狭窄的重新分类。本研究纳入了351名患者,包括525条具有侵袭性FFR(血流储备分数)比较的血管。通过半自动3D CT重建计算了一组28个解剖特征。每支血管的诊断准确率从0.58(CTA)提高到0.78(ML模型)。每名患者的准确率从0.71提高到0.85。CAD研究总结见表8。
表8,基于图像的ML分析诊断冠心病的研究。
3.4 动脉粥样化
动脉粥样硬化是心血管疾病强有力的独立预测因子。诊断通常由专家手动评分,这会导致工作量增加,并且容易出现与冠状动脉钙化(CAC)检测相关的假阳性和观察者之间的差异。因此,使用ML模型快速、可靠地量化钙化的能力为临床风险评分工具提供了附加价值,并将使个体的预测更准确。 Išgum等人设计了一种自动检测主动脉钙化的方法,这是一种基于形状和强度特征的动脉粥样硬化疾病指标。40次腹部扫描共包含249个CAC(冠状动脉钙化),由人类观察者确定。该方法检测到209个CAC阳性(Se=0.84),平均每次扫描出现1.0个假阳性,并且对比度的存在增加了错误分类的可能性。这项工作得到了Išgum等人的补充,他们用更复杂的特征集分析了心脏CT,以获得CAC检测的最终准确度为0.74。特征选择表明,分类阶段不包括形状特征,突出了CT纹理分析的识别能力。
Wolterink等人使用以130个Hounsfield单位为阈值的心脏CT扫描和连接成分分析,获得了164名受试者冠状动脉中具有专家注释的候选区域。他们的纹理分析与Išgum等人相似,DTs得出的风险分层准确度为0.86。这项工作还引入了指导性审查,其中再次手动检查最不确定的CAC,将总体精度提高到0.92。后来,Kolossváry等人从60名具有“餐巾环征”(NRS)和非NRS的受试者中提取了4440个影像组学特征,这些粥样斑块具有手动分割一致性。这项研究揭示了影像组学在发现鉴别特征方面的价值:近一半的影像组学达到了0.8的AUC,短期和长期的低灰度强调(纹理特征,表征不均匀性)和高衰减体素的表面比率(纹理特征,表征颗粒性)具有最高的AUC值(分别为0.92和0.89)。最近的研究中,Zreik等人在先前由专家标注的多平面冠状动脉CTA图像中使用了循环卷积神经网络(CNN),斑块和狭窄特征的准确度分别为0.77和0.8。研究总结见表9。
表9,基于图像的ML分析诊断主动脉和冠状动脉粥样硬化的研究。
3.5 瓣膜性心脏病
心脏瓣膜病是心血管系统一种越来越常见的疾病,越来越多的患者需要心脏瓣膜置换术。通过早期诊断、治疗或手术计划,这些不同类型的疾病可以受益于心脏成像与ML方法结合。例如,Elalfi等人使用成像预处理技术(高斯和Gabor滤波)以及强度和纹理特征基于ANN模型岁120幅超声图像进行训练。这些图像被分成8种瓣膜疾病。获得的准确度高达0.93。
一种类似的方法使用超声视频对二尖瓣返流(MR)严重程度进行评估。Moghadasi等人利用二元模式作为图像描述符,能够挖掘包括心脏不同角度细节的特征。对102名患者进行kNN和SVM模型训练,将其分为四组:轻度MR(n=34)、中度MR(n=32)、重度MR(n=36)和对照组(n=37)。支持向量机的准确率最高,为0.99。HVD研究总结见表10。表10,基于图像的ML分析诊断瓣膜性心脏病的研究
3.6 心力衰竭
射血分数保留心力衰竭(HFpEF)是一组异质性疾病,治疗反应不一,预后差。人们对改善HFpEF的表型越来越感兴趣,以帮助理解潜在的疾病机制,并指导治疗可能受益的亚型。ML技术的异质性是诊断和图像表型分层的非常合适的工具。Shah等人介绍了该领域的其他工作,他们对397名HFpEF患者进行了前瞻性研究,并对研究参与者进行了详细的临床、实验室、心电图和超声心动图分型。应用聚类技术将队列分为3个表型组。表型图谱有助于改善HFpEF患者的分类,并通过SVM进行风险分层,AUC为0.76。Cikes等人也将用于HF表型分组的ML用于预后任务。关于HF的研究总结见表11.
表11,基于图像的ML分析诊断心力衰竭的研究
3.7 室壁运动异常
现有的壁面运动定量表征技术大多涉及费力的后处理和图像分析。因此,用户输入最少且与节段心功能相关的ML方法可以改善临床常规和分诊。
例如,Mantilla等人通过对20名MRI患者进行标注获得的时空分布图,检测到左心室壁运动异常。基于小波和傅立叶变换,并使用后续空间生成两个模型:SVM和字典学习(DICTL)。中腔水平的字典学习获得了最好的准确度,为0.96(Sp=Se=0.96)。Afshin等人利用了每段的强度分布。在他们的工作中,一个参考帧自动传播到每个心脏阶段,生成整个心动周期的16个片段。在58名MRI受试者队列中,LDA降维特征和线性支持向量机的准确度为0.86。
Kusunose等人共使用了300名有心肌梗死病史的患者和100名年龄匹配的对照患者。每个病例都包含舒张末期、收缩中期和收缩末期短轴视图的超声图。集成10个CNN模型进行训练。由ML集成获得的AUC与心脏病专家和超声图像的AUC相似(分别为0.99和0.98),区域检测的AUC也相同(分别为0.97和0.95)。AWM研究总结见表12。
表12,基于图像的ML分析诊断室壁运动异常的选定研究
4 讨论和未来展望
上述大量已发表的数据表明,人工智能尤其是ML在显著影响心脏病学诊断决策方面具有巨大潜力。与“传统”统计方法相比,人工智能领域的技术能够处理大量数据(“大数据”)并将所有临床护理领域的信息,包括临床参数(“临床组学”)、遗传信息(“基因组学”)、蛋白质代谢(“蛋白质组学”)和成像数据(“放射组学”)整合到一个大型全方位分析框架中。通过移动应用和全球医疗保健系统的数字转型,计算能力稳步提高,数据可用性不断提高,进一步推动了该领域的发展。因此,未来的研究将继续使用这些技术,以便将其转化为常规临床实践,从而为改进诊断决策铺平道路,以适应个别患者的具体需求。
然而,在今天的临床常规中,尽管人工智能领域进行了许多令人鼓舞的研究,但诊断决策仍然是从独立的参数中得出的[例如,左室射血分数(74)]。在每位患者的基础上,Park和Kim发现这些独立功能参数的诊断和预后价值较低。鉴于心血管成像方式的多样性,其对更准确诊断和风险分层的潜在附加价值尚不清楚。此外,对主观视觉解释的持续依赖导致了大量的观察者依赖性和缺乏标准化。然而,人工智能和精确医学在心血管疾病中的应用目前还处于起步阶段,面临着巨大的挑战,必须通过未来的研究加以克服。为了建立新的成像生物标记物和人工智能技术,必须确保定量成像特征的稳健性和再现性。到目前为止,由于潜在影响因素(包括不同的扫描仪、供应商、CT辐射剂量、MRI场强、序列、序列参数、空间和时间分辨率、重建算法、重建参数等)的多样性,经过训练的模型和算法具有有限的通用性;图8)。
图8,影响定量成像特征的稳健性和再现性的因素
对于CT和正电子发射断层扫描(PET)成像,许多研究都强调了在使用不同的供应商、扫描仪和采集或重建设置(48、77–84)时,很难产生可靠可再现的影像组学特征。Zwanenburg等人 “图像生物标志物标准化倡议”(IBSI)为影像组学研究建立了某些标准,但心脏成像的具体需求尚未得到满足。对于心脏CT,Hinzpeter et al.和Mannil et al.研究了切片厚度(Hinzpeter et al.(84)和迭代重建算法(Mannil et al.(48))对影像组学特征的稳健性和可比性的影响——观察不同技术设置下的显著特征变化。与不断发展的CT成像文献相比,几乎没有证据表明MRI中影像特征的可靠性(75,85–87)。考虑到大多数MRI序列的定性性质以及没有绝对信号强度(例如,与CT成像相比),放射特征的鲁棒性似乎在很大程度上取决于采集序列以及采集和重建参数。在最近的一项体模研究中,Baeßler等人试图评估不同采集序列、空间分辨率和后处理设置的影响,结果表明,放射特征的稳健性受到采集序列和图像分辨率以及图像处理设置的严重影响。未来的工作不仅需要增加对这些影响因素的理解,还应该融入广泛的标准化工作,以确保所有成像测量的可靠性。
已经做出了几次尝试,通过图像标准化来提高辐射特征的稳健性。为了更可靠地量化肺气肿,GallardoEstrella等人建议对用不同核重建的胸部CT图像进行归一化。该方法将每次扫描分解为多个频带,然后将其能量归一化为:用参考核重建的一组扫描中观察到的平均能量。在这些结果的基础上,Jin等人使用基于深度学习的方法,通过U型网络对CT图像进行归一化。为了标准化MRI图像,Samala等人对乳腺动态对比度增强(DCE)图像提出了类似的深度学习算法,杜威等人对脑部MRI提出了类似的算法。尽管产生了有希望的结果,但由于心脏成像固有的特殊性,此类方法在心血管应用中的适用性仍然很难实现。除了乳腺和大脑,人类的心脏由于呼吸和心肌收缩而发生稳定的运动。还有,心室腔内的造影剂可能会影响心肌特征。因此图像标准化对提取的影像特征的影响还没有得到充分的研究。除了缺乏技术因素的标准化之外,最近在相对较小的数据集上训练ML分类器的趋势是当前方法学的一个主要问题,并且阻碍了将新技术转化为常规临床实践。大多数心血管成像研究中的小样本量(通常为N<100,模型中的变量>1000)会导致相当大的过度拟合风险。过度拟合导致分类模型在应用到不同的数据集时通用性差。除了目前缺乏成像特征标准化和模型过度拟合的问题,在将人工智能转化为日常患者护理时,还应该承认其他挑战。虽然大数据旨在整合来自不同来源的数据,但目前临床护理中使用的许多系统缺乏互操作性,这给数据收集带来了巨大障碍。目前,一些国家和国际性的尝试正在进行中,以解决医疗保健的互操作性问题,并允许医疗保健中使用的不同数据库和信息系统的无缝集成。
为了实现这项新技术的广泛临床应用,理解ML生成的诊断分组背后的基本原理可能至关重要。然而,尤其是对于DL技术,这些通常被视为“黑箱”,无法提供任何见解或解释,说明他们是如何得出结论的,以及他们是如何根据成像特征做出决策的。尽管有几次尝试和正在进行的研究是为了深入了解算法的决策(如热图),但这些尝试到目前为止还没有充分阐述,无法说服大多数心脏病学从业者在日常临床患者管理中使用黑盒诊断。
因此,DL模型的可解释性,应该是未来研究的一个主要目标。目前,影像组学可能是一种有效的替代方法,因为影像组学模型——在训练ML算法之前进行适当的逐步特征缩减的情况下——可以提供对模型分类性能非常重要的特定成像特征的更多解释。总之,解决方案实现更好的标准化或规范化,从而获得更好的通用性,这是将影像组学和人工智能引入心脏精确医学的一个重要条件,同时能够改善心血管疾病的诊断方法。此外,应实现医疗信息系统的更好互操作性。本文回顾分析的广泛而良好的研究成果为心血管医学的未来追求了一个共同目标:为更好的诊断和精确的心血管医学铺平道路。人工智能在心脏病学中的应用有望彻底改变个体疾病的监测和治疗。