准确的心功能评估对于1心血管疾病的诊断、2心脏毒性的筛查和3危重患者的临床管理决策至关重要。然而,人类对心脏功能的评估只关注有限的心脏周期采样,尽管经过多年的训练,但观察者之间的差异还是相当大的。在这里,为了克服这一挑战,我们提出了一种基于视频的深度学习算法EchoNet - Dynamic,它在分割左心室、估计射血分数和评估心肌病等关键任务中的表现超过了人类专家。在超声心动图视频的训练下,我们的模型准确分割左心室,Dice相似系数为0.92,预测射血分数的平均绝对误差为4.1%,并使用减小的射血分数(曲线下面积为0.97)对心力衰竭进行可靠分类。在另一个医疗系统的外部数据集中,EchoNet-Dynamic预测了射血分数,平均绝对误差为6.0%,并通过曲线下面积为0.96的降低的射血分数对心力衰竭进行了分类。通过重复人体测量进行的前瞻性评估证实,该模型的方差与人类专家的方差相当或更小。通过利用多个心动周期的信息,我们的模型可以快速识别射血分数的细微变化,比人类评估更具重复性,为实时准确诊断心血管疾病奠定基础。作为促进进一步创新的资源,我们还公开了10,030个带注释的超声心动图视频的大型数据集。
心脏功能对于维持正常的全身组织灌注至关重要;心脏功能障碍表现为呼吸困难、疲劳、运动不耐受、液体滞留和死亡风险增加[1–3,5–8]。心脏功能受损被描述为心肌病或心力衰竭,是美国住院的主要原因,也是日益严重的全球健康问题[1,9,10]。多种方法已被用于量化心脏功能和诊断功能障碍。特别是,测量左心室射血分数,即左心室收缩末期和舒张末期容积的变化比率,是衡量心脏功能的最重要指标之一,因为它可以确定哪些患者有资格接受延长生命的治疗[7,11]。然而,射血分数的评估与可观的观察者间变异性以及基于方法学和模态的模态间不一致性相关[2、4、5、11–14]。
人类对射血分数的评估存在差异,部分原因是心率不规则的普遍发现以及计算的费力性(计算需要手动追踪心室大小以量化每一次搏动)[4、5]。尽管美国超声心动图学会和欧洲心血管成像协会的指南建议,如果发现变异,最多可追踪和平均五个连续心动周期,但射血分数通常仅根据一个代表性搏动的轨迹进行评估,或者如果追踪被认为不准确,则进行视觉近似[5,15]。这导致了高方差和有限的精度,观测者间方差[4,12–15]在7.6%到13.9%之间。更精确的心功能评估是必要的,因为即使是射血分数临界降低的患者也显示出发病率和死亡率的显著增加[16–18]。
超声心动图图像采集速度快,成本相对较低,没有电离辐射,是最广泛使用的心血管成像方式[19,20]。人们对使用超声心动图的深度学习技术来确定射血分数很感兴趣[21–23]。用深度学习模型算法评估心脏功能的过往尝试依赖于心脏收缩期和心脏舒张期手动精选的静态图像,而不是使用实际的超声心动图视频,这些模型与人类心脏功能评估相比有很大误差[21、22],R^2在0.33和0.50之间。人工翻译的局限性(包括费力的手工分割和和不能进行逐拍量化),可以通过复杂的自动化方法来克服[5、22、23]。深度学习的最新进展表明,它可以准确、可重复地识别人类可识别的表型以及人类专家无法识别的特征[24–28]。
为了克服目前人类心脏功能评估的局限性,我们提出了EchoNet-Dynamic,一种端到端的深度学习方法,用于标记左心室和仅从输入超声心动图视频中估计射血分数。我们首先使用来自临床专家标记的弱监督学习来执行左心室的帧级(frame-level)语义分割。然后,一个具有残差连接的三维卷积神经网络(CNN)从原始的超声心动图视频中预测片段级(clip-level)的射血分数。最后,将分割结果与片段级(clip-level)预测相结合,以产生射血分数的逐拍评估。这种方法提供了可解释的心室轨迹,便于人类评估和下游分析,同时利用CNN完全捕捉视频中的时空模式[5,29,30]。
EchoNet-Dynamic有三个关键组件(图1)。首先,我们构建了一个具有空洞卷积的CNN模型,用于左心室的帧级语义分割。空洞卷积技术使模型能够捕捉更大的模式,并且之前已经证明在非医学成像数据集上表现良好[29]。用于估计射血分数的标准人类临床工作流程需要在收缩末期和舒张末期对左心室进行手动分割。我们用空洞卷积的弱监督方法概括这些标签,以1:1的比例与原始视频中的帧配对,生成整个心动周期的帧级语义分割。自动分割用于识别心室收缩,并提供模拟临床工作流程的临床医生可解释的中介。
其次,我们训练了一个具有残留连接和跨帧时空卷积的CNN模型来预测射血分数。与以前用于医学图像机器学习的CNN体系结构相反,我们的方法在我们的网络卷积中集成了空间和时间信息25、29、30。时空卷积结合了二维的空间信息和三维的时间信息,以前已经用于非医学视频分类任务29、30。然而,这种方法以前没有用于医学数据,因为标记的医学视频相对较少。我们还执行了模型架构搜索,以确定最佳基础架构(扩展数据图1)。
最后,我们对射血分数进行视频级(video-level)预测,用于心脏功能的逐搏估计。考虑到心脏功能的变化可能由负荷条件以及各种心脏条件下心率的变化引起,建议对最多五个心动周期的射血分数进行估计;然而,考虑到计算的繁琐和费力性质,在临床实践中并不总是这样做。我们的模型识别每个心动周期,生成一个32帧的片段( a clip of 32 frames),并平均每个心跳的射血分数的片段级估计作为测试时间增加。EchoNet-Dynamic是使用在斯坦福医学中心常规临床实践过程中获得的10,030个心尖四腔超声心动图视频开发的。扩展数据表1包含患者群体的汇总统计数据。模型和超参数搜索的细节将在方法和扩展数据表2中进一步描述。
对于之前在模型训练中没有看到的来自斯坦福医学的测试数据集,与人类专家的注释相比,通过EchoNet-Dynamic对射血分数的预测具有4.1%的平均绝对误差、5.3%的均方根误差和0.81的R^2。这完全在不同临床医生之间的典型测量变化范围内,通常被描述为观察者间变化5,13–16,最高可达13.9%(图2a)。使用射血分数小于50%的共同阈值来分类心肌病,EchoNet-Dynamic预测的曲线下面积为0.97(图2b)。我们将EchoNet-Dynamic的性能与我们在该数据集上训练的几个额外深度学习架构的性能进行了比较,EchoNet-Dynamic始终更准确,这表明了其特定架构的力量(扩展数据表2)。此外,在EchoNet-Dynamic预测射血分数与原始人类注释差异最大的情况下,我们由盲法临床医生对视频进行了重新评估。这些视频中的许多具有不准确的初始人类标签(在43%的视频中,被蒙蔽的临床医生更喜欢模型的预测)、较差的图像质量或心律失常和心率变化(扩展数据表3)。
表明有分歧的视频通常是质量不佳的视频,并且对于质量不佳的视频,通常算法比人工准确
(用一个来自其他医院的外部数据集进行测试以评估EchoNet-Dynamic的可靠性)
为了评估模型跨健康中心系统cross-healthcare-system的可靠性,EchoNet-Dynamic 不经过微调地在一个外部数据集上进行额外测试,该数据集包含从一个独立医院系统中的1267个病人中得到的2895个超声心动视频。在这个外部测试数据集上,模型表现了射血分数的鲁棒的预测,MAE为6.0%,RMSE为7.7%,R^2为0.77,AUC为0.96,比起带有超声专家注释的情况。
EchoNet-Dynamic是一种基于视频的深度学习算法,可实现最先进的心功能评估。它使用专业的人体跟踪对视频数据进行左心室分割和时空卷积的弱监督学习,以获得整个视频射血分数的逐拍累积评估。据我们所知,EchoNet-Dynamic是第一个基于视频的超声心动图深度学习模型,其在评估射血分数方面的表现明显优于以前基于图像的深度学习尝试20、22。EchoNet-Dynamic预测的差异相当于或小于人类专家对心脏功能的测量5。此外,当用于独立医疗中心的超声心动图视频验证数据集时,其预测射血分数的性能非常准确,无需额外的模型训练。只有一个GPU,EchoNet-Dynamic实时完成这些任务;每次预测任务每帧只需0.05 s,比人类评估射血分数要快得多。EchoNet-Dynamic可能有助于临床医生对心脏功能进行更精确和可再现的评估,并且可以检测超出人类读者精度的射血分数亚临床变化。
模型和人类评估之间的一些差异,部分是由于EchoNet-Dynamic对整个视频中射血分数的逐拍评估与人类仅评估一个“代表性”拍而忽略其他拍。选择有代表性的节拍可能是主观的,会导致人的观察者内可变性,并且忽略了指导原则建议的平均5个连续节拍。这种五拍的工作流程很少完成,部分原因是人工追踪任务的费力和耗时。EchoNet-Dynamic通过自动化分割任务大大减少了心脏功能评估的工作量,并为更频繁、更快速的心脏功能评估提供了机会。我们的端到端方法生成射血分数的逐跳(beat)级和片段(clip)级预测以及整个心动周期的左心室分割,以直观地解释建模结果。在心功能变化的敏感检测至关重要的情况下,早期检测变化可以极大地影响临床护理2,3。
我们与斯坦福医学院的利益相关者合作,发布了我们的10030个去身份的超声心动图视频的完整数据集作为医疗机器学习社区的资源,用于未来对深度学习模型的比较和验证。据我们所知,这是将公开的最大的有标签的医疗视频数据集之一,也是第一次大规模发布带有人类专家跟踪、容积估计和左心室射血分数计算的匹配标签的超声心动图数据。我们期望该数据集将极大地促进新的超声心动图和基于医疗视频的机器学习方法。我们还发布了算法和数据处理工作流的完整代码。
我们的模型是在一个学术医疗中心的训练有素的超声技师获得的视频上进行训练的,这些视频反映了临床实践中的变化。随着非心脏病专家使用现场超声评估心脏功能的扩大,需要做进一步的工作来了解具有更多可变质量和采集专业知识的输入视频的模型性能,以及与其他成像模式的比较。我们模拟降级视频质量的实验和跨健康系统的分析表明,EchoNet-Dynamic对视频采集的变化具有鲁棒性;然而,不同临床环境下的进一步分析仍有待完成。
我们的结果代表了通过深度学习从超声心动图视频中自动评估心功能的重要一步。EchoNet-Dynamic可以提高现有方法的精度,使亚临床心功能障碍的早期检测成为可能,并且底层的开放数据集可以用于推进基于医学视频的深度学习方面的未来工作,并为医学深度学习的进一步应用奠定基础。
一个标准的全静息超声心动图研究包括一系列50-100个视频和静态图像,从不同的角度、位置和图像采集技术(二维图像、组织多普勒图像、彩色多普勒图像和其他)来可视化心脏。每个超声心动图视频对应一个独特的患者和一次独特的就诊。在该数据集中,从每个研究中提取一个顶点四腔二维灰度视频。每个视频代表一个独特的个体,因为数据集包含10,030个超声心动图视频,来自10,030个独特的个体,这些个体在2016年至2018年期间接受了超声心动图检查,作为斯坦福医疗保健中心临床护理的一部分。视频被随机分为7465,1277和1288患者分别进行训练,验证和测试集。
我们数据中随机选择的患者有一系列射血分数,代表了去超声心动图实验室的患者群体(扩展数据表1)。视频由熟练的声谱仪操作员使用iE33、Sonos、Acuson SC2000、Epiq 5G或Epiq 7C超声波机器采集,处理后的图像存储在飞利浦Xcelera图片存档和通信系统中。通过在临床数据库中隐含的视图分类知识来识别视频视图,该知识是通过识别用在相应视图中完成的测量标记的图像和视频来识别的。例如,心尖四腔室视频是通过从一组视频中选择视频来识别的,在这组视频中,声谱仪医生或心脏病专家追踪左心室容积,并将其标记用于分析以计算射血分数。因此,通过提取与用于计算射血分数的心室容积测量值相关联的医学数字成像和通信(DICOM)文件来识别心尖四腔视图视频。
一个自动化的预处理工作流被用来去除识别信息和消除非预期的人类标签。每个随后的视频被裁剪和屏蔽,以移除文本、心电图和呼吸计信息以及扫描扇区之外的其他信息。最终得到的方形图像是600 × 600或768 × 768像素,具体取决于超声机器,并通过使用OpenCV的三次插值(cubic interpolation)向下采样为标准化的112 × 112像素视频。对视频进行质量控制抽查,以确认视图分类并排除彩色多普勒视频。
这项研究获得了斯坦福大学机构审查委员会的批准,并通过医学和成像人工智能中心(AIMI)和大学隐私办公室的标准化工作流程获得了数据隐私审查。除了如上所述屏蔽视频文件中扫描扇区之外的文本、心电图信息和额外数据之外,每个DICOM文件的视频数据被保存为AVI文件,以防止识别信息通过公共或私有DICOM标签泄漏。随后,每段视频都由熟悉影像数据的斯坦福医院的一名员工手动审查,以确认在公开发布前没有任何识别信息。
模型设计和培训是使用PyTorch深度学习库在Python中完成的。语义分割是使用Deeplabv3架构[30]执行的。分割模型有一个50层残差网络的基本架构,并且最小化了像素级二进制交叉熵损失。该模型用随机权重初始化,并使用随机梯度下降优化器进行训练(扩展数据图3)。我们的时空卷积模型是用来自Kinetics-400数据集[31]的预训练权重初始化的。我们测试了三种时间卷积可变集成的模型架构(R3D、MC3和R2+1D),最终选择分解的R2+1D时空卷积作为性能最好的架构用于EchoNet-Dynamic[29,30] (扩展数据图1和扩展数据表2)。在R3D体系结构中,所有卷积层共同考虑了空间和时间维度,这些层由五个卷积块组成。MC3和R2+1D架构是作为仅考虑空间关系的二维卷积和R3D[29]使用的全三维卷积之间的中间地带(middle ground)引入的。MC3架构用二维卷积代替了最后三个块中的卷积,R2+1架构明确地将所有三维卷积分解成二维空间卷积,后面跟着一维时间卷积。
为了预测射血分数,使用随机梯度下降优化器(SGD)训练模型,使预测射血分数和真实射血分数之间的平方损失squared loss最小,初始学习率为0.0001,动量为0.9,批次大小为16,共45个epoch。每15个epoch,学习率下降0.1倍。对于模型输入,通过每隔一帧采样(采样周期为2)生成32帧的视频片段(video clips),片段长度(clip length)和采样周期(sampling period)由超参数搜索确定(扩展数据图1)。在训练过程中,为了增大数据集的大小和增加曝光训练片段(exposed training clips)的变化,每个训练视频片段(clip)在每侧填充12个像素,并随机裁剪原始帧大小以模拟相机位置的轻微平移和变化。对于所有模型,选择验证损失最低的时期的权重进行最终测试。使用一个NVIDIA GeForce GTX 1080 Ti GPU评估模型计算成本(扩展数据图4)。
房颤期间射血分数、收缩末期和舒张末期容积以及房性早搏、室性早搏和其他异位来源的情况可能会有变化。临床惯例是测量至少一个有代表性的心动周期,并使用这个有代表性的心动周期进行测量,尽管当存在相当大的异位或变异时,建议平均测量多达5个心动周期。由于这个原因,我们最终的模型使用了测试时间的增加,通过在整个视频中提供每个心室跳动(beat)的单独估计,并输出平均预测作为最终的模型预测。我们使用分割模型来识别左心室的面积,使用基于阈值的处理来识别每个心动周期中的心室收缩。每个心室收缩(收缩期systole)通过选择EchoNet-Dynamic的分割臂识别的最小左心室大小帧进行识别。对于每一个心跳(beat),以心室收缩为中心的下采样片段(subsampled clip)被获得,并用于产生一个射血分数的逐拍估计(a beat-to-beat estimate of ejection fraction)。将视频中所有心室收缩的平均射血分数作为最终视频级(video-level )模型预测。
我们评估了模型性能和超声心动图视频质量之间的关系。我们的数据集没有根据临床质量进行管理,并且我们没有因为图像质量不足而排除任何视频。在内部斯坦福测试数据集上,我们评估了具有视频饱和度和增益变化的模型性能,并且EchoNet-Dynamic的性能对于临床图像的采集质量范围是稳健的(扩展数据图5)。为了进一步测试可变视频质量的效果,我们通过从测试数据集中的视频中随机移除一部分像素来模拟噪声和降级的视频质量,并评估降级图像的模型性能(扩展数据图6)。EchoNet-Dynamic还对各种合成噪声和图像退化具有鲁棒性。
前瞻性验证是由两名高级超声医师进行的,他们都有高级心脏认证和超过15年的经验。对于每个患者,心脏功能的测量由每个声谱仪操作员在同一天独立采集和评估。每个患者都使用Epiq 7C超声机进行扫描,Epiq 7C超声机是斯坦福超声心动图实验室的标准仪器,同样的两名超声医生也使用GE Vivid 95E超声机对一部分患者进行了重新扫描。图像采集后,在专用工作站上进行追踪和测量。为了进行比较,将独立采集的心尖四腔视频输入模型,并评估测量的方差。
机翻:
2018年11月至2018年12月来自独立外部医疗保健系统Cedars-Sinai医学中心的经胸超声心动图研究用于评估EchoNetDynamic在预测射血分数方面的表现。相同的自动化预处理工作流程用于将DICOM文件转换为AVI文件,屏蔽扫描扇区外的信息,并将输入调整为可变长度的112×112像素视频。先前描述的方法被用于识别心尖四腔视图视频22。在人工排除不正确的分类、气泡研究的长电影环路、注射超声造影剂的视频和彩色多普勒视频后,我们从1267名患者中识别出2895个视频。这些视频被用作在斯坦福数据集上训练的EchoNet-Dynamic的输入,模型预测与Cedars-Sinai医学中心医生的人类解释进行了比较。输入视频采样周期设置为1,因为外部数据集的帧速率大约是斯坦福数据集视频的一半。对来自同一患者的多个视频的模型预测进行平均,以产生射血分数的综合估计。
认识到人类对射血分数评估的固有差异[5,13–16],五位专门从事心血管成像的超声专家和心脏病专家对最初人类标记和EchoNet-Dynamic预测之间具有最高绝对差异的超声心动图视频进行了盲法审查(平均绝对差异为15.0%,标准差为3.79%)。每位专家都独立接收了相关的超声心动图视频和一组射血分数的两次盲测,这两次盲测对应于最初的人类标记和回声网动态的预测。专家们被要求选择哪个射血分数与他们对射血分数的评估更接近,并注意到超声心动图视频质量的任何限制,这将阻碍他们的解释。在盲法审查中,专家注意到38%(40分之15)的视频在视频质量或采集方面存在相当大的问题,13%(40分之5)的视频存在明显的心律失常,限制了人类对射血分数的评估(扩展数据表3)。在这种情况下,专家临床医生的共识解释是,在43%(40个中的17个)的超声心动图视频中,首选EchoNet-Dynamic 预测而不是初始人类标签。
EchoNet-Dynamic 评估效果优于人类专家
没有统计方法用于预先确定样本量。使用10,000个自举样本计算置信区间,并获得每个预测的95%范围。语义分割任务的性能通过使用Dice相似性系数与来自保持测试数据集的人类标签进行比较来评估。通过计算EchoNet-Dynamic预测和人类计算射血分数之间的平均绝对差以及计算EchoNet-Dynamic预测和人类计算之间的R^2来评估射血分数任务的性能。与人类读者的前瞻性比较是用两样本问题的一致最强不变等价检验来进行的。