深度神经网络进行动态心电图心律不齐的检测和分类 nature论文学习

2019年发布在nature上的文章:利用深度神经网络进行动态心电图心律不齐的检测和分类

论文链接:https://www.nature.com/articles/s41591-018-0268-3

       计算机心电图(ECG)解释在临床心电图工作流程中起着至关重要的作用。文章介绍了一个全面的评估端到端的深度学习方法心电图分析诊断的方法。在这里,我们开发了一个深度神经网络(DNN)来分类12种心律,使用了来自53,549名使用单导联心电图监测装置的患者的91,232个单导联心电图。当使用由委员会认证的执业心脏病专家一致认可的独立测试数据集进行验证时,DNN在受试者工作特征曲线(ROC)下的平均面积为0.97。DNN的平均F1score(阳性预测值和敏感性的调和平均值)(0.837)超过了心脏病学家的平均值(0.780)。当特异性固定在心脏病学家达到的平均特异性上时,DNN的敏感性超过了所有心律类的心脏病学家的平均敏感性。这些发现表明,端到端的深度学习方法可以从单导联心电图中对多种不同的心律失常进行分类,具有与心脏病学家相似的高诊断性能。如果在临床得到证实,这种方法可以通过对最紧急的情况进行准确的分类或优先处理,降低误诊率,提高专家心电判读的效率。

       DNN是由多个处理层组成的计算模型,每一层都能够学习越来越抽象的、与执行特定任务相关的输入数据的高级表示。它们极大地改善了语言识别、图像识别、围棋等策略游戏以及医疗应用领域的技术水平。DNNs能够从原始输入数据中识别模式和学习有用的特征,而不需要大量的数据预处理、特征工程或手工规则,这使得它特别适合解释心电图数据。此外,由于DNN的性能随着训练数据量的增加而增加,因此这种方法能够很好地利用心电图数据的广泛数字化。

       在这项研究中,我们建立了一个大的,新的心电数据集,通过专家注释为广泛的心电节律类。我们开发了一种DNN来检测12个心律级别的原始单导联心电图输入,使用的训练数据集包括来自53,549例患者的91,232条心电图记录。款设计分类10心律失常以及窦性心律和噪音总数为12个输出节奏类(扩展数据图。1)。心电图f.t.监控记录的数据,这是一个食品和药物管理局(FDA)清除,单管线,patch-based动态心电图monitor27连续记录数据从一个向量(修改导致II)在200赫兹。在我们的数据集中,Zio监控器的平均磨损时间为10.6天,中位磨损时间为13.0天。平均年龄69±16岁,43%为女性。我们在一个测试数据集上对DNN进行了验证,该数据集由328例独特患者的328条心电图记录组成,并由一个由心脏病专家组成的共识委员会进行了注释(见方法)。测试数据集的平均年龄为70±17岁,其中38%为女性。测试数据集上注释者间的平均一致性为72.8%。

       自动心电图判读的标准方法包括一系列步骤,包括信号预处理、特征提取、特征选择/约简和分类。相反,DNNs支持一种从根本上不同的方法,因为一个单一的算法可以完成所有这些“端到端”的步骤,而不需要类特定的特征提取;也就是说,DNN可以接受原始心电图数据作为输入和输出的诊断概率。有了足够的训练数据,以这种方式使用DNN就有可能以datadriven的方式学习所有以前手动派生的重要特性,以及尚未识别的特性,并可能学习在预测多个类时有用的共享特性。DNNs的这些特性有助于提高预测性能,特别是因为有充分的证据表明,目前公认的、人工衍生的心电图特征仅代表诊断信息特征的一小部分。

       虽然人工神经网络早在20年前就首次应用于ECGs的解释,但直到最近,它们只包含几个层次,并受到算法和计算限制。更近期的研究使用了更深层次的网络,尽管有些研究只使用DNNs来执行心电图处理管道中的某些步骤,如特征提取或分类25。端到端DNN方法最近被应用于一些有限的心电节律,如心房纤颤22、23、36、室性心律失常21或个别的心跳类型20、21、37、38,表现良好。虽然这些先前的努力证明了对特定节奏的良好表现,但它们并没有提供一个全面的评估,即端到端方法是否可以在广泛的节奏类中表现良好,以一种类似于临床遇到的方式。我们的方法是独特的,以端到端方式使用34层网络,同时输出各种不同节奏诊断的概率,所有这些都是由我们的数据集支持的,它比大多数同类数据集都要大一个数量级。与其他一些最近的DNN方法不同,不需要对心电数据进行大量预处理,如傅里叶或小波变换,就可以获得较好的分类性能。

       由于心律失常检测是现有心电算法中最棘手的任务之一,如果通过临床试验在临床环境中得到验证,我们的方法有可能产生重大的临床影响。配合适当注释的数字心电数据,我们的方法有潜力提高初步计算机心电解释的整体准确性,还可以通过对机构特定数据的额外培训来定制对机构或人口特定应用的预测。虽然专家提供者确认在许多临床环境中可能是适当的,但DNN可以在临床工作流程中扩展专家过度阅读者的能力,例如,通过分类紧急情况或DNN最不“确定”的情况。从10s(标准12导联心电图)到几天(单导联动态心电图),从不同的临床应用中收集的心电图数据,包括我们的算法在内的任何算法的应用都必须最终适应于目标临床应用。例如,即使在我们报告的表现特征中,我们的算法在长时间的心电记录中连续应用也会导致非平凡的假阳性诊断。面对类似的问题,心脏病学家可能会采用其他的机制来提高他们的诊断能力,比如利用更多的背景知识或对心律失常流行病学的知识。同样,在临床应用之前,额外的算法步骤或后处理启发可能是重要的。

        我们研究的一个重要发现是,DNN似乎概括了个别心脏病学家的错误分类,正如模型和心脏病学家的混淆矩阵的相似性所证明的那样。对这些不一致的人工回顾发现,DNN的错误分类总体上是非常合理的。在许多情况下,缺乏上下文,信号持续时间有限,或只有一个引线,限制了可以从数据中合理得出的结论,使人难以确定委员会和(或)算法是否正确。类似的因素,以及人为错误,可能解释了72.8%的注释者间一致性。

       在我们研究的心律类中,心室心动过速是一种重要的临床心律,该模型的F1评分低于心脏病学家,但有趣的是,其敏感性(94.1%)高于平均心脏病学家(78.4%)。人工检查被DNN误分类为室性心动过速的16条记录,发现算法的“错误”是非常合理的。例如,室性心动过速和室性心律(IVR)的区别仅在于心率分别高于或低于每分钟100次(b.p.m)。在7例委员会标记的IVR病例中,记录包括心率≥100b.p.m.。,使DNN合理划分室性心动过速;其余3个委员会标记的IVR记录的利率接近下午100点。在5例委员会认定为房颤(4例)或室速(1例)的患者中,除1例外,其余均表现出异常传导,导致广泛的QRS波(对应心室激活的心电图波形),其外观与室性心动过速相似。如果我们以≥100b.p.m的速率重新对7条IVR记录进行再编码。作为室性心动过速,DNN对室性心动过速的整体表现超过了心脏病专家的F1评分,设置一级的F1评分为0.82(相对于0.77)。

Method

       研究参与者和抽样程序。我们的数据集包含从2013年1月到2017年3月使用Zio monitor (iRhythm Technologies, Inc)的18岁成年患者>的回顾性、未识别的数据。所有提取的数据都根据《健康保险可携性与责任法案》安全港进行了标识。根据iRhythm技术公司的隐私政策,完全保密的病人数据可以对外共享,以供研究之用;患者可以选择不分享。因此,本研究不需要书面知情同意,因为在使用前,训练和测试数据集的30秒心电图样本都得到了适当的鉴定。Te研究被斯坦福大学机构审查委员会审查并免除全面审查。

       我们提取每个患者30秒记录的中位数来构建训练数据集。心电记录是根据iRhythm技术公司的临床工作流程报告摘要提取的,其中包括由一名认证心电技术员对FDA 510(k)批准的用于临床的算法的初始注释进行全面审查。我们随机选取表现出每种节律的患者;从这些患者中,我们选择了30-s记录的节律类存在。虽然目标节奏类通常出现在记录中,但大多数记录包含多种节奏的混合。为了进一步改善训练数据集的类平衡,罕见的节奏,如AVB,被有意地进行了超采样,平均每个病人有两个30秒的记录。对于测试数据集,以类似的方式采样每个节奏的30秒记录,以获得更大的稀有节奏的代表性;然而,测试数据集只包含每个患者的一条记录。培训、开发和测试数据集完全脱节的患者集。

注释的程序。所有训练和测试数据集中的心电图记录都经过了附加的注释程序。我们使用单独的过程来注释训练和测试数据集,保留资源密集型心脏病学家注释作为测试数据集的黄金标准。为了对训练数据集进行注解,一组资深的心电技术人员检查了所有的记录,并记录了记录中所有心律的起病和偏移。每条记录都被随机分配给一名专门负责这项任务的技术人员进行审核,而不是用于其他任何目的。所有的注释者都接受了关于如何注释节奏之间的转换以提高标记一致性的具体指导和培训。我们从患者培训数据集中随机抽取10%的数据作为开发数据集,以执行DNN超参数调优。八名通过认证的执业心脏电生理学家和一名通过认证的执业心脏病学家(统称为心脏病学家)在测试数据集中注释了记录。所有iRhythm技术的临床注释都从测试数据集中删除。心脏病专家被分成三个委员会,每个委员会有三名成员;每个委员会分别注释了测试数据集的三分之一(112条记录)。心脏病专家委员会作为一个小组讨论记录并以一致意见进行注释,为模型评估提供了黄金标准。剩下的六名心脏病专家没有参与委员会的记录,他们每个人都提供了各自的记录注释。这些注释被用来比较模型和个别心脏病学家的表现。总而言之,测试数据集中的每条记录都收到了来自三名心脏病专家和六名心脏病专家的委员会一致意见注释。许多心电图记录包含多个心律类诊断,因为所有独特类的起病和偏移都在每个30秒记录内标记。房颤是心房颤动与心房扑动的结合。AVB级结合了2型二级AVB (Mobitz II/Hay)和三级AVB。我们合并这些类别是因为它们有相似的临床结果。当信号中的伪影妨碍对潜在节律的准确解释时,就选择噪音标签。

算法。我们开发了一种卷积神经网络(convolutional DNN)来检测心律失常(Extended Data Fig. 1),它将原始的ECG数据(采样频率为200Hz,即每秒200个采样)作为输入,每256个采样(即每1.28 s)输出一次预测,我们称之为输出区间。该网络只接受原始心电图样本作为输入,没有其他与病人或心电图相关的特征。网络结构有34层;为了使这样的网络易于处理,我们采用了类似于剩余网络架构的快捷连接。该网络由16个剩余块组成,每个块有两个卷积层。卷积层的滤波器宽度分别为16和32*2k,其中k是一个超参数,从0开始,每四个剩余块加1。每一个可选的残差块对其输入采样的系数为2。在每个卷积层之前,我们采用批量正态化和整流线性激活,采用预激活块设计43。由于这种预激活块结构,所以对网络的第一层和最后一层进行了特殊的装箱。我们还在卷积层之间和非线性之后应用了Dropout44,其概率为0.2。最后一个完全连接的softmax层在12个输出类上产生一个分布。

       该网络按照He等人描述的随机初始化权值进行从头开始训练。我们使用了Adam optimizer45使用默认参数β1 = 0.9和β2 = 0.999,和一个小的批处理大小为128。我们初始化学习率为1×10−3,当发育集损失连续两个时期停止改善时,将其降低10倍。我们选择在开发数据集上实现最低错误的模型。一般来说,网络结构的超参数和优化算法是通过网格搜索和人工调优相结合来选择的。对于架构,我们主要搜索了卷积层的数量、卷积滤波器的大小和数量,以及剩余连接的使用。当模型深度超过8层时,我们发现剩余的连接是有用的。我们也对重复层进行了实验,包括长短时记忆细胞s46和双向重复层,但没有发现准确性的提高和运行时的大量增加;因此,我们放弃了这类模型。我们手动调整学习速度以达到最快的收敛速度。

算法评估。由于DNN在每个输出间隔输出一个类预测,它每30秒记录输出23个节奏预测。心脏病学家在记录中标注了每节节奏课的开始点和结束点。通过将注释四舍五入到最近的区间边界,我们在每个输出区间使用此方法构造一个心脏病专家标签。因此,我们可以在每一个输出间隔(我们称之为“序列级”)或记录级(我们称之为“设置级”)上评估模型的准确性。为了比较序列级别上的模型预测,将每个输出间隔上的模型预测与对应的相同输出间隔上的委员会一致标签进行比较。在set水平上,DNN预测的特定心电图记录中唯一的心律类与委员会一致通过记录中注释的心律类进行比较。与序列级评估不同,设置级评估不会对记录中节奏分类的时间偏差进行惩罚。

       序列级的算法评估允许在每个输出间隔上与黄金标准进行比较,从而提供最全面的算法性能度量,因此我们将其用于大多数度量。序列水平评估也类似于临床应用的遥测或Holter监测分析,其中确定的开始和节律的偏移是至关重要的。在集水平上的评估是一个有用的抽象概念,它近似于DNN算法如何应用于单个心电记录来识别给定记录中的诊断。

       为了在包含可变长度录音的物理网络挑战数据上训练和评估我们的模型,我们对DNN进行了微小的修改。在没有任何变化的情况下,DNN可以接受长度为256个样本的倍数的任何记录作为输入。为了处理不是256倍数的示例,将记录截断为最接近的倍数。我们使用给定的记录标签作为大约每1.3 s输出预测的标签。为了生成可变长度记录的单个预测,我们使用了序列级预测的多数票。

统计分析。我们计算了ROC分析和曲线下面积(AUC),以评估采用一种与另一种策略的每一种节律类的模式识别率,分别为28,47。序列级和集级分析的auc分别给出。我们给AUC的分数一个双向CI 48。敏感性和特异性计算在二元决策阈值为每个节奏类。我们计算了精确回忆曲线,它显示了PPV (precision)和灵敏度(recall)之间的关系。它提供了ROC曲线的补充信息,特别是在类不平衡数据集。为了比较DNN与心脏病专家委员会标签的相对表现,我们计算了F1分数,即PPV的谐波平均值和敏感度。它的范围从0到1,并奖励算法,最大限度地同时PPV和灵敏度,而不是偏爱其中一个。F1分数是AUC的补充,在多类预测的设置上特别有帮助,在类imbalance49的设置上比AUC的灵敏度低。对于模型性能的总体度量,我们计算了F1分数和AUC的类频率加权算术平均值。为了获得DNN与普通心脏病学家比较的估计数,我们对六位心脏病学家的表现特征进行了平均,他们分别对每个记录进行了注释。我们使用混淆矩阵来说明节奏类的具体例子,其中DNN预测或个别心脏病学家的预测在序列层面上与委员会的一致意见不一致。在测试数据集中的单个心脏病专家注释中,我们计算了注释者之间的一致性,即两个注释者同意在每个输出间隔出现心律的次数之比和两两比较的总数。

模型结构如下图:

                                                               深度神经网络进行动态心电图心律不齐的检测和分类 nature论文学习_第1张图片

上图为深度神经网络结构。我们的深度神经网络由33个卷积层和一个线性输出层组成。该网络接受原始心电图数据作为输入(以200hz或每秒200个样本采样),并每256个输入样本输出12个可能的心律类别中的一个。

你可能感兴趣的:(深度神经网络进行动态心电图心律不齐的检测和分类 nature论文学习)