The Impact of the MIT-BIH Arrhythmia Database
历史、经验教训及其对当前和未来数据库的影响
论文下载:http://ecg.mit.edu/george/publications/mitdb-embs-2001.pdf
MIT-BIH心律失常数据库是第一套用于评估心律失常检测器的通用标准测试材料,自1980年以来,它已被用于该目的以及全球约500个地点的心脏动力学基础研究。它的寿命远远超过了它的任何创造者的预期。它与美国心脏协会(AHA)数据库一起,在刺激心律失常分析仪制造商在客观可测量的性能基础上竞争方面发挥了有趣的作用,目前对基础研究和医疗设备开发与评估的常见数据库价值的评估很大程度上可归因于这一经验。在这篇文章中,我们简要回顾了数据库的历史,描述了它的内容,讨论了我们对数据库设计和构建的了解,并看了一些后来的项目,这些项目是由MIT-BIH心律失常数据库的成功和局限性所激发的。
心电图(ECGs)作为一种廉价的、无创的观察心脏生理的手段得到了广泛的应用。1961年,Holter[1]引进了连续记录门诊病人数小时心电图的技术;长期心电图(动态心电图记录),通常持续24小时,已经成为观察瞬时心电活动的标准技术。本课题组自20世纪70年代中期开始,对长期心电图反映的心律异常及心律失常的自动识别方法进行了研究。学术界和工业界的许多其他研究小组有相似的兴趣。直到1980年,那些希望从事这类工作的人必须收集他们自己的数据。虽然记录本身很丰富,这些数据的访问并不普遍,彻底的表征所记录的波形是一个繁琐和昂贵的过程。此外,随着时间的推移,心电图节律和波形形态细节都有很大的变化,因此用于研究的有代表性的长期心电图的收集必须包括许多记录。
在20世纪60年代和70年代,由于缺乏普遍可获得的数据,自动心律失常分析算法的发展受到了阻碍。每个进行这类工作的小组都获得了自己的一套记录,并经常使用开发这些算法所使用的相同数据来自我评估他们的算法。从早期开始,很明显,这些算法的性能总是依赖于数据,使用不同的数据评价每种算法不允许对来自不同组的算法进行客观比较。
1975年,我们意识到自己的研究需要一套合适的、特征明确的长期心电图,于是我们开始收集、数字化并注释由Boston’s Beth Israel Hospital 心律失常实验室提供的ECG记录(BIH;现在是Beth Israel Deaconess Medical Center)。然而,从一开始,我们就计划将这些记录提供给整个研究社区,以刺激这一领域的工作,并鼓励对不同算法[2]进行严格可重复和客观可比的评估。我们期望一个通用数据库将促进心律失常自动分析技术的快速和量化改进。
在MIT-BIH心律失常数据库中,我们选择了48份半小时的双通道24小时心电图记录,这些记录来自1975年至1979年BIH心律失常实验室研究的47名受试者(记录201和202份来自同一受试者)。其中,23条(“100系列”)是从4000多张Holter 磁带中随机选取的,另外25条(“200系列”)被选取为包含不常见但临床上重要的心律失常,这些心律失常在小的随机样本中表现不佳(见图1)。研究对象包括25位32到89岁男性和22位23至89岁女性;大约60%的受试者是住院病人。正如临床实践中所预期的那样,心电图导联在不同受试者之间存在差异,因为手术敷料和解剖学上的差异不允许在所有病例中使用相同的电极放置。在大多数记录中,一个通道是改良的肢体导联II (MLII),通过将电极放置在胸部获得,这是动态心电图记录的标准做法,另一个通道通常是V1(有时是V2、V4或V5,取决于受试者)。
来自 MIT-BIH 第205条记录的10秒。
严格审核的 beat 注释
A - 房性早搏
F - 心室融合心率
N - 正常心率
V - 心室早搏
rhythm 注释
N - 正常窦性心律
VT - 室性心动过速
完成MIT-BIH心律失常数据库需要五年时间[3]。按照目前的标准,用于创建数据库的工具是原始的。心电图记录是使用 Del Mar Avionics 模型445型双通道卷对卷 Holter 记录仪进行的,模拟信号是使用 Del Mar Avionics 660型回放单元进行数字化重建的。用于数字化的计算机是在我们的实验室设计和制造的,包括磁带机控制器和模数转换器接口;然后,他们使用最先进的1 MHz 8位CPU和11位偏移二进制ADC。选择数字化速率(每通道每秒360个样本)是为了适应使用简单的数字陷波滤波器来消除60 Hz(电源频率)干扰。最终,数字化速率受到数据写入大容量存储器的速度的限制(内存通常只有16或24kB,因此存储数据不是一个选项)。没有任何种类的磁盘。所有存储都在DC300数字盒式磁带上,该磁带有四个磁道,每个磁道的容量约为400kB。
通常情况下,Holter 磁带会被实时读取多次(回放单元提供60倍和120倍的实时速度,以及在图表记录器上打印时使用的两倍实时速度)。起初,即使是两次实时也太快了;数字磁带一次只能写入一个磁道,总是在同一方向,并且没有足够的内存来缓冲磁带在磁道之间倒带时积累的输入样本。我们使用一个特殊构造的绞盘,修改了播放单元,使其速度降低了两倍。许多年后,我们发现这台绞盘有点古怪,这要归功于米兰的Sergio Cerutti 的早期心率变异性研究,他在我们的一些记录中发现了意想不到的微妙周期性。
在心率变异性研究的背景下,应仔细考虑记录和回放速度的变化,因为在这些记录中不可能进行颤振补偿。我们通过使用与准备数据库相同的设备记录和数字化已知速率的合成心电图来研究频域伪像的来源,并识别与记录器和回放单元的特定机械组件相关的伪像。
由于这两个信号是以非常慢的磁带速度记录在平行磁道上的,双通道记录头和回放头的方向之间的微小差异会导致信号之间的偏斜,在某些情况下偏斜高达40毫秒。此外,在记录或回放期间,磁带的微观垂直摆动会引入时变偏斜,该偏斜可能与固定偏斜具有相同的幅度。这个问题是模拟多轨磁带录音机的共性,也出现在下面提到的 AHA 和欧洲数据库中。在设计用于分析此类记录的算法时,必须考虑信号间偏斜,但对于那些打算使用其算法来分析实时数字化心电图的人来说,这是一个不必要的复杂问题。
虽然可以进行实时回放,但模拟磁带和大回放头之间的摩擦会导致频繁堵塞,需要我们重复数字化过程。在30段录音被数字化后,我们能够在数字化计算机上安装第二个数字磁带机。这使得可以实时数字化两次,在第一个磁带上写入磁道1,然后在第一个磁带倒带时继续第二个磁带上的磁道2,然后在第一个磁带上写入磁道3,等等。
在数字化期间,来自回放单元的模拟信号被过滤以限制模数转换中的饱和和抗混叠,使用相对于实时0.1到100赫兹的通频带,远远超出了记录重现的频率范围。由于记录器是电池供电的,记录中60hz的噪音大部分是在回放过程中产生的。在两次实时数字化的记录中,这种噪音出现在30赫兹(和30赫兹的倍数)。
在这48条记录中,有4条包含有起博心跳(paced beats)。起搏器伪像不能准确地再现在原始模拟记录中,因为这些伪像中的大部分能量在千赫兹范围内,远高于记录器的通带。数据库中的数字化记录忠实地再现了模拟记录,因此用于分析包含有节奏节拍的模拟磁带的软件可以使用这些记录进行评估。在可公开获得的心电图收集中,一个主要的缺口是一组具有代表性的高保真度记录的节奏,这将有助于那些设计软件实时分析这样的信号。
为了记录30分钟的数据可用空间,有必要将数字化数样本转换为8位第一差异,有限制的影响225 mV / s的转换速度,超过了限制,输入信号很少,只在一些记录时期严重的噪音。这个过程对信号质量的影响可以忽略不计。
一旦数字磁带准备好了,我们就用一个简单的斜率敏感的QRS检测器对它们进行注释。接下来,每盘磁带都通过一个数模转换器播放到一个装有一对七元件打印头的热图表记录器上。回放软件和所有其他软件一样是用汇编语言编写的,它产生适当的信号来形成字符,在纸的一边打印周期性的经过时间标记,在另一边打印注释。每半小时的磁带被用来制作两个相同的150英尺(46米)的纸质图表记录。
每次记录的图表都给了两名心脏病医生,他们独立工作,添加额外的心跳标签,必要时删除错误的检测,并更改异常心跳的标签。心脏病专家还添加了节奏和信号质量标签。然后,使用交互式注释编辑器将带有心脏病专家注释的纸质图表转录成计算机可读形式,该编辑器使用用于制作图表记录的相同数模转换器板在示波器上显示波形。这个过程的结果是一个包含两组心脏病专家注释的磁带。
此时,两组注释会自动进行比较,并打印另一个图表记录,在空白处显示心脏病专家的注释,并突出显示所有差异。每个差异都经过审查并以协商一致的方式解决。然后使用注释编辑器输入更正,然后使用检查一致性的程序审核所有的注释。(审计程序还确定了十个最短和最长的心跳间隔,以识别可能的错误检测或错过的心跳。)以这种方式创建和验证了大约110,000个注释。
值得注意的是,48个记录中有6个包含总共33个未分类的心跳,因为心脏病专家注释者无法就心跳类型达成一致。在这些情况下,就像在临床实践中一样,偶尔会发生一些心跳不能被确定地分类的情况,要么是因为记录中的技术缺陷,要么是因为记录中没有足够的信息来允许在两个或多个合理的假设之间进行自信的选择。重要的是,旨在表示“真实世界”信号的数据库应包含尽可能广泛的波形,包括这些模糊的情况,这可能是自动化分析最有趣的挑战。
注释者被指示使用从两个信号中获得的所有证据来识别每个可检测的QRS复波。该数据库包含七个信号或噪声丢失事件,这七个事件在两个通道中同时发生,严重到无法检测到QRS复波;这些事件都很短,总时长约10秒。在所有剩余的数据中,每个QRS复波都有注释,总共约109,000个。
由于数据库的可用性,商用心律失常检测器的一般性能标准迅速提高。
所有这些工作都必须在我们定制的微型计算机上完成。随着处理接近完成,我们开始通过一条9600波特的串行线将数据传输到我们实验室的小型计算机上,该计算机配有一个九磁道磁带驱动器;这个过程需要几个星期。1980年夏天,完成的数据库的第一批拷贝在800 bpi九轨磁带上分发。我们最初的预期是,可能多达十个学术和行业团体可能会获得副本,可能在数据库发布的前六个月内,然后我们可以优雅地退出邮购业务。事实上,六个月后,这一预测似乎仍然可信——但在接下来的九年里,订单继续稳步到达,平均每月一个。在此期间,我们以800和1600 bpi的速度在9轨半英寸数字磁带上分发了大约100份数据库拷贝,在四分之一英寸IRIG格式调频模拟磁带上分发的拷贝数量要少得多。
在数据库的早期版本中,大多数心跳注释都放置在R波峰值处,但是手动插入的标签和噪声期间出现的标签并不总是一致地放置在峰值处。1983年,我们使用软件对原始信号(通常是MLII)进行数字带通滤波,以强调QRS复合波,然后在校正滤波器中的相移后,将每个注释定位在原始位置100毫秒内的主要局部极值处。我们检查了注释的位置,这些注释被重新定位了最大的数量;对于这些被噪声严重破坏的心跳中的极少数,我们手动重新定位了注释。这种后处理步骤允许将心跳注释用作需要波形平均的研究的可靠基准,以及心率变异性研究中心跳间隔的高精度测量(一旦理解了磁带速度变异性的机械来源)。
自1987年以来,尽管有更多的用户进行了严格的审查,还是发现了错误,而且很可能一个也没有了。大约1000个节律注释得到了更多的修订,现在包括了心室双元性、三联性和节奏性的注释,这些注释在早期版本中是没有的。
在整个20世纪80年代,我们收集了更多的记录来支持对重要心律失常的研究,这些心律失常在最初的MIT-BIH心律失常数据库中没有很好地表现出来。虽然我们分发了一些,但主要磁带复制活动对我们研究实验室功能的影响是一个限制因素。1989年,我们生产了一张CD-ROM,其中不仅包括MIT-BIH心律失常数据库,还包括7个额外的心电数据库(当前版本包括两个)。到目前为止,已经分发了大约400份这种CD-ROM。
在1999年,我们建立了一个基于网络的资源,用于研究复杂的生理信号5。MIT-BIH心律失常66数据库的一半以上现在都可以通过PhysioNet获得,这使得学生和其他人可以免费使用这些数据中的很大一部分进行探索性研究。
我们最初避免了使用数据库评估心律失常检测器的方法,以使我们自己和数据库的其他用户有机会开发可能预测“真实世界”性能的性能指标[6]。1984年,我们提出了逐拍和逐集比较参考和算法生成的注释文件的方法[7]。这些方法成为在1984年至1987年间在AAMI医疗仪器进步协会的支持下开发的评估室性心律失常检测器的推荐做法的基础。最近,我们参与了当前美国动态心电图机国家标准[9]和评估心律失常和ST段测量算法[10]的开发,这两个标准都规定了基于早期推荐实践的评估协议。
虽然评估协议的细节超出了本文的范围,但在[7]中提出了一个重要原则,并在推荐的实践和两个国家标准中采用。简而言之,该原理要求被测试的算法或设备必须为每个测试记录产生以数据库提供的参考注释文件的格式的注释文件,或者可以使用算法或附属设备转换成这种文件的等效信息流,其操作细节必须完全公开。然后,使用由标准指定的标准比较软件,通过算法的注释文件与参考注释文件的自动比较来确定所有性能测量。监管机构和心律失常分析仪的最终用户能够验证测试结果[11],因为所有需要的材料(测试数据、比较软件和产生注释文件所需的任何附件设备)对任何人都是可用的。
如果没有对MIT-BIH心律失常数据库的完整讨论,就不可能不提及另外两个重要的长期心电图的收集,这两个长期心电图也可供研究人员使用:AHA室性心律失常检测器评估数据库[12]和欧洲ST-T数据库[13]。AHA数据库是由圣路易斯华盛顿大学的G. Charles Oliver领导的一个小组在1977年至1985年间创建的。这个数据库有许多与MIT-BIH心律失常数据库相同的特性。值得注意的是,这两个数据库都包含了双通道的Holter记录,每段记录都包含了30分钟的信号,这些信号都经过了精心的手工记录。华盛顿大学和 MIT 的小组之间的密切和持续的合作确保了这些数据库将以兼容的格式出现,其内容将是互补的。
入选AHA数据库的记录符合八套严格定义的基于心室外阴严重程度的选择标准之一。因此,AHA数据库对最严重的心室异位症有很好的代表性。八套记录中每一套选了20条。每一个都被分成相等的子集,一个用于算法开发,一个用于性能评估。第一个“开发”记录分布在1982年,自1985年以来,所有80个都由ECRI[12]分发。2000年,ECRI首次提供了80份“评估”记录。
AHA数据库中包含的心室上异位、传导缺陷和噪声污染波形的例子相对较少,这些都是临床实践中常见的。相比之下,我们选择了MIT-BIH心律失常数据库中的一些记录,因为这些记录包含节奏、形态变化和噪音的复杂组合,可以为心律失常自动分析仪提供多种挑战。
1985年,由位于比萨的CNR临床生理学研究所Carlo Marchesi领导的小组评估了他们如何对收集可供研究人员使用的参考心电图记录做出最有用的贡献。他们选择承担建立一个数据库的挑战,以发展和评估ST段和心肌缺血T波的变化。(每个心动周期中跟随QRS波的部分心电图波形,包括ST段和T波,反映心室复极。如果冠状动脉输送到心室心肌的氧气量不足以满足对氧气的需求,就会导致缺血,通常会在ST段和T波中产生明显的变化。
在MIT-BIH和AHA数据库建立后的几年里,动态心电图记录仪的改进使得能够精确地复制观察这些变化所需的0.01-0.10 Hz频率范围内的心电图成分。在欧洲心脏病学会(European Society for Cardiology)的支持下,Pisa小组协调了从11个欧盟国家的临床实验室收集的数据,最终选择了90份两小时的双通道长期心电图记录。按照MIT-BIH心律失常数据库中使用的方法,对这些病例进行了完整的注释,并添加了新的注释类型来表明ST和t波的变化。欧洲ST-T数据库的前50个记录于1990年[13]完成并提供给研究人员,数据库的其余部分于1991年完成。该数据库以与MIT-BIH心律失常数据相同的格式存储在CD-ROM基础上,这是Pisa和MIT小组密切合作的结果。
这些数据库的未来发展可能是地理上分散的研究人员之间基于网络的协作。
自MIT-BIH心律失常数据库和其后不久的AHA数据库发表以来的过去20年的经验,可被视为塑造心律失常检测器发展方向的一次重大实验。在数据库可用之前,性能统计几乎没有价值,因为人们普遍认为每个制造商使用自己的数据设计产品,并设计统计数据以有利的方式展示产品。认真的开发人员试图使他们的算法更加准确,他们面临着与竞争对手的产品功能相匹配的压力,而不是花费精力和金钱进行无法量化的改进,因此没有给产品增加任何可感知的价值。
那么,实验的结果是什么呢?20世纪80年代初,数据库的出现标志着开发工作的巨大变化。最终用户和监管机构开始询问制造商,他们的设备在标准测试中表现如何。制造商别无选择,只能进行测试并报告结果,那些算法达不到竞争对手标准的制造商将他们的开发预算集中在提高性能上。受数据库可用性的刺激,商用心律失常检测器的一般性能标准迅速提高。
然而,如果说制造商在20世纪70年代末有能力生产出更好的产品,而选择为客户明显缺乏对性能的兴趣而添枝加叶,那是不正确的。相反,缺乏准确的数据阻碍了制造商和学术研究人员的进步。许多行业和学术团体执行繁琐的评估,其中通过他们的算法分析未知数据,然后检查算法的输出是否有错误。这种评估方法从表面上看是有吸引力的,因为这个过程可以在任何时候使用任何可用的数据开始。这种方法的主要缺陷不是它引入了偏见(尽管它引入了偏见);在这个过程的最后,评估下一个版本的算法也同样昂贵,因为没有在研究数据方面进行投资,只在描述算法错误方面进行投资。此外,如果没有可再现的测试,就不可能知道两种算法的测量性能的任何差异是由于算法的差异还是数据的差异。
MIT-BIH心律失常数据库、AHA数据库和欧洲ST数据库的成功证明了创建可普遍获得的、有代表性的和特征明确的心电图集合的价值。它们的局限性刺激了其他数据库的发展。特别是,学术研究人员的需求通常是更长的记录,以便可以详细观察单个受试者体内的时间变化模式(例如,24或48小时内的日变化)。
廉价的高容量大容量存储器、激光打印机、彩色图形显示器、高速/高分辨率模数转换器和数字多通道心电图记录仪等进步可以让我们避免25年前面临的许多问题,并收集更高质量的数据。然而,对数据进行详细注释所需的工作仍然是乏味且费力的。
地理上分散的研究人员之间的定量配给,如正在进行的开发24小时记录的长期ST数据库的项目[14]。该项目由Ljubljana(Slovenia) 的弗兰克·贾格尔(Franc Jager)领导,Pisa 的欧洲科技数据库开发人员和我们在 MIT 的团队参与了该项目。使用网络服务器,我们能够与我们的远程同事共享数据,并协同注释这些数据。由于我们的目标是详细描述ST变化,而不是主要识别心律失常(心律失常在这些记录中不如在心律失常数据库中常见),因此我们可以在注释过程中使用比开发心律失常数据库时更合理的自动化,在心律失常数据库中,在节拍标签中引入偏差将是一个更大的问题。我们每年作为一个小组开两到三次会,讨论附加说明并计划未来几个月的工作日程。这样,我们在大约相同的时间内创建了一个比MIT-BIH心律失常数据库大约大两个数量级的数据库。
George B. Moody 是哈佛-麻省理工学院健康科学与技术部门的研究人员科学家,也是PhysioNet的设计者和网站管理员。他的研究兴趣包括生理信号的自动分析、统计模式识别、心率变化率、多元趋势分析和预测,以及人工智能和先进数字信号处理技术在多参数生理监测中的应用。
Roger G. Mark,医学博士,博士,麻省理工学院健康科学与技术杰出教授,电子工程教授。他是复杂生理信号研究资源的副研究员。从1985年到1996年,马克博士担任哈佛-麻省理工学院健康科学与技术部门的联席主任。马克博士的研究活动包括生理信号处理和数据库开发、心血管建模和智能病人监测。他领导的团队开发了MIT-BIH心律失常数据库。