原文:https://arxiv.org/pdf/1612.08012.pdf
摘要
在过去的二十年里,胸部计算机断层扫描 (CT) 扫描中肺结节的自动检测一直是一个活跃的研究领域。然而,只有很少的研究可以在一个通用数据库上提供不同系统的比较性能评估。因此,我们建立了 LUNA16 挑战赛,这是一个使用最大的公开可用的胸部 CT 扫描参考数据库 LIDC-IDRI 数据集的自动结节检测算法的客观评估框架。在 LUNA16 中,参与者开发他们的算法并在以下两个轨道之一上传他们对 888 CT 扫描的预测:1) 应开发完整 CAD 系统的完整结节检测轨道,或 2) 提供一组的假阳性减少轨道的结节候选者应分类。本文描述了 LUNA16 的设置,并介绍了迄今为止的挑战结果。此外,还研究了组合单个系统对检测性能的影响。据观察,领先的解决方案采用卷积网络并使用提供的一组结节候选。这些解决方案的组合实现了超过 95% 的出色灵敏度,每次扫描的误报率低于 1.0。这突出了组合算法以提高检测性能的潜力。我们对四位专家读者的观察研究表明,最好的系统可以检测到最初注释 LIDC-IDRI 数据的专家读者遗漏的结节。我们发布了这组附加结节,用于进一步开发 CAD 系统。
介绍
肺癌是全球最致命的癌症,约占美国癌症相关死亡人数的 27%(美国癌症协会(2016 年))。 NLST 试验表明,与胸片筛查相比,使用低剂量计算机断层扫描 (CT) 对高危受试者进行三轮年度筛查可将 7 年后的肺癌死亡率降低 20% (Aberle et al. (2011) )。作为这项试验和随后的建模研究的结果,使用低剂量 CT 的肺癌筛查计划目前正在美国实施,其他国家可能很快就会跟进。实施这些筛查计划带来的主要挑战之一是放射科医师必须分析大量 CT 图像。
在过去的二十年里,研究人员一直在开发用于自动检测肺结节的计算机辅助检测 (CAD) 系统。 CAD 系统旨在使 CT 图像的解释更快、更准确,从而提高筛查计划的成本效益。 CAD 系统的典型设置包括:1) 预处理,2) 结节候选检测,以及 3) 假阳性减少。预处理通常用于标准化数据,将结节的搜索空间限制在肺部,并减少噪声和图像伪影。候选检测阶段旨在以非常高的灵敏度检测候选结节,这通常会带来许多误报。随后,误报减少阶段减少了候选中误报的数量,并生成了最终的 CAD 标记集。
尽管已经提出了大量的 CAD 系统 (Bergtholdt 等人 (2016); Torres 等人 (2015); van Ginneken 等人 (2015); Brown 等人 (2014); Jacobs 等人 (2014) );Choi 和 Choi (2013);Tan 等人 (2013);Teramoto 和 Fujita (2013);Cascio 等人 (2012);Guo 和 Li (2012);Camarlinghi 等人 (2011);Tan 等人. (2011); Riccardi et al. (2011); Messay et al. (2010); Golosio et al. (2009); Murphy et al. (2009)),只有少数研究提供了客观的比较使用通用数据库的评估框架。已发布的 CAD 系统报告的性能可能会有很大差异,因为不同的数据集用于训练和评估(Firmino 等人(2014 年);Jacobs 等人(2016 年))。此外,据报道,放射科医生对结节的构成存在很大差异(Armato 等人(2009 年))。因此,它很难直接客观地比较不同的 CAD 系统。使用相同框架对不同系统的评估提供了独特的信息,可用于进一步改进现有系统并开发新的解决方案。
ANODE09 是第一个旨在评估结节检测算法的比较研究(van Ginneken et al. (2010))。这一挑战使小组能够根据从肺癌筛查试验中获得的一组共享扫描来评估他们的算法。然而,这项研究仅包括来自单个中心的 50 次扫描,所有扫描均使用一种类型的扫描仪和扫描协议获得。此外,ANODE09 组包含数量有限的较大结节,这些结节通常具有较高的恶性可能性。因此需要对更大、更多样化的图像数据库进行评估。
在本文中,我们介绍了一种新的评估框架,用于自动检测 CT 图像中的结节。为训练和测试提供了一个大型数据集,其中包含 888 个 CT 扫描和来自公开可用的 LIDC-IDRI 数据库 (Armato et al. (2011)) 的注释。已经开发了一个网络框架来有效地评估算法并将结果与其他算法进行比较。还评估了结合多种候选检测方法和误报减少阶段的影响。
本文的主要贡献如下:
(1) 我们描述并提供了一个客观的网络框架,用于使用最大的公开数据集评估结节检测算法; (2) 我们报告提交给框架的算法的性能,并研究组合单个算法对检测性能的影响。我们表明,经典候选检测器与处理这些候选检测器的深度学习架构的组合产生了出色的结果,比任何单个系统都好; (3) 我们通过识别原始 LIDC-IDRI 注释过程中遗漏的结节来更新 LIDC-IDRI 参考标准。
数据
该数据集是从最大的可公开获得的肺结节参考数据库中收集的:LIDC-IDRI(Armato 等人(2011 年);Clark 等人(2013 年);Armato III 等人(2015 年))。该数据库可从 NCI 的 Cancer Imaging Archive2 获得,采用 Creative Commons Attribution 3.0 Unsupported License。LIDC-IDRI 数据库共包含 1018 次 CT 扫描。 CT 图像带有相关的 XML 文件,其中包含来自四位经验丰富的放射科医师的注释。该数据库非常异构:它包括从七个不同的参与学术机构收集的临床剂量和低剂量 CT 扫描,以及广泛的扫描仪模型和采集参数。
正如 Naidich 等人推荐的那样。 (2013);马诺斯等人。 (2014) 和美国放射学会 (Kazerooni et al. (2014)),薄层 CT 扫描应用于肺结节的管理。因此,我们丢弃了切片厚度大于 3 mm 的扫描。最重要的是,切片间距不一致或切片缺失的扫描也被排除在外。这导致了 888 次扫描的最终列表。这些扫描以 MetaImage (.mhd) 图像的形式提供,可以从 LUNA16 网站 3 访问和下载。我们之前的研究(Jacobs et al. (2016))提供了更广泛的数据集描述。
每次 LIDC-IDRI 扫描均由经验丰富的胸部放射科医师在两阶段阅读过程中进行注释。在最初的盲读阶段,四位放射科医生独立注释扫描并标记所有可疑病变为:结节 >=3 mm;结节 < 3 mm;非结节(任何其他肺部异常)。(任何其他肺部异常)。对于标注为 结节>=3 mm 的病灶,提供了直径测量值。在随后的非盲读阶段,所有其他放射科医师的匿名盲法结果被显示给每位放射科医师,然后他们独立审查所有标记。没有强制达成共识。
在 888 次扫描中,放射科医生总共做了 36,378 条注释(LIDC-IDRI标注的)。 我们仅将分类为结节 ≥ 3 mm 的注释视为相关病变,结节 < 3 mm 和非结节病变被认为与肺癌筛查方案无关(Aberle 等人(2011))。结节可以由多名放射科医师注释; 来自不同阅片者的注释被合并,这些注释的位置比它们的半径总和更近。在这种情况下,这些合并注释的位置和直径被平均。这获得了一组 2,290、1,602、1,186 和 777 个结节的注释分别由至少 1、2、3 或 4 名放射科医师进行。我们将大多数放射科医生( 4 名放射科医生中的至少 3 名)注释的 1,186 个结节作为我们参考标准中的正面例子(真正的阳性)。这些是算法应该检测到的病变。 其他发现(1,104 个结节由不到 4 名放射科医生中的 3 名注释,11,509 个“结节 < 3 mm”注释和 19,004 个“非结节”注释)被认为是“不相关的发现”,这些位置上的标记不计为假阳性 归根结底,也不是真正的阳性;(van Ginneken et al. (2010); Jacobs et al. (2016)) 使用了相同的方法。评估中排除了不相关的发现,因为它们构成对不同临床诊断可能很重要的肺部异常(Armato 等人(2011))。 因此,此类病变上的 CAD 标记不是真正的假阳性标记。 它还缓解了关于什么是结节的分歧问题(Armato 等人(2009 年);van Ginneken 等人(2010 年))。