A Rapid, Accurate and Machine-Agnostic Segmentation and Quantification Method for CT-Based COVID-19

A Rapid, Accurate and Machine-Agnostic Segmentation and Quantification Method for CT-Based COVID-19 Diagnosis

  • Abstract
  • Introduction
  • REALTED WORK
    • Overview of CAD System for Lung Diseases
    • AI-Based CAD Systems for COVID-19
    • 2.5D Methods for 3D Segmentation
    • Contributions of Our Method
  • Methods
    • Overall Workflow
    • Embedding to Standrad Space
    • Data Augmentation
    • Three-Way Segmentation Model
    • Performance Measures
  • Results
    • Data and Image Protocol
    • Imaging Segmentation
    • Experimental Setup
    • Segmentation Performance
    • Quantification Performance
    • Augmentation Analysis
    • Runtime and Resources Comparision
    • Case Studies
    • Ablation Studies
  • Conclusion

Abstract

  • COVID-19已经造成了全球大流行,同时变成了全世界最紧迫的威胁。在制定诊断、预后、和治疗战略以及防治这一疾病方面投入了巨大的努力和资源。
  • 虽然核酸检测主要被用作确认这种RNA病毒的疾病的金标准,但已经证明这种做法有很多的假阴性率,特别是对于早期患者,因此CT成像已被作为确认COVID-19阳性的主要诊断手段。
  • 尽管人工智能的计算机辅助COVID-19诊断系统的开发取得了各种迫切的进展,但是现有的方法大多只能进行分类,而现有的分割方法需要高水平的人工干预。
  • 在本文中,我们提出了一个全自动的的、快速的、准确的、机器无关的方法,可以分割和量化不同来源的CT扫描感染区域。
  • 本文方法存在两个创新
    • (1)第一台COVID-19 CT模拟器,通过拟合真实病人不同时间点测量数据的动态变化,大大缓解了数据匮乏的问题。
    • (2)提出了一种新的解决大场景小目标问题得深度学习方法,将三维分割问题分解为三个二维分割问题,使模型复杂度降低了一个数量级,同时显著提高了分割精度。【所谓大场景小目标问题,是不是可以使用多尺度的思想解决,为何说大场景小目标问题使用2.5D方法可以解决?】【这种3D分割转为2D的方法很多,当时是如何想到的,即是不是先用2D进行实验发现精度不够,3D进行实验发现速度太慢且精度提升不大,转而进一步研究肺部结构的特点,采用了2.5D方法】
  • 在多国,多所医院,多机器的数据集上的综合实验结果表明,该方法优于现有方法,在防止COVID-19疾病方面具有重要的应用价值。

Introduction

  • COVID-19是由严重急性呼吸综合征冠状病毒2型(SARS-CoV-2),已经成为全球性的大流行,是人类面临的最紧迫的威胁。它对科学界提出了一个巨大的挑战,以应对敏感,快速,便宜,简单的诊断技术的迫切要求。
  • SARS-CoV-2是RNA病毒,属于冠状病毒家族,它由一个阳性的单链RNA和四个主要结构蛋白组成,包括尖峰蛋白、包膜蛋白、膜蛋白和核衣壳蛋白。因此,从病人样本中检测病毒有两种方法:通过检测病毒RNA的核酸或通过检测病人免疫系统产生的抗体。因此,在中国政府最新公布的《COVID-19肺炎诊治指南》(第七版)中,COVID-19的诊断必须通过逆转录聚合酶链反应(RT-PCR)或基因测序来证实。
  • 然而,由于样本采集和运输的实际问题,以及检测试剂盒的性能,特别是在疫情最初呈现时,这种金标准被证明具有很高的假阴性率。例如,截至2020年2月6日,武汉市1014例COVID-19患者中,只有59%(601/1014)的RT-PCR结果呈阳性,而88%(888/1014)的胸部CT扫描呈阳性。在RT-PCR阳性的601例中,CT扫描的敏感性为97%(580/601)。这表明CT扫描不仅可以通过RT-PCR检测出大部分阳性病例,而且可以检测出更多的病例(在文献[1]中约增加30%)。
  • 因此,CT扫描作为COVID-19的主要诊断标准之一,在许多国家得到了广泛的应用,尤其在我国取得了巨大的成功。

REALTED WORK

Overview of CAD System for Lung Diseases

  • 长期以来,影像学一直被用作肺部疾病的主要诊断来源,如肺炎、肺结核和肺癌。最常用的肺炎成像技术是X射线(或胸部X射线摄影)和CT扫描[2]。X射线能提供平坦的二维图像,而CT扫描能提供横截面图像,用于重建肺部的三维模型。
  • 随着人工智能技术的发展及其在各个领域的应用,特别是计算机视觉和成像技术的发展,人工智能已被广泛应用于肺炎的X线和CT诊断。基于人工智能的计算机辅助诊断(CAD)系统能够提供快速的检测和诊断,在某些情况下,其性能与专业放射科医生相当甚至更精确[2],[3]。因此,在过去的十年中发展了多种方法。
    • 从输入数据的角度来看,现有的基于人工智能的方法可以分为三类:* 以X射线为输入的方法[4]-[8],以CT扫描为输入的方法[9]-[14],以及可以同时处理两者的方法[15]。
    • 从提取特征的角度来看,一些现有的方法是基于手工制作的特征[15],[16],而大多数剩余的方法是基于通过深度学习方法自动提取的特征[4]-[14]。
    • 从机器学习模型的角度来看,现有的大多数方法[4]–[9],[11]–[15]都是基于卷积神经网络(CNN)及其变体的,这些方法在计算机视觉和成像任务中取得了巨大的成功。为了缓解生物医学成像任务中普遍存在的数据不足问题,采用了迁移学习[4]、[6]和预训练[15]等技术。

AI-Based CAD Systems for COVID-19

  • 尽管X射线一直是诊断肺炎最快和最容易获得的筛查工具,但已经显示X射线在检测COVID-19患者方面不如CT扫描,因为COVID-19肺炎的指示性特征仅在3D信息中可见,例如肺部磨玻璃样阴影(GGO)病变周围肺、后肺及肺结节[1]、[17]、[18]。CT扫描检测COVID-19患者的快速读取速度和高灵敏度[1]使得基于CT扫描的人工智能CAD系统成为应对COVID-19大流行指数级扩张的理想方法。
  • 因此,许多基于人工智能的CAD系统被迅速开发和部署,作为应对这场全球危机的科学努力[18]-[23]。由于需求的紧迫性,这些方法大多不侧重于提出新颖的、有原则的机器学习方法,而是通过直接应用现成的方法(如CNN、ResNet和inception网络)快速建立一个可行的模型。
  • Xu等人[22]将CNN和ResNet模型结合起来,在CT扫描数据集上训练了一个针对COVID-19的筛查系统,该数据集由110名COVID-19患者、224名流感患者和175名健康人组成。他们的模型达到了86.7%的分类准确率。在一项类似的研究中,Song等人[21]应用了一种称为DeepPneumonia的细节关系提取神经网络(DRE-Net)模型,并在CT图像数据集上对其进行了训练,该数据集包含88名COVID-19患者、101名细菌性肺炎患者和86名健康人,其模型的准确率为86%,AUC(ROC下面积)为0.95。Wang等人[20]首先试图通过从CT扫描中提取感兴趣区域(ROI)图像来降低问题的复杂性,然后通过改进的初始网络提取特征向量,最后使用完全连通层来区分COVID-19图像和典型的病毒性肺炎图像。在一个包含1065张CT图像的数据集上,30%是COVID-19图像,他们的模型达到了89.5%的分类准确率。
  • 尽管从CT扫描中识别和分类COVID-19患者对于诊断非常重要和及时,但是一线临床医生迫切需要对患者肺部的感染量进行分割和量化。这些信息不仅对诊断,而且对患者的预后和治疗都至关重要。例如,如果病人的感染量超过整个肺部的50%,死亡率就很高。相反,如果一个病人的感染只发生在五个肺叶中的一个,预后是非常有希望的。然而,在开发用于COVID-19诊断的CAD系统的各种努力中,只有少数人能够从CT扫描中分割和量化感染区域。Shan等人[23]采用了“人在回路”的工作流程,从一小批手工分割的CT扫描开始;然后基于这一批构建初始模型并应用于下一批;要求放射科医生纠正分割;细化模型;然后进行下一次迭代。他们的机器学习模型应用了结合V-Net和瓶颈结构的3D CNN。对249例患者的249次CT扫描进行训练,并对300例患者的300次CT扫描进行测试,他们的主动学习框架要求人类专家剪切或添加最终输出的9.17%,以使分割结果令人满意。
  • 尽管基于人工智能的计算机辅助设计系统在基于CT的COVID-19分类、分割和量化方面取得了巨大进展,但由于临床应用的迫切需要,现有的方法仍存在以下一个或多个瓶颈。1) 它们针对特定的数据集进行训练和优化,这些数据集通常由同一台CT机器收集,具有相同的参数,并由相同的放射科医生进行注释。因此,这些模型往往是特定于数据集的,并且缺乏对来自其他机器的数据集的泛化能力,这妨碍了它们的实际使用。2) 高质量的、带注释的COVID-19患者数据的获取往往是有限的和受限的,这不能为数据饥渴的深度学习模型提供足够的训练数据,特别是在COVID-19早期,需要人工智能系统最迫切的帮助。3) 大多数现有方法只能对COVID-19患者进行分类,但不能提供感染体积的分割和量化,而能够这样做的最先进方法需要高水平的人为干预,这很难满足,特别是在爆发期间[23]。

2.5D Methods for 3D Segmentation

  • 最近,有一种趋势是使用二维方法来加速和提高三维模型在三维分割任务中的性能。在文献中,融合一堆二维分割模型得到三维分割的方法称为2.5D模型。Silver等人[29]合并了9个不同视图的分割结果,并在4个不同数据集的13个分割任务中达到了最先进的性能。Zhou等人[24]和Li等人[25]都融合了多个2D模型,以提高3D医学图像分割任务的训练时间和性能。他们发现,通过利用2D分割模型的优点,他们的2.5D方法有时优于最先进的3D模型,如3D U-Net。一般来说,2.5D模型具有以下优点:1)训练和细化的简单性:2.5D模型的超参数比3D模型要少得多,因为模型复杂度要低得多;2)收敛速度更快:由于2.5D模型通常参数较少,内存需求也较低,它们的收敛速度通常比三维模型快得多;3)更快的预测时间:例如,[26]使用二维分割模型将三维分割的预测时间从54分钟缩短到实时。

Contributions of Our Method

  • COVID-19患者CT扫描感染区域的分割是一个小数据量的三维分割问题,为此我们提出了一个2.5D模型。在这项工作中,我们提出了一个全自动,快速,准确,和机器无关的分割和量化方法,用于基于CT的COVID-19诊断。我们的方法有以下创新:
    • 1)为了解决数据匮乏的问题,我们提出了第一个针对COVID-19的CT扫描模拟器,通过拟合真实病人在不同时间点测量的数据的动态变化;
    • 2)对于这个数据有限的大场景小物体问题,我们提出了一种新的算法,利用肺部和其他组织的对称性,将三维分割问题分解为三个二维分割问题,减少了一个数量级的模型参数,同时显著提高了分割精度。
  • 得益于这两项创新,我们的模型在从来自多个国家、多家医院和多台机器的患者,尤其是早期患者的CT扫描中分割和量化感染区域方面表现非常好,从而为COVID-19患者的诊断、治疗和预后提供了关键信息。

Methods

Overall Workflow

  • 图1示出了所提出的方法的总体工作流程。感染分割的任务是找到一个映射F:RH×W×S {0,1}H×W×S,其中H×W是每个CT图像的图像大小,S是扫描的图像数。不同的CT扫描仪扫描不同的体积,具有不同的分辨率和参数,如H、W和S。因此,我们提出了一种数据预处理方法,将任何CT扫描嵌入机器无关的标准空间。
  • 深度学习模型是数据饥渴,而COVID-19 CT扫描数据很少可用或可访问。由于我们的数据包含同一患者的多个时间点CT扫描,我们开发了一个动态模型来模拟感染区域的进展。我们的仿真模型能够生成大量的训练数据,与实际数据高度相似。通过模型与实际数据的拟合,确定了仿真模型的动态参数。然后利用仿真模型对每个训练样本进行200次CT扫描,从中提取增强数据。随着数据的增加,我们的模型获得了更高的性能。
  • 分割任务是在三维张量上进行的,每个张量有108个体素,我们只有有限的训练样本,即使是在数据增强之后。传统的三维分割模型如3D-U-Net需要大量的训练样本,其预测速度对于临床应用来说太慢,尤其是在COVID-19的峰值时期。为了克服这个困难,我们将三维分割问题分解为三个二维问题,分别沿x-y、y-z和x-z平面。我们的分解策略比传统的三维分割方法和最新的2.5D模型具有更高的性能,并且每次CT扫描的预测时间只有几秒钟。

Embedding to Standrad Space

  • 基于人工智能的CAD系统的一个主要瓶颈是,它们是在特定的数据集上训练的,因此可能无法直接推广到其他数据集。另外,当输入的数据来自不同的医院,被不同的机器以不同的参数采集时,现有的方法大多不能直接处理。
  • 为了克服这两个问题,我们提出了一种预处理方法,可以将任何肺部CT扫描投影到同一个标准空间,这样我们的模型就可以将异构数据集作为输入,从而具有机器无关性,并且适用于任何未来的数据集。尽管预处理是图像分析中的一个标准步骤,但据我们所知,在CT图像处理中还没有一种方法能够同时统一分辨率、维数和信号强度。我们的预处理包括两个标准化步骤。第一种是空间归一化(图2),它统一了CT扫描的分辨率和尺寸;第二种是信号归一化,它基于CT扫描仪的肺窗标准化每个体素的信号强度。
  • 空间归一化:空间归一化同时统一了分辨率和维数。不同的CT扫描具有不同的分辨率:对于高分辨率扫描,每个体素可以对应0.31×0.31×0.9mm3的体积,而对于低分辨率扫描,每个体素可以代表0.98×0.98×2.5mm3。在我们的数据集中,CT分辨率的标准值为334512×334512×1.00m3,这是我们选择的标准分辨率。我们要求标准的包埋空间S代表334×334×512mm3的体积,这个体积足够大,可以完全容纳任何人的肺。因此,S R512×512×512。
  • 注意,我们的空间标准化中的不变量是每个体素的体积(即标准分辨率)。在空间归一化过程中,首先将CT扫描填充或切割成334×334×512mm3的体积,然后使用Lanczos插值[27]重新缩放到标准分辨率(图2)。
  • 2) 信号标准化:CT数据的值以Hounsfield单位(HU)为单位,这意味着它们是基于水和空气的X射线衰减系数进行线性标准化的。然而,HU在肺部CT扫描中并不理想,因为肺实质的平均CT值在不同的数据集中有所不同(例如,在我们的数据集中从−400 HU到−600 HU)。
  • 在实践中,专家为每台CT扫描仪设置肺窗,肺窗中人体组织的类型对所有扫描仪都是近似不变的,例如,窗位在肺实质的平均CT值附近。两个量,窗高(WL)和窗宽(WW),通常用来描述这种肺窗。WL被定义为这个窗口的中心信号值,WW是这个窗口的宽度,它决定了上限值和下限值之间的差异。
  • 因此,我们建议使用WL和WW对信号强度进行归一化:S的所有体素都经过线性变换:
  • 其中Ioriginal是原始数据的CT信号强度,unormalized是信号归一化后的相应信号强度。信号标准化可被视为原始Hounsfield标准化的模拟,该标准化通过将肺实质的值设置为0并将肺窗口中人体组织的值转换为[-0.5,0.5]的范围来移除肺CT扫描的机器特定参数。
  • 因此,在空间和信号归一化后,任何CT扫描都将被投射到一个标准的嵌入空间S中,其尺寸为R512×512×512,分辨率为334 512×334 512×1.00mm3,信号强度范围为−0.5,0.5]。

Data Augmentation

  • 深度学习模型是一种数据饥渴的学习模型,它不仅需要大量而且需要高质量的标注数据进行训练。不幸的是,在许多应用中,特别是生物医学成像,这样的数据很少可用或可访问。
    例如,COVID-19唯一公开的图像数据收集只包含X射线数据[28]。为了克服深度学习应用中缺乏数据瓶颈的问题,研究人员一直在运用模拟的思想,如模拟围棋游戏[29],模拟时间序列荧光显微图像[30],模拟原始序列信号[31],[32]。

  • 一个成功的模拟器的关键是捕获并精确地量化生成真实数据的底层分布。对于我们的问题,虽然我们的主要目标集中在早期COVID-19患者CT扫描的诊断和分割上,但我们的数据集确实包含在患者病程不同时间点进行的多个CT扫描,我们可以从中提取随时间推移的统计数据来构建我们的模拟模型。图3示出了代表性患者的感染的动态变化。该图提供了感染进展的三维可视化,并绘制出感染区域的体素强度分布。

  • 通过对感染动态变化的建模和仿真,进行数据扩充。动态模型有四个基本组成部分:新感染是如何产生的;旧感染是如何被吸收的;感染体素的标准化CT信号是如何变化的;正常体素的标准化CT信号是如何变化的。我们首先建立了动态模型,然后描述了如何拟合模型的参数以及如何进行数据扩充。

  • 1) 模型表述:a)状态:动态模型的状态由标准化数据S R512×512×512和感染掩码M {0,1}512×512×512:=(S,M)确定。(2) b)马尔可夫性:考虑到我们只对短时间进行建模,状态应该满足马尔可夫性。也就是说,我们假设在24小时内,每个感染区域进化100次。

  • 将时间点t处的状态表示为 t=(St,Mt),过渡函数表示为t,因此 t+1=(St+1,Mt+1)=t(t)=(TS(St),TM(Mt))。我们需要找到一个合适的过渡函数T,以便在进化过程中,状态的发展(增强数据)符合真实数据,即同一患者不同时间点的CT扫描。
    在对我们的数据集进行了广泛的观察和分析之后,我们有三个有趣的发现。首先,对于CT扫描,尽管可以有许多断开连接的感染区域,但是每个感染区域的归一化体素强度的分布是高度保守的(图3b和图3e)。其次,大多数感染区域的频率分布在−0.025和0.025附近有两个明显的峰值。在0附近有一个清晰的山谷(图3b和图3e)。第三,当感染恶化时(例如,从早期到进展阶段,或从进展阶段到严重阶段),低于0的体素绝对数量比高于0的体素数量的快速增长要稳定得多(图3c)。第一个发现表明,动态模型可用于所有感染区域。第二个发现建议我们应该使用不同的演化函数来描述信号大于或小于0的体素。第三个发现表明我们可以用简单的函数如线性函数来描述体素绝对数在0以下的变化。有了这些发现,我们进一步简化了动态模型。因此,我们根据这些准则来确定T。我们首先确定TM,它描述了新的感染体素是如何产生的以及旧的感染体素是如何被吸收的。我们有两个关于TM的假设,这两个假设与一线放射科医生讨论并得到证实。它们是:

    • 1)感染模型:在的转换过程中,GGO附近的正常体素更有可能成为GGO体素。
      此外,正常的体素如肺、气管、血管等外部区域永远不会成为感染区域的一部分。
    • 2) 恢复模型:当信号强度小于−0.15时,体素将变为正常体素。
  • 接下来,我们确定TS,它描述了信号在转换过程中的变化。我们有四个关于TS的假设,这些假设与一线放射科医生讨论并得到证实。它们是:1)正常体素的不变性:正常体素的信号强度在过渡期间是不变的。2) 吸收:通过CT信号测量炎症浸润,我们的身体以恒定的速度吸收炎症浸润。3) 实变和纤维化:当CT信号增加时,体素逐渐实变,这意味着其信号更难进一步增加。4) 阈值0:当GGO体素的强度达到0时,其信号将不再增加。它有可能转换到下一个阶段并通过值0。

  • 我们的动态模型有两个主要功能。首先,它可以生成符合COVID-19真实数据信号强度分布的感染区域。第二,它可以生成符合真实数据形态和空间分布的感染区域,参数由用户控制。例如,我们可以要求GGO病变更广泛,而肺实变则相对聚集。
    过渡函数T的详细算法见支持材料中的S1节。T有八个独立的参数。我们将动态模型的参数表示为W,即T=T(W)。

  • 2) 从实时序列CT扫描数据拟合:我们需要两种状态:开始状态 ti和结束状态 tj来拟合动态参数。 ti需要tj−ti转变为 tj。因此,通过在 ti上应用T(W)T j−ti次,我们将得到模拟的ˆT j。
    ˆt j(表示为ˆFt j)的信号强度分布与 t j(表示为Ft j)的信号强度分布之间的差异被用作优化W的损失函数:
    这里L(W)是损失函数,x是CT信号。
    有非常快速的算法来计算L(W),而不显式地计算ˆt j,这可以在支持材料的S1节中找到。图3c给出了信号强度分布随时间的变化的示例。通过最小化损失,我们可以用W来拟合 ti和 tj。有关安装程序的更多详细信息,请参见支持材料中的S1部分。

  • 3) 通过模拟增加数据:在我们的数据集中,每个患者都有一次早期扫描。我们假设在最早扫描前三天(时间t0=0),几乎没有感染。将患者的扫描序列和面罩表示为: t0, t1, t2。, tN。(4) 这里 t0设置为:通过将最早扫描St1的所有感染体素设置为−0.15获得St0,并且通过随机选择Mt1的10%感染体素获得mt0。因为我们按照24小时的时间定义100次转换,并假设第一次CT扫描发生在 t0后3天,所以我们得到t1=300。在数据增强过程中,我们为每对相邻的时间点 ti−1和 ti,1 i N拟合参数Wi,并对 ti应用T(Wi)进行200次转换,以模拟200个时间点的CT扫描。然后我们随机选择1%的模拟扫描作为增强数据。通过动态仿真,训练样本增加了200%。
    值得注意的是,我们的数据增强可以看作是CT扫描时间序列的“插值”方法。然而,它不是插值感染区域的形态,而是插值感染体积和感染体素的信号分布。我们发现,我们的方法在200%的增强率下取得了最好的性能(表五)。

Three-Way Segmentation Model

  • CT扫描被表示为3D张量,对于3D张量,最直观的想法是直接应用3D深度学习模型,例如3D CNN和3D U-Net。然而,众所周知,这样的3D模型存在各种问题[25],包括参数数量多、收敛速度慢以及对内存的高要求。因此,已经努力通过沿z轴(身体方向)取切片来将3D分割问题分解成一系列2D分割问题,但是由于信息丢失,这种策略通常具有不令人满意的性能。
  • 在这里,我们建议将3D分割问题分解为三个2D问题,分别沿x-y、y-z和x-z平面。我们的想法基于两个事实。首先,在我们沿着x-y平面进行手动注释的过程中,当放射科医生对体素感到模棱两可时,他们通常会参考y-z和x-z平面上的图像来做出最终决定。因此,这三个平面的几个2D图像包含有关体素是否感染的基本信息。其次,我们的正常组织,如肺叶、肺动脉、静脉和毛细血管,比感染区域的形态规则得多。它们的形态在不同的患者之间或多或少是保守的,而患者的感染区域可能完全不同。如果一个模型只看一个方向,比如说横截面x-y平面,那么动脉或静脉就很难与感染区域区分开来,而如果看x-z或y-z平面,就很容易区分它们。
  • 让我们建立三向细分模型。 任何肺部CT扫描都会转换为S R512×512×512。 对于每个体素S,都有三个图像:x-y平面上的Pxy,y-z平面上的Pyz和x-z平面上的Pxz,因此s = Pxy Pyz Pxz。 因此,的语义可以认为是:
  • 其中p是体素是感染点的概率。 g是从三个正交视图确定体素语义的功能。 直接训练基于(5)的模型非常耗时。 因此,我们建议对(5)使用近似值:
  • (6)代表我们的三向模型架构。 ˆp是成为感染体素的预测概率,是真实值; fxy,fyz,fxz是三个中间模型,这三个模型的输入分别是来自x-y,y-z和x-z平面的信息。 然后,中间模型输出对的语义的预测,我们将它们的输出表示为ˆpxy,ˆpyz,ˆpxz,这是三个实数值。 g是用于组合ˆpxy,ˆpyz,ˆpxz以获得最终预测predictionp的聚合函数。 我们的模型训练分为两个阶段:第一个阶段是训练中间模型,以计算每个体素S的pxy,pyz,pxz。 第二个是为最终预测确定一个合理的g。
  • 中间模型:假设Pxy R512×512是来自S的x-y平面的图像,并假定2d分割模型fxy可以针对x-y平面中的任何图像分割感染像素。 因此,fxy(Pxy)R512×512的输出是感染的概率图,它是pxy,Pxy的2D数组。 沿x-y方向有512个不同的图像,因此计算512倍的fxy将得到ˆpxy,S。类似地,对于y-z方向的图像,我们有一个二维分割模型fyz,对于x-z方向的图像,我们有一个fxz。 通过计算这三个模型,我们为每个体素S获得ˆpxy,ˆpyz,ˆpxz。
    我们尝试了许多2D分割架构,包括U-Net,Mask R-CNN等。我们还尝试使fxy,fyz和fxz共享一些参数。 实验表明,三个独立的U网络具有最快的训练时间,并且表现最佳。 因此,我们的中间模型是三个独立的2D U型网络。
  • 与经验丰富的前线放射科医生讨论过COVID-19之后,我们进一步改进了中间模型。
    尽管放射科医生认为,通过结合Pxy,Pyz和Pxz,他们可以确定体素是否为感染,但如果我们想了解更详细的语义(如感染是由H1N1还是COVID-19引起的),他们必须从中了解更多信息。 相邻的图像。在实践中,他们经常检查至少四个额外的图像,它们是距体素的-5,-2,+2和+5毫米的图像。 由于我们标准嵌入空间的分辨率对于x轴和y轴为334 512mm,对于z轴为1.00mm,因此与图像相距-5,-2、0,+ 2和+5毫米的图像 包含体素(表示为第i个图像)的是沿x轴或y轴的图像i-8,i-3,i,i + 3,i + 8和i-5,i-2,i ,i + 2,i + 5沿z轴。 我们还尝试了该参数的其他组合,其性能次于-5,-2、0,+ 2,+ 5的组合(支撑材料中的表S1)。 这个想法在概念上与扩张卷积相似,后者从相邻切片中聚合信息以有效地提高性能[33]。
    因此,根据实验和临床实践,中间模型fxy,fyz和fxz是三个独立的U型网络,它们输入五个相邻图像(输入尺寸:R5×512×512),并输出中心图像的感染概率图 (输出尺寸:R512×512)。
    2)聚合函数g:计算每个体素S的中间预测predictionpxy 、, pyz,ˆpxz之后,有很多方法可以将它们汇总在一起:固定或可学习权重的线性组合,然后取一个阈值; 将它们相乘; 使用具有这三个值的SVM作为特征,等等。尝试了许多选择之后,我们发现性能最好的g是一个二进制函数,该函数简单地对中间预测值进行求和,然后将阈值设置为2:g(ˆpxy,ˆpyz,ˆpxz )=(ˆpxy + ˆpyz + ˆpxz)> 2(辅助材料中的表S1)。 这意味着正常组织在至少一个平面上看起来与感染不同。

Performance Measures

  • 要评估细分效果,我们使用Dice,召回率和最坏情况下的骰子性能。 骰子或骰子相似系数(DSC)和召回率定义为:
  • 其中Y是放射线医生注释的地面真相感染区域,Y是通过方法预测的感染区域,| Y | 表示集合Y的基数。Y和Y均为二进制张量。 众所周知,对于二元分类器,骰子与F1分数相同。 对于COVID-19诊断,召回是一项重要的测量,因为缺少检测会导致患者的致命后果并给社区带来巨大威胁。 我们进一步使用最坏情况的性能来表示一种方法,即使在最坏情况下,也能够将可靠的预测进行概括。
  • 为了评估量化性能,我们使用均方根误差(RMSE)和Pearson相关系数(PCC),其定义为:
  • 其中N是CT扫描的次数,zi是第i次扫描的感染量占肺部容积的真实百分比,z i是i-扫描的感染量对肺部容积的预测百分比 第z次扫描,Z是所有扫描的真实百分比,Z是所有扫描的预测百分比,cov(Z,Z)是Z和Z之间的协方差,Z是标准偏差 Z.
    最后,我们比较了不同方法的培训和测试运行时间以及内存成本,以评估它们在满足快速诊断COVID-19需求方面的有用性。

Results

Data and Image Protocol

  • 我们在中国黑龙江省(共称哈尔滨数据集)收集了来自4家不同医院的140名COVID-19患者的201例匿名CT扫描,并通过6种不同的CT扫描仪进行了扫描。 此外,为了在第三方数据集上验证我们的方法,我们从沙特阿拉伯利雅得国王费萨尔专科医院和研究中心(KFSHRC)的20例COVID-19患者中收集了20例匿名CT扫描,并通过2种不同的CT扫描仪进行了扫描 (以下称为利雅得数据集)。 由于我们特别关注早期患者,因此我们确保每位患者从早期开始至少要进行一次CT扫描。
    所有患者均通过核酸检测或抗体检测得到证实。 CT成像方案显示在表I中。它们代表了各种各样的数据类型:每位患者的CT扫描次数为1至5;每位患者的CT扫描次数为1。 患者年龄从19岁到87岁; 每次CT扫描的图像数量范围为245至408; 重建后的切片厚度为1mm至5mm。 窗宽从1200HU到1600HU; 窗口级别范围从-600HU到-400HU。
    KAUST的机构生物安全和生物伦理委员会,哈尔滨医科大学和KFSHRC批准了这项研究,并且由于这项研究具有回顾性,因此无需知情同意。

Imaging Segmentation

  • 肺部和五个肺叶由黑龙江拓盟科技有限公司开发的诊断图像处理软件自动分割。感染区域由两名具有20年经验的放射线师手动分割。 详细的细分协议可在支持材料中的S3节中找到。
    哈尔滨数据集在体素级别上进行了仔细的分割。
    由于感染区域的密度通常高于肺部其余部分,因此需要手动检查高密度的肺组织,并将其从分段的感染区域中移除,例如肺动脉,肺静脉和肺毛细血管。 放射科医生未在像素级别对利雅得数据集进行细分,而是在感兴趣区域(ROI)级别(由圆圈表示)上进行了细分。 因此,哈尔滨数据集用于定量和定性评估,而利雅得数据集用于定性评估。

Experimental Setup

  • 为了进行定量评估,我们在患者水平上对哈尔滨数据集进行了5倍交叉验证(CV),即将所有患者随机分为5倍,每次使用4倍进行训练和验证,其余 一个用于测试。 如果在一组中选择了患者,则其所有CT扫描都将包含在该组中。 所有比较的方法都在相同的五重拆分中进行了训练和测试,以确保公平的比较。 为了模拟实际应用,报告了平均扫描级别的性能,而不是患者级别的性能。
    由于我们的数据集来自多种来源(表I),因此在应用任何比较方法之前,我们应用了相同的空间和信号归一化。 归一化后,每次扫描的尺寸为R512×512×512,每个体素的分辨率为334512×334512×1.00mm3,肺部窗口内的信号强度范围为[-0.5, 0.5]根据第III-B节的规定。
    我们对哈尔滨数据集应用了不同比率的数据增强。 也就是说,根据第III-C节,对于数据集中的每个CT扫描,我们将不同数量的扫描模拟为增强数据。
    在评估过程中,我们首先将IV-D&E部分中的增强比例固定为200%(即,对于每个CT扫描,我们模拟了两次扫描),并在相同的增强数据集上训练了所有比较方法。 我们选择200%的原因有两个:1)大多数比较方法在此比率下获得了最佳性能(表V),而没有的方法(例如3D U-net和3D V-net)仅具有很小的性能。 该比率与最佳比率之间的性能差异; 2)通过固定扩展率,我们公平地评估了不同的细分模型。
    然后,我们在第IV-F节中评估了通过不同方法进行数据增强的详细效果。 为此,我们将数据分别增加了0%,50%,100%,200%,300%和400%,其中50%表示对于每次CT扫描,我们都模拟了一次扫描,并给出了50%的概率被包括在内 在训练数据集中。 因此,我们通过各种方法对我们的数据增强策略的效果进行了全面评估。
    我们将我们的方法与基线2D分割方法(即xy平面上的2D U-net),最新的2.5D分割方法(即MPUnet [34]和H-DenseUNet [25])进行了比较(以下简称为 H-DUnet)),经典的3D方法(即3D U-net [35])以及可用于COVID-19(例如3D V- 净[23],[36])。 由于[23]中的方法基于人在环策略,因此我们的实现仅测试其骨干3D模型,而不能表示其方法的实际性能。
    在3D模型的实施过程中,由于直接实施会消耗大量GPGPU无法容纳的内存,因此我们将512×512×512预处理的CT扫描分为128×128×128的许多子体积,并分别填充 他们独立地进入网络。 这是3D图像处理中的一种常见做法,不会对3D分割的性能产生太大影响,因为大部分用于分割的信息都很好地保留在了子卷中。
    值得注意的是,对于我们的方法,我们为用户提供了两个输出:1)二进制预测,其中1代表感染,0代表正常,2)实值预测,表示体素被感染的可能性。
    有两个原因。 首先,通过与一线放射科医生的讨论,他们认为将这种概率离散化为二进制预测的可调阈值对于临床应用实际上是有用的。 其次,由于我们数据集的高度异质性,大量可能的感染形态以及有限的COVID-19样本,因此将概率转化为训练集上的二元预测的最佳阈值可能并不相同 作为验证集上的最佳选择(即,我们将5折CV的每次迭代将4折分为训练和验证)。 相同的逻辑适用于所有比较的方法,因为它们还可以输出实值(例如,softmax层的输出)和离散预测。 因此,我们在相同的验证集上进一步调整了所有比较方法的阈值,并为每种方法选择了最佳阈值。 然后,在应用相应的阈值之后,基于离散化的二进制预测进行所有评估。

Segmentation Performance

  • 我们首先着手评估该方法的分割性能。 如表II所示,我们的方法比所有比较的方法具有显着更高的骰子,将次优方法(3D V-net)提高了约0.14,这证明了其在感染的体素分类上的优越性能。 我们的方法能够识别大多数感染区域,召回率为0.776,这比H-DUnet(0.802)略低。
    但是,H-DUnet以大量误报为代价实现了此次召回。 此外,我们的方法不仅准确,而且鲁棒性强:就骰子而言,最坏情况下的性能为0.557,而H-DUnet在3例(小于0.2的骰子)下失败,而其他方法在更多情况下均失败。
    MPUnet在许多情况下似乎相当不稳定并且失败,这与它们报告的性能以及在大场景小对象任务(例如肿瘤分割)(例如[34]表I中的任务1、3、6和10)上的表现和高方差相符。 ])。
    表II中的结果表明,我们的2.5D模型明显优于其他2.5D模型(即MPUnet和H-DUnet),这似乎是违反直觉的,因为我们的三元模型在概念上比比较的2.5D模型更简单。 这有两个主要原因。 1)其他2.5D模型的参数数量是我们模型的参数数量的五倍以上(表VI第二列)。
    2.5D模型在图像分割中的大多数应用都集中在小场景大对象场景上。 但是,COVID-19的CT扫描分割,尤其是早期扫描,是数据有限的典型大场景小对象问题,因此参数过多的模型无法有效学习。 2)我们的数据包含来自具有不同协议的不同计算机的CT扫描。 实际上,2D U-net,H-DUnet,MPUnet,3D U-net和3D V-net分别未能将感染区域分割为13、3、31、12和8例,严重影响了它们的整体性能 。
    详细检查发现,这些失败的病例大部分是带有伪影的扫描或感染区域很小。 如果不考虑这种情况,则现有方法可以实现更好的性能(表II第二个方框)。
    为了进一步验证这一点,我们对哈尔滨数据集的最高质量和变化较小的子集重复了实验,该子集是从同一家医院的同一台CT机(即,医院ID为“ A”的CT扫描仪ID为“ 1”)收集的 在表I中)。 该子集包含由256片Brilliance iCT(飞利浦)拍摄的50例患者的CT扫描,并且在我们的数据集中具有最高的信号音比,这已由放射科医生目视确认。 我们进行了5倍交叉验证(表II第三个方框)。 与整个数据集的性能相比(表II第一个块),我们的方法的性能稳定且健壮,而其他方法在骰子和查全率方面都有明显的提高。

  • 表II中报道的分割方法的性能似乎与一些最近的研究不一致,例如[23]。 可能有三个原因。
    首先,我们的数据集包含不同阶段扫描的混合,其中大多数是早期阶段的扫描(73%)。 一般而言,早期阶段的分割比渐进阶段和严重阶段的分割更具挑战性,因为感染区域分散且较小,许多感染区域没有明确的边界,并且感染量变化很大(例如, 一次早期扫描的感染区域体积可能是另一次早期扫描的感染区域体积的500倍以上)。 其次,我们的数据集的真实性基于非常详细的手动分割,该分割不包括感染内的气管和血管,这使得体素级骰子成为高度严格的评估指标。
    为了验证这一点,我们使用了不太严格的评估标准。
    即,只要预测的感染点在与真实感染点相距2像素以内的范围内,就算为真实阳性。 此标准将使预测任务更加容易,尤其是对于早期患者。 使用此标准进行评估,现有方法的平均骰子至少提高了0.2,而我们方法的平均骰子仅提高了约0.12(表II的第四个块与第一个块)。 这表明我们的方法能够预测分散的微小感染区域,这对于分割早期患者的感染至关重要。 第三,最近的出版物[37]报告说,不同细分模型的平均骰子约为0.55,这与我们报道的值一致,并表明绝对骰子值高度依赖于数据集,因此不同方法之间的相对比较 更重要。
    然后,我们对早期,进行中和严重阶段不同方法的性能进行了更详细的分析。
    如表III所示,现有方法在进行阶段和严重阶段均表现良好。 在最困难的阶段,即早期阶段,我们的方法比现有方法有更大的优势,即与第二好的方法3D V-net相比,骰子增加了0.18多个。 这说明了我们的方法对早期患者进行细分的能力。

  • 图4显示了来自Harbin数据集和Riyadh数据集的不同方法的分割结果的四个代表性示例。 可以看出,我们的方法在这些示例中始终表现良好,而比较的方法有时会细分感染区,有时会细分感染区。 对于第二个示例,我们的方法可以正确地分割大部分大的感染区域,同时区分嵌入在区域中的动脉和气管(由蓝色箭头指示)。 有趣的是,对于第一个示例,我们的方法还区分了感染区域中一个可能的气管(由蓝色箭头指示),而手动注释将其视为感染。 在咨询了有经验的放射科医生之后,该区域确实是气管。

Quantification Performance

  • 然后,我们通过比较感染体积与肺体积的实际百分比与预测感染体积与肺体积的百分比之间的RMSE和Pearson相关系数,评估了不同方法的定量性能。 该百分比已显示出可为COVID-19患者的治疗和预后提供关键信息。
    表IV显示,我们的方法可对感染量进行高度准确的定量,平均错误率仅为2.5%,远低于第二好的方法。 我们的方法的最坏情况错误率是4.9%,而其他方法的最坏情况错误率至少是16%,甚至可以高达31%。 这种显着的出色表现是由于我们模型的精确分割及其从感染区域正确地区分肺组织(如动脉和静脉)的能力。

Augmentation Analysis

  • 为了全面评估数据增强的效果,我们在训练数据上应用了不同的增强比率,并在表V中报告了所有比较方法的性能。很明显,所有2D,2.5D和3D方法都可以从数据增强中显着受益 ,这表明我们的数据扩充方法有可能成为提升COVID-19最新分割方法的一般策略。
    我们观察到,不同的方法在不同的增强比下均能达到最佳性能。 通常,2D和2.5D方法往往比3D方法(例如100%)受益于更高的增强比率(例如200%),尽管比率高于100%的差异似乎很小。 这是有道理的,因为与3D模型相比,2D和2.5D模型将较少的信息作为输入,因此要区分肺叶,肺动脉,静脉,毛细血管和伪影非常困难。 数据扩充可以极大地帮助和加强他们正确地消除这种错误肯定的预测。 另一方面,我们的数据扩充方法不会创建信息,而是对感染量和分布进行插值,同时估计新感染的形态。 因此,过高的增强比例将不会进一步提高性能。

Runtime and Resources Comparision

  • 我们进一步比较了不同方法的时间和内存消耗。 如表VI所示,我们的方法在4块GeForce GTX 1080 GPU上进行训练的成本不到6个小时,这比其他2.5D方法和3D方法要低得多。 就预测时间而言,可以得出类似的结论。 我们的方法的预测时间甚至可以与2D方法的预测时间相比,后者再次证明了我们的分割模型在时间和准确性之间提供了良好的折衷。 总之,这些结果证明了我们的分割模型的功效,即将3D分割问题分解为三个2D分割问题。

Case Studies

  • 图5显示了早期,进行性和严重阶段的三种代表性情况。可以看出,三个2D分割模型各自无法获得准确的分割结果。 但是,它们彼此提供免费信息。 因此,它们的结合使我们的模型不仅可以分割感染区域,而且还可以从感染中正确去除气管和血管。

Ablation Studies

  • 我们进行了消融研究,以研究这三个组成部分对我们方法成功的贡献。如表VII所示,除去任何组分显着降低了骰子。 在这三个组件中,多个2D模型的集成是最重要的,其次是数据增强。
  • 来自利雅得数据集的三名代表性患者被用来进一步证明我们模型的不同组成部分的贡献。 在哈尔滨数据集上训练的模型无需重新训练即可直接应用于利雅得数据集。 如图6所示,如果没有预处理步骤,则该模型对于从其他机器生成的数据会变得非常不稳定,有时会生成大量的误报(图6b和图6j),有时会无法分割任何东西(图6b)。 6f)。 数据扩充还有助于我们方法的成功。 没有它,该模型可能会错误地分割静脉(图6c和图6k)或找不到任何感染区域(图6g)。 将所有组件组合在一起,我们的模型能够提供一致准确的分割结果(图6d,图6h和图6l)。 在这三个示例中,第三个示例包含大量伪影(图6i),这可能是由于CT扫描过程中患者体内的金属植入物所致。 预处理和数据增强组件都极大地帮助我们的模型消除了误报预测。

Conclusion

  • 在这项工作中,我们提出了一种预处理方法,可以将任何肺部CT扫描投射到与机器无关的标准嵌入空间中。 我们在标准嵌入空间上开发了高度精确的细分模型。 为了训练该模型,我们进一步设计了一个新颖的仿真模型来描绘COVID-19感染区域的动态变化,并使用该动态模型来补充额外的数据,从而改善了细分模型的性能。
  • 预处理方法解决了数据中的异质性问题,并使我们的方法适用于任何CT机生成的任何数据集。 分割模型在深度学习模型的复杂性和模型的准确性之间找到了一个很好的权衡。 此外,它间接捕获并合并了肺组织的规则形态,例如肺叶,肺动脉,静脉和毛细血管。 这使我们的模型既准确又快速。
  • 有趣的是,我们注意到,在区分气管和血管时,我们的模型有时可以胜过人类注释。 在最近的从DCE-MRI图像分割乳腺肿瘤的项目中,我们使用了类似的分割思想。
  • 因此,两项研究表明,这种想法可能是许多生物医学成像任务的通用方法,需要进一步的研究和确认。 该仿真模型解决了生物医学成像任务(尤其是COVID-19)中常见的数据稀缺问题,在COVID-19中,高质量,带注释的数据很少可访问或无法获得。 这三个基石共同为我们方法的成功做出了贡献。
  • 在多国家,多医院和多机器数据集上进行的综合实验表明,我们的细分模型具有更高的骰子,召回率和最坏情况下的性能,并且运行速度比最新方法快得多。 因此,我们的模型提供了一种全自动,准确,快速且与机器无关的工具,可以满足对抗COVID-19的紧急临床需求。
  • 有三个主要方向可以进一步改进我们的方法。 首先是开发联合学习平台。在我们的数据收集过程中,我们注意到许多医院都拥有COVID-19患者的数据,但是由于种种原因,不允许它们与外部研究人员共享数据。 因此,联合学习是针对这种情况的理想解决方案,在这种情况下,我们可以跨不同的医院训练模型,而每个医院都拥有自己的数据,不需要进行数据交换。 第二个是进一步增加数据集的大小。 尽管在收集异构数据和开发预处理方法方面做出了努力,但我们当前的数据集规模仍然有限。 更多的数据将带来更多的信息,从而导致更好的模型,这是我们正在进行的工作。 第三个方法是将正交信息源(例如大流行病学数据)整合到模型中,以便可以更好地诊断出模棱两可的病例,并可以更好地追踪病例的来源和传播情况。爆发结束后,这种多模式学习平台可以用作长期预警系统,充当未来尚未出现的冠状病毒的“举报人”。
  • 我们方法的程序可从以下网址公开获得:https://github.com/lzx325/COVID-19-repo.git。 可根据要求提供CT扫描数据集。

你可能感兴趣的:(Rubust,Works,计算机视觉,深度学习,神经网络,计算机视觉,图像处理)