几夏经秋

A Rapid, Accurate and Machine-Agnostic Segmentation and Quantification Method for CT-Based COVID-19

A Rapid, Accurate and Machine-Agnostic Segmentation and Quantification Method for CT-Based COVID-19 Diagnosis

Abstract
Introduction
REALTED WORK
- Overview of CAD System for Lung Diseases
- AI-Based CAD Systems for COVID-19
- 2.5D Methods for 3D Segmentation
- Contributions of Our Method
Methods
- Overall Workflow
- Embedding to Standrad Space
- Data Augmentation
- Three-Way Segmentation Model
- Performance Measures
Results
- Data and Image Protocol
- Imaging Segmentation
- Experimental Setup
- Segmentation Performance
- Quantification Performance
- Augmentation Analysis
- Runtime and Resources Comparision
- Case Studies
- Ablation Studies
Conclusion

Abstract

COVID-19已经造成了全球大流行，同时变成了全世界最紧迫的威胁。在制定诊断、预后、和治疗战略以及防治这一疾病方面投入了巨大的努力和资源。
虽然核酸检测主要被用作确认这种RNA病毒的疾病的金标准，但已经证明这种做法有很多的假阴性率，特别是对于早期患者，因此CT成像已被作为确认COVID-19阳性的主要诊断手段。
尽管人工智能的计算机辅助COVID-19诊断系统的开发取得了各种迫切的进展，但是现有的方法大多只能进行分类，而现有的分割方法需要高水平的人工干预。
在本文中，我们提出了一个全自动的的、快速的、准确的、机器无关的方法，可以分割和量化不同来源的CT扫描感染区域。
本文方法存在两个创新
- （1）第一台COVID-19 CT模拟器，通过拟合真实病人不同时间点测量数据的动态变化，大大缓解了数据匮乏的问题。
- （2）提出了一种新的解决大场景小目标问题得深度学习方法，将三维分割问题分解为三个二维分割问题，使模型复杂度降低了一个数量级，同时显著提高了分割精度。【所谓大场景小目标问题，是不是可以使用多尺度的思想解决，为何说大场景小目标问题使用2.5D方法可以解决？】【这种3D分割转为2D的方法很多，当时是如何想到的，即是不是先用2D进行实验发现精度不够，3D进行实验发现速度太慢且精度提升不大，转而进一步研究肺部结构的特点，采用了2.5D方法】
在多国，多所医院，多机器的数据集上的综合实验结果表明，该方法优于现有方法，在防止COVID-19疾病方面具有重要的应用价值。

Introduction

COVID-19是由严重急性呼吸综合征冠状病毒2型（SARS-CoV-2),已经成为全球性的大流行，是人类面临的最紧迫的威胁。它对科学界提出了一个巨大的挑战，以应对敏感，快速，便宜，简单的诊断技术的迫切要求。
SARS-CoV-2是RNA病毒，属于冠状病毒家族，它由一个阳性的单链RNA和四个主要结构蛋白组成，包括尖峰蛋白、包膜蛋白、膜蛋白和核衣壳蛋白。因此，从病人样本中检测病毒有两种方法：通过检测病毒RNA的核酸或通过检测病人免疫系统产生的抗体。因此，在中国政府最新公布的《COVID-19肺炎诊治指南》（第七版）中，COVID-19的诊断必须通过逆转录聚合酶链反应（RT-PCR）或基因测序来证实。
然而，由于样本采集和运输的实际问题，以及检测试剂盒的性能，特别是在疫情最初呈现时，这种金标准被证明具有很高的假阴性率。例如，截至2020年2月6日，武汉市1014例COVID-19患者中，只有59%（601/1014）的RT-PCR结果呈阳性，而88%（888/1014）的胸部CT扫描呈阳性。在RT-PCR阳性的601例中，CT扫描的敏感性为97%（580/601）。这表明CT扫描不仅可以通过RT-PCR检测出大部分阳性病例，而且可以检测出更多的病例（在文献[1]中约增加30%）。
因此，CT扫描作为COVID-19的主要诊断标准之一，在许多国家得到了广泛的应用，尤其在我国取得了巨大的成功。

REALTED WORK

Overview of CAD System for Lung Diseases

长期以来，影像学一直被用作肺部疾病的主要诊断来源，如肺炎、肺结核和肺癌。最常用的肺炎成像技术是X射线（或胸部X射线摄影）和CT扫描[2]。X射线能提供平坦的二维图像，而CT扫描能提供横截面图像，用于重建肺部的三维模型。
随着人工智能技术的发展及其在各个领域的应用，特别是计算机视觉和成像技术的发展，人工智能已被广泛应用于肺炎的X线和CT诊断。基于人工智能的计算机辅助诊断（CAD）系统能够提供快速的检测和诊断，在某些情况下，其性能与专业放射科医生相当甚至更精确[2]，[3]。因此，在过去的十年中发展了多种方法。
- 从输入数据的角度来看，现有的基于人工智能的方法可以分为三类：* 以X射线为输入的方法[4]-[8]，以CT扫描为输入的方法[9]-[14]，以及可以同时处理两者的方法[15]。
- 从提取特征的角度来看，一些现有的方法是基于手工制作的特征[15]，[16]，而大多数剩余的方法是基于通过深度学习方法自动提取的特征[4]-[14]。
- 从机器学习模型的角度来看，现有的大多数方法[4]–[9]，[11]–[15]都是基于卷积神经网络（CNN）及其变体的，这些方法在计算机视觉和成像任务中取得了巨大的成功。为了缓解生物医学成像任务中普遍存在的数据不足问题，采用了迁移学习[4]、[6]和预训练[15]等技术。

AI-Based CAD Systems for COVID-19

尽管X射线一直是诊断肺炎最快和最容易获得的筛查工具，但已经显示X射线在检测COVID-19患者方面不如CT扫描，因为COVID-19肺炎的指示性特征仅在3D信息中可见，例如肺部磨玻璃样阴影（GGO）病变周围肺、后肺及肺结节[1]、[17]、[18]。CT扫描检测COVID-19患者的快速读取速度和高灵敏度[1]使得基于CT扫描的人工智能CAD系统成为应对COVID-19大流行指数级扩张的理想方法。
因此，许多基于人工智能的CAD系统被迅速开发和部署，作为应对这场全球危机的科学努力[18]-[23]。由于需求的紧迫性，这些方法大多不侧重于提出新颖的、有原则的机器学习方法，而是通过直接应用现成的方法（如CNN、ResNet和inception网络）快速建立一个可行的模型。
Xu等人[22]将CNN和ResNet模型结合起来，在CT扫描数据集上训练了一个针对COVID-19的筛查系统，该数据集由110名COVID-19患者、224名流感患者和175名健康人组成。他们的模型达到了86.7%的分类准确率。在一项类似的研究中，Song等人[21]应用了一种称为DeepPneumonia的细节关系提取神经网络（DRE-Net）模型，并在CT图像数据集上对其进行了训练，该数据集包含88名COVID-19患者、101名细菌性肺炎患者和86名健康人，其模型的准确率为86%，AUC（ROC下面积）为0.95。Wang等人[20]首先试图通过从CT扫描中提取感兴趣区域（ROI）图像来降低问题的复杂性，然后通过改进的初始网络提取特征向量，最后使用完全连通层来区分COVID-19图像和典型的病毒性肺炎图像。在一个包含1065张CT图像的数据集上，30%是COVID-19图像，他们的模型达到了89.5%的分类准确率。
尽管从CT扫描中识别和分类COVID-19患者对于诊断非常重要和及时，但是一线临床医生迫切需要对患者肺部的感染量进行分割和量化。这些信息不仅对诊断，而且对患者的预后和治疗都至关重要。例如，如果病人的感染量超过整个肺部的50%，死亡率就很高。相反，如果一个病人的感染只发生在五个肺叶中的一个，预后是非常有希望的。然而，在开发用于COVID-19诊断的CAD系统的各种努力中，只有少数人能够从CT扫描中分割和量化感染区域。Shan等人[23]采用了“人在回路”的工作流程，从一小批手工分割的CT扫描开始；然后基于这一批构建初始模型并应用于下一批；要求放射科医生纠正分割；细化模型；然后进行下一次迭代。他们的机器学习模型应用了结合V-Net和瓶颈结构的3D CNN。对249例患者的249次CT扫描进行训练，并对300例患者的300次CT扫描进行测试，他们的主动学习框架要求人类专家剪切或添加最终输出的9.17%，以使分割结果令人满意。
尽管基于人工智能的计算机辅助设计系统在基于CT的COVID-19分类、分割和量化方面取得了巨大进展，但由于临床应用的迫切需要，现有的方法仍存在以下一个或多个瓶颈。1）它们针对特定的数据集进行训练和优化，这些数据集通常由同一台CT机器收集，具有相同的参数，并由相同的放射科医生进行注释。因此，这些模型往往是特定于数据集的，并且缺乏对来自其他机器的数据集的泛化能力，这妨碍了它们的实际使用。2）高质量的、带注释的COVID-19患者数据的获取往往是有限的和受限的，这不能为数据饥渴的深度学习模型提供足够的训练数据，特别是在COVID-19早期，需要人工智能系统最迫切的帮助。3）大多数现有方法只能对COVID-19患者进行分类，但不能提供感染体积的分割和量化，而能够这样做的最先进方法需要高水平的人为干预，这很难满足，特别是在爆发期间[23]。

2.5D Methods for 3D Segmentation

最近，有一种趋势是使用二维方法来加速和提高三维模型在三维分割任务中的性能。在文献中，融合一堆二维分割模型得到三维分割的方法称为2.5D模型。Silver等人[29]合并了9个不同视图的分割结果，并在4个不同数据集的13个分割任务中达到了最先进的性能。Zhou等人[24]和Li等人[25]都融合了多个2D模型，以提高3D医学图像分割任务的训练时间和性能。他们发现，通过利用2D分割模型的优点，他们的2.5D方法有时优于最先进的3D模型，如3D U-Net。一般来说，2.5D模型具有以下优点：1）训练和细化的简单性：2.5D模型的超参数比3D模型要少得多，因为模型复杂度要低得多；2）收敛速度更快：由于2.5D模型通常参数较少，内存需求也较低，它们的收敛速度通常比三维模型快得多；3）更快的预测时间：例如，[26]使用二维分割模型将三维分割的预测时间从54分钟缩短到实时。

Contributions of Our Method

COVID-19患者CT扫描感染区域的分割是一个小数据量的三维分割问题，为此我们提出了一个2.5D模型。在这项工作中，我们提出了一个全自动，快速，准确，和机器无关的分割和量化方法，用于基于CT的COVID-19诊断。我们的方法有以下创新：
- 1）为了解决数据匮乏的问题，我们提出了第一个针对COVID-19的CT扫描模拟器，通过拟合真实病人在不同时间点测量的数据的动态变化；
- 2）对于这个数据有限的大场景小物体问题，我们提出了一种新的算法，利用肺部和其他组织的对称性，将三维分割问题分解为三个二维分割问题，减少了一个数量级的模型参数，同时显著提高了分割精度。
得益于这两项创新，我们的模型在从来自多个国家、多家医院和多台机器的患者，尤其是早期患者的CT扫描中分割和量化感染区域方面表现非常好，从而为COVID-19患者的诊断、治疗和预后提供了关键信息。

Methods

Overall Workflow

图1示出了所提出的方法的总体工作流程。感染分割的任务是找到一个映射F:RH×W×S {0，1}H×W×S，其中H×W是每个CT图像的图像大小，S是扫描的图像数。不同的CT扫描仪扫描不同的体积，具有不同的分辨率和参数，如H、W和S。因此，我们提出了一种数据预处理方法，将任何CT扫描嵌入机器无关的标准空间。
深度学习模型是数据饥渴，而COVID-19 CT扫描数据很少可用或可访问。由于我们的数据包含同一患者的多个时间点CT扫描，我们开发了一个动态模型来模拟感染区域的进展。我们的仿真模型能够生成大量的训练数据，与实际数据高度相似。通过模型与实际数据的拟合，确定了仿真模型的动态参数。然后利用仿真模型对每个训练样本进行200次CT扫描，从中提取增强数据。随着数据的增加，我们的模型获得了更高的性能。
分割任务是在三维张量上进行的，每个张量有108个体素，我们只有有限的训练样本，即使是在数据增强之后。传统的三维分割模型如3D-U-Net需要大量的训练样本，其预测速度对于临床应用来说太慢，尤其是在COVID-19的峰值时期。为了克服这个困难，我们将三维分割问题分解为三个二维问题，分别沿x-y、y-z和x-z平面。我们的分解策略比传统的三维分割方法和最新的2.5D模型具有更高的性能，并且每次CT扫描的预测时间只有几秒钟。

Embedding to Standrad Space

基于人工智能的CAD系统的一个主要瓶颈是，它们是在特定的数据集上训练的，因此可能无法直接推广到其他数据集。另外，当输入的数据来自不同的医院，被不同的机器以不同的参数采集时，现有的方法大多不能直接处理。
为了克服这两个问题，我们提出了一种预处理方法，可以将任何肺部CT扫描投影到同一个标准空间，这样我们的模型就可以将异构数据集作为输入，从而具有机器无关性，并且适用于任何未来的数据集。尽管预处理是图像分析中的一个标准步骤，但据我们所知，在CT图像处理中还没有一种方法能够同时统一分辨率、维数和信号强度。我们的预处理包括两个标准化步骤。第一种是空间归一化（图2），它统一了CT扫描的分辨率和尺寸；第二种是信号归一化，它基于CT扫描仪的肺窗标准化每个体素的信号强度。
空间归一化：空间归一化同时统一了分辨率和维数。不同的CT扫描具有不同的分辨率：对于高分辨率扫描，每个体素可以对应0.31×0.31×0.9mm3的体积，而对于低分辨率扫描，每个体素可以代表0.98×0.98×2.5mm3。在我们的数据集中，CT分辨率的标准值为334512×334512×1.00m3，这是我们选择的标准分辨率。我们要求标准的包埋空间S代表334×334×512mm3的体积，这个体积足够大，可以完全容纳任何人的肺。因此，S R512×512×512。
注意，我们的空间标准化中的不变量是每个体素的体积（即标准分辨率）。在空间归一化过程中，首先将CT扫描填充或切割成334×334×512mm3的体积，然后使用Lanczos插值[27]重新缩放到标准分辨率（图2）。
2）信号标准化：CT数据的值以Hounsfield单位（HU）为单位，这意味着它们是基于水和空气的X射线衰减系数进行线性标准化的。然而，HU在肺部CT扫描中并不理想，因为肺实质的平均CT值在不同的数据集中有所不同（例如，在我们的数据集中从−400 HU到−600 HU）。
在实践中，专家为每台CT扫描仪设置肺窗，肺窗中人体组织的类型对所有扫描仪都是近似不变的，例如，窗位在肺实质的平均CT值附近。两个量，窗高（WL）和窗宽（WW），通常用来描述这种肺窗。WL被定义为这个窗口的中心信号值，WW是这个窗口的宽度，它决定了上限值和下限值之间的差异。
因此，我们建议使用WL和WW对信号强度进行归一化：S的所有体素都经过线性变换：
其中Ioriginal是原始数据的CT信号强度，unormalized是信号归一化后的相应信号强度。信号标准化可被视为原始Hounsfield标准化的模拟，该标准化通过将肺实质的值设置为0并将肺窗口中人体组织的值转换为[-0.5,0.5]的范围来移除肺CT扫描的机器特定参数。
因此，在空间和信号归一化后，任何CT扫描都将被投射到一个标准的嵌入空间S中，其尺寸为R512×512×512，分辨率为334 512×334 512×1.00mm3，信号强度范围为−0.5，0.5]。

Data Augmentation

深度学习模型是一种数据饥渴的学习模型，它不仅需要大量而且需要高质量的标注数据进行训练。不幸的是，在许多应用中，特别是生物医学成像，这样的数据很少可用或可访问。
例如，COVID-19唯一公开的图像数据收集只包含X射线数据[28]。为了克服深度学习应用中缺乏数据瓶颈的问题，研究人员一直在运用模拟的思想，如模拟围棋游戏[29]，模拟时间序列荧光显微图像[30]，模拟原始序列信号[31]，[32]。
一个成功的模拟器的关键是捕获并精确地量化生成真实数据的底层分布。对于我们的问题，虽然我们的主要目标集中在早期COVID-19患者CT扫描的诊断和分割上，但我们的数据集确实包含在患者病程不同时间点进行的多个CT扫描，我们可以从中提取随时间推移的统计数据来构建我们的模拟模型。图3示出了代表性患者的感染的动态变化。该图提供了感染进展的三维可视化，并绘制出感染区域的体素强度分布。
通过对感染动态变化的建模和仿真，进行数据扩充。动态模型有四个基本组成部分：新感染是如何产生的；旧感染是如何被吸收的；感染体素的标准化CT信号是如何变化的；正常体素的标准化CT信号是如何变化的。我们首先建立了动态模型，然后描述了如何拟合模型的参数以及如何进行数据扩充。
1）模型表述：a）状态：动态模型的状态由标准化数据S R512×512×512和感染掩码M {0，1}512×512×512:=（S，M）确定。（2） b）马尔可夫性：考虑到我们只对短时间进行建模，状态应该满足马尔可夫性。也就是说，我们假设在24小时内，每个感染区域进化100次。
将时间点t处的状态表示为 t=（St，Mt），过渡函数表示为t，因此 t+1=（St+1，Mt+1）=t（t）=（TS（St），TM（Mt））。我们需要找到一个合适的过渡函数T，以便在进化过程中，状态的发展（增强数据）符合真实数据，即同一患者不同时间点的CT扫描。
在对我们的数据集进行了广泛的观察和分析之后，我们有三个有趣的发现。首先，对于CT扫描，尽管可以有许多断开连接的感染区域，但是每个感染区域的归一化体素强度的分布是高度保守的（图3b和图3e）。其次，大多数感染区域的频率分布在−0.025和0.025附近有两个明显的峰值。在0附近有一个清晰的山谷（图3b和图3e）。第三，当感染恶化时（例如，从早期到进展阶段，或从进展阶段到严重阶段），低于0的体素绝对数量比高于0的体素数量的快速增长要稳定得多（图3c）。第一个发现表明，动态模型可用于所有感染区域。第二个发现建议我们应该使用不同的演化函数来描述信号大于或小于0的体素。第三个发现表明我们可以用简单的函数如线性函数来描述体素绝对数在0以下的变化。有了这些发现，我们进一步简化了动态模型。因此，我们根据这些准则来确定T。我们首先确定TM，它描述了新的感染体素是如何产生的以及旧的感染体素是如何被吸收的。我们有两个关于TM的假设，这两个假设与一线放射科医生讨论并得到证实。它们是：
- 1）感染模型：在的转换过程中，GGO附近的正常体素更有可能成为GGO体素。
  此外，正常的体素如肺、气管、血管等外部区域永远不会成为感染区域的一部分。
- 2）恢复模型：当信号强度小于−0.15时，体素将变为正常体素。
接下来，我们确定TS，它描述了信号在转换过程中的变化。我们有四个关于TS的假设，这些假设与一线放射科医生讨论并得到证实。它们是：1）正常体素的不变性：正常体素的信号强度在过渡期间是不变的。2）吸收：通过CT信号测量炎症浸润，我们的身体以恒定的速度吸收炎症浸润。3）实变和纤维化：当CT信号增加时，体素逐渐实变，这意味着其信号更难进一步增加。4）阈值0：当GGO体素的强度达到0时，其信号将不再增加。它有可能转换到下一个阶段并通过值0。
我们的动态模型有两个主要功能。首先，它可以生成符合COVID-19真实数据信号强度分布的感染区域。第二，它可以生成符合真实数据形态和空间分布的感染区域，参数由用户控制。例如，我们可以要求GGO病变更广泛，而肺实变则相对聚集。
过渡函数T的详细算法见支持材料中的S1节。T有八个独立的参数。我们将动态模型的参数表示为W，即T=T（W）。
2）从实时序列CT扫描数据拟合：我们需要两种状态：开始状态 ti和结束状态 tj来拟合动态参数。 ti需要tj−ti转变为 tj。因此，通过在 ti上应用T（W）T j−ti次，我们将得到模拟的ˆT j。
ˆt j（表示为ˆFt j）的信号强度分布与 t j（表示为Ft j）的信号强度分布之间的差异被用作优化W的损失函数：
这里L（W）是损失函数，x是CT信号。
有非常快速的算法来计算L（W），而不显式地计算ˆt j，这可以在支持材料的S1节中找到。图3c给出了信号强度分布随时间的变化的示例。通过最小化损失，我们可以用W来拟合 ti和 tj。有关安装程序的更多详细信息，请参见支持材料中的S1部分。
3）通过模拟增加数据：在我们的数据集中，每个患者都有一次早期扫描。我们假设在最早扫描前三天（时间t0=0），几乎没有感染。将患者的扫描序列和面罩表示为： t0， t1， t2。， tN。（4）这里 t0设置为：通过将最早扫描St1的所有感染体素设置为−0.15获得St0，并且通过随机选择Mt1的10%感染体素获得mt0。因为我们按照24小时的时间定义100次转换，并假设第一次CT扫描发生在 t0后3天，所以我们得到t1=300。在数据增强过程中，我们为每对相邻的时间点 ti−1和 ti，1 i N拟合参数Wi，并对 ti应用T（Wi）进行200次转换，以模拟200个时间点的CT扫描。然后我们随机选择1%的模拟扫描作为增强数据。通过动态仿真，训练样本增加了200%。
值得注意的是，我们的数据增强可以看作是CT扫描时间序列的“插值”方法。然而，它不是插值感染区域的形态，而是插值感染体积和感染体素的信号分布。我们发现，我们的方法在200%的增强率下取得了最好的性能（表五）。

Three-Way Segmentation Model

CT扫描被表示为3D张量，对于3D张量，最直观的想法是直接应用3D深度学习模型，例如3D CNN和3D U-Net。然而，众所周知，这样的3D模型存在各种问题[25]，包括参数数量多、收敛速度慢以及对内存的高要求。因此，已经努力通过沿z轴(身体方向)取切片来将3D分割问题分解成一系列2D分割问题，但是由于信息丢失，这种策略通常具有不令人满意的性能。
在这里，我们建议将3D分割问题分解为三个2D问题，分别沿x-y、y-z和x-z平面。我们的想法基于两个事实。首先，在我们沿着x-y平面进行手动注释的过程中，当放射科医生对体素感到模棱两可时，他们通常会参考y-z和x-z平面上的图像来做出最终决定。因此，这三个平面的几个2D图像包含有关体素是否感染的基本信息。其次，我们的正常组织，如肺叶、肺动脉、静脉和毛细血管，比感染区域的形态规则得多。它们的形态在不同的患者之间或多或少是保守的，而患者的感染区域可能完全不同。如果一个模型只看一个方向，比如说横截面x-y平面，那么动脉或静脉就很难与感染区域区分开来，而如果看x-z或y-z平面，就很容易区分它们。
让我们建立三向细分模型。任何肺部CT扫描都会转换为S R512×512×512。对于每个体素S，都有三个图像：x-y平面上的Pxy，y-z平面上的Pyz和x-z平面上的Pxz，因此s = Pxy Pyz Pxz。因此，的语义可以认为是：
其中p是体素是感染点的概率。 g是从三个正交视图确定体素语义的功能。直接训练基于（5）的模型非常耗时。因此，我们建议对（5）使用近似值：
(6）代表我们的三向模型架构。 ˆp是成为感染体素的预测概率，是真实值； fxy，fyz，fxz是三个中间模型，这三个模型的输入分别是来自x-y，y-z和x-z平面的信息。然后，中间模型输出对的语义的预测，我们将它们的输出表示为ˆpxy，ˆpyz，ˆpxz，这是三个实数值。 g是用于组合ˆpxy，ˆpyz，ˆpxz以获得最终预测predictionp的聚合函数。我们的模型训练分为两个阶段：第一个阶段是训练中间模型，以计算每个体素S的pxy，pyz，pxz。第二个是为最终预测确定一个合理的g。
中间模型：假设Pxy R512×512是来自S的x-y平面的图像，并假定2d分割模型fxy可以针对x-y平面中的任何图像分割感染像素。因此，fxy（Pxy）R512×512的输出是感染的概率图，它是pxy，Pxy的2D数组。沿x-y方向有512个不同的图像，因此计算512倍的fxy将得到ˆpxy，S。类似地，对于y-z方向的图像，我们有一个二维分割模型fyz，对于x-z方向的图像，我们有一个fxz。通过计算这三个模型，我们为每个体素S获得ˆpxy，ˆpyz，ˆpxz。
我们尝试了许多2D分割架构，包括U-Net，Mask R-CNN等。我们还尝试使fxy，fyz和fxz共享一些参数。实验表明，三个独立的U网络具有最快的训练时间，并且表现最佳。因此，我们的中间模型是三个独立的2D U型网络。
与经验丰富的前线放射科医生讨论过COVID-19之后，我们进一步改进了中间模型。
尽管放射科医生认为，通过结合Pxy，Pyz和Pxz，他们可以确定体素是否为感染，但如果我们想了解更详细的语义（如感染是由H1N1还是COVID-19引起的），他们必须从中了解更多信息。相邻的图像。在实践中，他们经常检查至少四个额外的图像，它们是距体素的-5，-2，+2和+5毫米的图像。由于我们标准嵌入空间的分辨率对于x轴和y轴为334 512mm，对于z轴为1.00mm，因此与图像相距-5，-2、0，+ 2和+5毫米的图像包含体素（表示为第i个图像）的是沿x轴或y轴的图像i-8，i-3，i，i + 3，i + 8和i-5，i-2，i ，i + 2，i + 5沿z轴。我们还尝试了该参数的其他组合，其性能次于-5，-2、0，+ 2，+ 5的组合（支撑材料中的表S1）。这个想法在概念上与扩张卷积相似，后者从相邻切片中聚合信息以有效地提高性能[33]。
因此，根据实验和临床实践，中间模型fxy，fyz和fxz是三个独立的U型网络，它们输入五个相邻图像（输入尺寸：R5×512×512），并输出中心图像的感染概率图（输出尺寸：R512×512）。
2）聚合函数g：计算每个体素S的中间预测predictionpxy 、, pyz，ˆpxz之后，有很多方法可以将它们汇总在一起：固定或可学习权重的线性组合，然后取一个阈值；将它们相乘；使用具有这三个值的SVM作为特征，等等。尝试了许多选择之后，我们发现性能最好的g是一个二进制函数，该函数简单地对中间预测值进行求和，然后将阈值设置为2：g（ˆpxy，ˆpyz，ˆpxz ）=（ˆpxy + ˆpyz + ˆpxz）> 2（辅助材料中的表S1）。这意味着正常组织在至少一个平面上看起来与感染不同。

Performance Measures

要评估细分效果，我们使用Dice，召回率和最坏情况下的骰子性能。骰子或骰子相似系数（DSC）和召回率定义为：
其中Y是放射线医生注释的地面真相感染区域，Y是通过方法预测的感染区域，| Y | 表示集合Y的基数。Y和Y均为二进制张量。众所周知，对于二元分类器，骰子与F1分数相同。对于COVID-19诊断，召回是一项重要的测量，因为缺少检测会导致患者的致命后果并给社区带来巨大威胁。我们进一步使用最坏情况的性能来表示一种方法，即使在最坏情况下，也能够将可靠的预测进行概括。
为了评估量化性能，我们使用均方根误差（RMSE）和Pearson相关系数（PCC），其定义为：
其中N是CT扫描的次数，zi是第i次扫描的感染量占肺部容积的真实百分比，z i是i-扫描的感染量对肺部容积的预测百分比第z次扫描，Z是所有扫描的真实百分比，Z是所有扫描的预测百分比，cov（Z，Z）是Z和Z之间的协方差，Z是标准偏差 Z.
最后，我们比较了不同方法的培训和测试运行时间以及内存成本，以评估它们在满足快速诊断COVID-19需求方面的有用性。

Results

Data and Image Protocol

我们在中国黑龙江省（共称哈尔滨数据集）收集了来自4家不同医院的140名COVID-19患者的201例匿名CT扫描，并通过6种不同的CT扫描仪进行了扫描。此外，为了在第三方数据集上验证我们的方法，我们从沙特阿拉伯利雅得国王费萨尔专科医院和研究中心（KFSHRC）的20例COVID-19患者中收集了20例匿名CT扫描，并通过2种不同的CT扫描仪进行了扫描（以下称为利雅得数据集）。由于我们特别关注早期患者，因此我们确保每位患者从早期开始至少要进行一次CT扫描。
所有患者均通过核酸检测或抗体检测得到证实。 CT成像方案显示在表I中。它们代表了各种各样的数据类型：每位患者的CT扫描次数为1至5；每位患者的CT扫描次数为1。患者年龄从19岁到87岁；每次CT扫描的图像数量范围为245至408；重建后的切片厚度为1mm至5mm。窗宽从1200HU到1600HU；窗口级别范围从-600HU到-400HU。
KAUST的机构生物安全和生物伦理委员会，哈尔滨医科大学和KFSHRC批准了这项研究，并且由于这项研究具有回顾性，因此无需知情同意。

Imaging Segmentation

肺部和五个肺叶由黑龙江拓盟科技有限公司开发的诊断图像处理软件自动分割。感染区域由两名具有20年经验的放射线师手动分割。详细的细分协议可在支持材料中的S3节中找到。
哈尔滨数据集在体素级别上进行了仔细的分割。
由于感染区域的密度通常高于肺部其余部分，因此需要手动检查高密度的肺组织，并将其从分段的感染区域中移除，例如肺动脉，肺静脉和肺毛细血管。放射科医生未在像素级别对利雅得数据集进行细分，而是在感兴趣区域（ROI）级别（由圆圈表示）上进行了细分。因此，哈尔滨数据集用于定量和定性评估，而利雅得数据集用于定性评估。

Experimental Setup

为了进行定量评估，我们在患者水平上对哈尔滨数据集进行了5倍交叉验证（CV），即将所有患者随机分为5倍，每次使用4倍进行训练和验证，其余一个用于测试。如果在一组中选择了患者，则其所有CT扫描都将包含在该组中。所有比较的方法都在相同的五重拆分中进行了训练和测试，以确保公平的比较。为了模拟实际应用，报告了平均扫描级别的性能，而不是患者级别的性能。
由于我们的数据集来自多种来源（表I），因此在应用任何比较方法之前，我们应用了相同的空间和信号归一化。归一化后，每次扫描的尺寸为R512×512×512，每个体素的分辨率为334512×334512×1.00mm3，肺部窗口内的信号强度范围为[-0.5， 0.5]根据第III-B节的规定。
我们对哈尔滨数据集应用了不同比率的数据增强。也就是说，根据第III-C节，对于数据集中的每个CT扫描，我们将不同数量的扫描模拟为增强数据。
在评估过程中，我们首先将IV-D＆E部分中的增强比例固定为200％（即，对于每个CT扫描，我们模拟了两次扫描），并在相同的增强数据集上训练了所有比较方法。我们选择200％的原因有两个：1）大多数比较方法在此比率下获得了最佳性能（表V），而没有的方法（例如3D U-net和3D V-net）仅具有很小的性能。该比率与最佳比率之间的性能差异； 2）通过固定扩展率，我们公平地评估了不同的细分模型。
然后，我们在第IV-F节中评估了通过不同方法进行数据增强的详细效果。为此，我们将数据分别增加了0％，50％，100％，200％，300％和400％，其中50％表示对于每次CT扫描，我们都模拟了一次扫描，并给出了50％的概率被包括在内在训练数据集中。因此，我们通过各种方法对我们的数据增强策略的效果进行了全面评估。
我们将我们的方法与基线2D分割方法（即xy平面上的2D U-net），最新的2.5D分割方法（即MPUnet [34]和H-DenseUNet [25]）进行了比较（以下简称为 H-DUnet）），经典的3D方法（即3D U-net [35]）以及可用于COVID-19（例如3D V- 净[23]，[36]）。由于[23]中的方法基于人在环策略，因此我们的实现仅测试其骨干3D模型，而不能表示其方法的实际性能。
在3D模型的实施过程中，由于直接实施会消耗大量GPGPU无法容纳的内存，因此我们将512×512×512预处理的CT扫描分为128×128×128的许多子体积，并分别填充他们独立地进入网络。这是3D图像处理中的一种常见做法，不会对3D分割的性能产生太大影响，因为大部分用于分割的信息都很好地保留在了子卷中。
值得注意的是，对于我们的方法，我们为用户提供了两个输出：1）二进制预测，其中1代表感染，0代表正常，2）实值预测，表示体素被感染的可能性。
有两个原因。首先，通过与一线放射科医生的讨论，他们认为将这种概率离散化为二进制预测的可调阈值对于临床应用实际上是有用的。其次，由于我们数据集的高度异质性，大量可能的感染形态以及有限的COVID-19样本，因此将概率转化为训练集上的二元预测的最佳阈值可能并不相同作为验证集上的最佳选择（即，我们将5折CV的每次迭代将4折分为训练和验证）。相同的逻辑适用于所有比较的方法，因为它们还可以输出实值（例如，softmax层的输出）和离散预测。因此，我们在相同的验证集上进一步调整了所有比较方法的阈值，并为每种方法选择了最佳阈值。然后，在应用相应的阈值之后，基于离散化的二进制预测进行所有评估。

Segmentation Performance

我们首先着手评估该方法的分割性能。如表II所示，我们的方法比所有比较的方法具有显着更高的骰子，将次优方法（3D V-net）提高了约0.14，这证明了其在感染的体素分类上的优越性能。我们的方法能够识别大多数感染区域，召回率为0.776，这比H-DUnet（0.802）略低。
但是，H-DUnet以大量误报为代价实现了此次召回。此外，我们的方法不仅准确，而且鲁棒性强：就骰子而言，最坏情况下的性能为0.557，而H-DUnet在3例（小于0.2的骰子）下失败，而其他方法在更多情况下均失败。
MPUnet在许多情况下似乎相当不稳定并且失败，这与它们报告的性能以及在大场景小对象任务（例如肿瘤分割）（例如[34]表I中的任务1、3、6和10）上的表现和高方差相符。 ]）。
表II中的结果表明，我们的2.5D模型明显优于其他2.5D模型（即MPUnet和H-DUnet），这似乎是违反直觉的，因为我们的三元模型在概念上比比较的2.5D模型更简单。这有两个主要原因。 1）其他2.5D模型的参数数量是我们模型的参数数量的五倍以上（表VI第二列）。
2.5D模型在图像分割中的大多数应用都集中在小场景大对象场景上。但是，COVID-19的CT扫描分割，尤其是早期扫描，是数据有限的典型大场景小对象问题，因此参数过多的模型无法有效学习。 2）我们的数据包含来自具有不同协议的不同计算机的CT扫描。实际上，2D U-net，H-DUnet，MPUnet，3D U-net和3D V-net分别未能将感染区域分割为13、3、31、12和8例，严重影响了它们的整体性能。
详细检查发现，这些失败的病例大部分是带有伪影的扫描或感染区域很小。如果不考虑这种情况，则现有方法可以实现更好的性能（表II第二个方框）。
为了进一步验证这一点，我们对哈尔滨数据集的最高质量和变化较小的子集重复了实验，该子集是从同一家医院的同一台CT机（即，医院ID为“ A”的CT扫描仪ID为“ 1”）收集的在表I中）。该子集包含由256片Brilliance iCT（飞利浦）拍摄的50例患者的CT扫描，并且在我们的数据集中具有最高的信号音比，这已由放射科医生目视确认。我们进行了5倍交叉验证（表II第三个方框）。与整个数据集的性能相比（表II第一个块），我们的方法的性能稳定且健壮，而其他方法在骰子和查全率方面都有明显的提高。
表II中报道的分割方法的性能似乎与一些最近的研究不一致，例如[23]。可能有三个原因。
首先，我们的数据集包含不同阶段扫描的混合，其中大多数是早期阶段的扫描（73％）。一般而言，早期阶段的分割比渐进阶段和严重阶段的分割更具挑战性，因为感染区域分散且较小，许多感染区域没有明确的边界，并且感染量变化很大（例如，一次早期扫描的感染区域体积可能是另一次早期扫描的感染区域体积的500倍以上）。其次，我们的数据集的真实性基于非常详细的手动分割，该分割不包括感染内的气管和血管，这使得体素级骰子成为高度严格的评估指标。
为了验证这一点，我们使用了不太严格的评估标准。
即，只要预测的感染点在与真实感染点相距2像素以内的范围内，就算为真实阳性。此标准将使预测任务更加容易，尤其是对于早期患者。使用此标准进行评估，现有方法的平均骰子至少提高了0.2，而我们方法的平均骰子仅提高了约0.12（表II的第四个块与第一个块）。这表明我们的方法能够预测分散的微小感染区域，这对于分割早期患者的感染至关重要。第三，最近的出版物[37]报告说，不同细分模型的平均骰子约为0.55，这与我们报道的值一致，并表明绝对骰子值高度依赖于数据集，因此不同方法之间的相对比较更重要。
然后，我们对早期，进行中和严重阶段不同方法的性能进行了更详细的分析。
如表III所示，现有方法在进行阶段和严重阶段均表现良好。在最困难的阶段，即早期阶段，我们的方法比现有方法有更大的优势，即与第二好的方法3D V-net相比，骰子增加了0.18多个。这说明了我们的方法对早期患者进行细分的能力。
图4显示了来自Harbin数据集和Riyadh数据集的不同方法的分割结果的四个代表性示例。可以看出，我们的方法在这些示例中始终表现良好，而比较的方法有时会细分感染区，有时会细分感染区。对于第二个示例，我们的方法可以正确地分割大部分大的感染区域，同时区分嵌入在区域中的动脉和气管（由蓝色箭头指示）。有趣的是，对于第一个示例，我们的方法还区分了感染区域中一个可能的气管（由蓝色箭头指示），而手动注释将其视为感染。在咨询了有经验的放射科医生之后，该区域确实是气管。

Quantification Performance

然后，我们通过比较感染体积与肺体积的实际百分比与预测感染体积与肺体积的百分比之间的RMSE和Pearson相关系数，评估了不同方法的定量性能。该百分比已显示出可为COVID-19患者的治疗和预后提供关键信息。
表IV显示，我们的方法可对感染量进行高度准确的定量，平均错误率仅为2.5％，远低于第二好的方法。我们的方法的最坏情况错误率是4.9％，而其他方法的最坏情况错误率至少是16％，甚至可以高达31％。这种显着的出色表现是由于我们模型的精确分割及其从感染区域正确地区分肺组织（如动脉和静脉）的能力。

Augmentation Analysis

为了全面评估数据增强的效果，我们在训练数据上应用了不同的增强比率，并在表V中报告了所有比较方法的性能。很明显，所有2D，2.5D和3D方法都可以从数据增强中显着受益，这表明我们的数据扩充方法有可能成为提升COVID-19最新分割方法的一般策略。
我们观察到，不同的方法在不同的增强比下均能达到最佳性能。通常，2D和2.5D方法往往比3D方法（例如100％）受益于更高的增强比率（例如200％），尽管比率高于100％的差异似乎很小。这是有道理的，因为与3D模型相比，2D和2.5D模型将较少的信息作为输入，因此要区分肺叶，肺动脉，静脉，毛细血管和伪影非常困难。数据扩充可以极大地帮助和加强他们正确地消除这种错误肯定的预测。另一方面，我们的数据扩充方法不会创建信息，而是对感染量和分布进行插值，同时估计新感染的形态。因此，过高的增强比例将不会进一步提高性能。

Runtime and Resources Comparision

我们进一步比较了不同方法的时间和内存消耗。如表VI所示，我们的方法在4块GeForce GTX 1080 GPU上进行训练的成本不到6个小时，这比其他2.5D方法和3D方法要低得多。就预测时间而言，可以得出类似的结论。我们的方法的预测时间甚至可以与2D方法的预测时间相比，后者再次证明了我们的分割模型在时间和准确性之间提供了良好的折衷。总之，这些结果证明了我们的分割模型的功效，即将3D分割问题分解为三个2D分割问题。

Case Studies

图5显示了早期，进行性和严重阶段的三种代表性情况。可以看出，三个2D分割模型各自无法获得准确的分割结果。但是，它们彼此提供免费信息。因此，它们的结合使我们的模型不仅可以分割感染区域，而且还可以从感染中正确去除气管和血管。

Ablation Studies

我们进行了消融研究，以研究这三个组成部分对我们方法成功的贡献。如表VII所示，除去任何组分显着降低了骰子。在这三个组件中，多个2D模型的集成是最重要的，其次是数据增强。
来自利雅得数据集的三名代表性患者被用来进一步证明我们模型的不同组成部分的贡献。在哈尔滨数据集上训练的模型无需重新训练即可直接应用于利雅得数据集。如图6所示，如果没有预处理步骤，则该模型对于从其他机器生成的数据会变得非常不稳定，有时会生成大量的误报（图6b和图6j），有时会无法分割任何东西（图6b）。 6f）。数据扩充还有助于我们方法的成功。没有它，该模型可能会错误地分割静脉（图6c和图6k）或找不到任何感染区域（图6g）。将所有组件组合在一起，我们的模型能够提供一致准确的分割结果（图6d，图6h和图6l）。在这三个示例中，第三个示例包含大量伪影（图6i），这可能是由于CT扫描过程中患者体内的金属植入物所致。预处理和数据增强组件都极大地帮助我们的模型消除了误报预测。

Conclusion

在这项工作中，我们提出了一种预处理方法，可以将任何肺部CT扫描投射到与机器无关的标准嵌入空间中。我们在标准嵌入空间上开发了高度精确的细分模型。为了训练该模型，我们进一步设计了一个新颖的仿真模型来描绘COVID-19感染区域的动态变化，并使用该动态模型来补充额外的数据，从而改善了细分模型的性能。
预处理方法解决了数据中的异质性问题，并使我们的方法适用于任何CT机生成的任何数据集。分割模型在深度学习模型的复杂性和模型的准确性之间找到了一个很好的权衡。此外，它间接捕获并合并了肺组织的规则形态，例如肺叶，肺动脉，静脉和毛细血管。这使我们的模型既准确又快速。
有趣的是，我们注意到，在区分气管和血管时，我们的模型有时可以胜过人类注释。在最近的从DCE-MRI图像分割乳腺肿瘤的项目中，我们使用了类似的分割思想。
因此，两项研究表明，这种想法可能是许多生物医学成像任务的通用方法，需要进一步的研究和确认。该仿真模型解决了生物医学成像任务（尤其是COVID-19）中常见的数据稀缺问题，在COVID-19中，高质量，带注释的数据很少可访问或无法获得。这三个基石共同为我们方法的成功做出了贡献。
在多国家，多医院和多机器数据集上进行的综合实验表明，我们的细分模型具有更高的骰子，召回率和最坏情况下的性能，并且运行速度比最新方法快得多。因此，我们的模型提供了一种全自动，准确，快速且与机器无关的工具，可以满足对抗COVID-19的紧急临床需求。
有三个主要方向可以进一步改进我们的方法。首先是开发联合学习平台。在我们的数据收集过程中，我们注意到许多医院都拥有COVID-19患者的数据，但是由于种种原因，不允许它们与外部研究人员共享数据。因此，联合学习是针对这种情况的理想解决方案，在这种情况下，我们可以跨不同的医院训练模型，而每个医院都拥有自己的数据，不需要进行数据交换。第二个是进一步增加数据集的大小。尽管在收集异构数据和开发预处理方法方面做出了努力，但我们当前的数据集规模仍然有限。更多的数据将带来更多的信息，从而导致更好的模型，这是我们正在进行的工作。第三个方法是将正交信息源（例如大流行病学数据）整合到模型中，以便可以更好地诊断出模棱两可的病例，并可以更好地追踪病例的来源和传播情况。爆发结束后，这种多模式学习平台可以用作长期预警系统，充当未来尚未出现的冠状病毒的“举报人”。
我们方法的程序可从以下网址公开获得：https：//github.com/lzx325/COVID-19-repo.git。可根据要求提供CT扫描数据集。

你可能感兴趣的:(Rubust,Works,计算机视觉,深度学习,神经网络,计算机视觉,图像处理)

海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）学术菜鸟小晨千问多模型 qwen2 vl
一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
简单线性插值去马赛克算法的Python实现大DA_辉 ISP图像处理_python python 计算机视觉人工智能
在图像处理领域中，去马赛克（Demosaicing）是一项关键技术，用于从单色彩滤波阵列（CFA）图像恢复全彩图像。本文将介绍一种简单的线性插值去马赛克算法，并将其从MATLAB代码转换为Python代码。最终结果将展示如何从Bayer格式的图像数据恢复出RGB全彩图像。什么是马赛克图像？马赛克图像是一种通过在传感器上覆盖彩色滤光片阵列（CFA）生成的单通道图像。最常见的CFA模式是Bayer模式
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
利用双分支CycleGAN进行图像数据的高效增强 jizhi-dataset 人工智能
随着人工智能技术的快速发展，图像数据处理变得越来越重要。为了提高图像数据的质量和可用性，我们需要采用高效的数据增强方法。双分支CycleGAN网络作为一种先进的图像处理技术，为我们提供了一种全新的解决方案。本文将详细介绍双分支CycleGAN的工作原理，并展示其在图像数据增强方面的实际效果。同时，我们也将讨论在实际应用过程中可能遇到的挑战以及如何解决这些问题。，，CycleGAN是一种用于图像到图
OpenCV计算机视觉 08 图像的旋转伊一大数据&人工智能学习日志 OpenCV 计算机视觉人工智能计算机视觉 opencv
图像的旋转下面是一张小猪佩奇的照片，请进行顺时针90度，逆时针90度，180度旋转方法一：使用了NumPy库的np.rot90()函数来实现图像的旋转np.rot90(img,k=-1)表示将输入的图像img顺时针旋转90度，np.rot90(img,k=1)表示将图像逆时针旋转90度。importcv2importnumpyasnp#导入原图img=cv2.imread('小猪佩奇.png')
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习模型推理速度/吞吐量计算(附代码） Scabbards_ 1500深度学习笔记深度学习人工智能
参考博文：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247546551&idx=2&sn=f198b6365e11f0a18832ff1203302632&chksm=ebb70e63dcc0877569d1838b2391744be628bf6cbb6e203a49f855e0769ecbbbf5a9929fe2db&scene
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
YOLOv10改进，YOLOv10检测头融合RepConv卷积，添加小目标检测层（四头检测）+CA注意机制，全网首发挂科边缘 YOLOv10改进 YOLO 目标检测人工智能计算机视觉
摘要作者提出了一种简单而强大的卷积神经网络架构，其推理阶段采用与VGG类似的网络体结构，仅由一堆3x3卷积和ReLU组成，而训练阶段的模型具有多分支拓扑。这种训练阶段和推理阶段架构的解耦通过结构重参数化技术实现，因此我们将该模型命名为RepVGG。#理论介绍RepConv通过将多个卷积操作合并成一个卷积操作来优化计算的。首先在训练过程中使用多种操作（如多个卷积层、跳跃连接等）来提高模型的表达能力和
用TensorFlow.NET搭建一个全连接神经网络 chiyong7717 人工智能 c#python
在本文中，我们将学习如何在C＃中构建神经网络模型计算图。与线性分类器相比，神经网络的关键优势在于它可以分离不可线性分离的数据。我们将实现此模型来对MNIST数据集的手写数字图像进行分类。我们要构建的神经网络的结构如下。MNIST数据的手写数字图像有10个类（从0到9）。该网络具有2个隐藏层：第一层具有200个隐藏单元（神经元），第二层具有10个神经元（称为分类器层）。让我们一步一步地用代码来实现：
YOLOv11改进，YOLOv11检测头融合RepConv卷积，并添加小目标检测层（四头检测），适合目标检测、分割等任务挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉
摘要作者提出了一种简单而强大的卷积神经网络架构，其推理阶段采用与VGG类似的网络体结构，仅由一堆3x3卷积和ReLU组成，而训练阶段的模型具有多分支拓扑。这种训练阶段和推理阶段架构的解耦通过结构重参数化技术实现，因此我们将该模型命名为RepVGG。#理论介绍RepConv通过将多个卷积操作合并成一个卷积操作来优化计算的。首先在训练过程中使用多种操作（如多个卷积层、跳跃连接等）来提高模型的表达能力和
AI绘画工具介绍编程小郭 ai作画
市面上AI绘画工具众多，它们利用深度学习和图像处理技术，为用户提供了丰富的创作体验和可能性。以下是对几款主流AI绘画工具的详细介绍及横向对比：一、主流AI绘画工具介绍Midjourney简介：Midjourney是一个独立的研究实验室，专注于人工智能绘图，被广泛应用于设计、艺术创作、广告制作等领域。特点：以其强大的图像生成能力和跨界融合的创新特点著称，能够根据文本描述和视觉输入生成兼具故事性与视觉
文心一言vsGPT-4全面对比编程小郭文心一言 chatgpt java python 人工智能 ai
文心一言和GPT-4都是当前非常先进的人工智能语言模型，它们各自具有独特的特点和优势。以下是对这两款工具的全面比较：文心一言是由百度开发的一款大型人工智能语言模型，它基于强大的深度学习技术和海量的数据资源，具备出色的语言理解和生成能力。文心一言在中文处理方面尤为出色，能够准确理解中文语境和语义，生成流畅、自然的中文文本。文心一言还具备丰富的知识库和推理能力，能够回答各种问题，提供有用的信息和建议。
Omnissa Secure Email Gateway 2.31 - 电子邮件网关虚拟化
OmnissaSecureEmailGateway2.31-电子邮件网关OmnissaAccess,formerlyWorkspaceONEAccess请访问原文链接：https://sysin.org/blog/omnissa-secure-email-gateway/查看最新版。原创作品，转载请保留出处。作者主页：sysin.orgOmnissaSecureEmailGateway安全电子邮件
基于深度学习的认知架构的AI SEU-WYL 深度学习dnn 人工智能深度学习架构
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统，旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统。结合深度学习技术，这类AI可以更好地应对动态和复杂的任务需求。1.基于深度学习的认知架构的组成一个典型的基于深度学习的认知架构包含多个关键模块：感知模块：负责从外部环境中获取数据，处理和提取特征。深度学习
人工智能：人形机器人的开发需要哪些技能？ InnoLink_1024 机器学习 AGI 人工智能人工智能机器人 ai
人形机器人的开发需要多学科、多领域的专业技能，具体如下：机械工程技能机械设计与建模：熟练掌握计算机辅助设计（CAD）软件，如SolidWorks、AutoCAD等，能够创建精确的3D模型，进行结构分析，并为制造准备详细的图纸。材料与制造工艺：了解各种材料的性质、接合技术以及制造工艺，如铣削、车削、3D打印等，根据机器人的应用场景和性能要求，选择合适的材料和制造工艺。运动学与动力学分析：深入理解运动
人工智能：人形机器人的开发需求会创造哪些热门的就业岗位？ InnoLink_1024 机器学习 AGI 人工智能人工智能机器人 ai
人形机器人的开发需求会创造以下热门的就业岗位：研发设计类机械结构工程师：负责设计人形机器人的机械本体结构，包括关节、骨架、外壳等，需要对机械原理、力学知识有深入理解，熟悉使用CAD、SolidWorks等设计软件。电子电气工程师：设计和开发人形机器人的电子电路系统，包括传感器电路、控制电路、电源电路等，需要掌握电子技术、电路设计、PCB绘制等技能。算法工程师：运动控制算法工程师：负责移动机器人运动
DICOM图像处理：深入解析DICOM彩色图像中的Planar配置及其对像素数据解析处理的实现猿享天开 DICOM医学影像知识图像处理医学影像 DICOM Planar
引言在DICOM（DigitalImagingandCommunicationsinMedicine）标准中，彩色图像的存储与显示涉及多个关键属性，其中**PlanarConfiguration（平面配置）**属性（标签(0028,0006)）尤为重要。当遇到彩色DICOM图像在浏览时被错误地分割为9张小图，而实际应显示为一张完整的图像的问题，很可能与PlanarConfiguration属性的解
什么是AI显卡，英伟达与AMD显卡的全面对比 wit_@ 人工智能 python 算法 deep learning 大数据网络
什么是AI显卡？AI显卡是专门为人工智能计算任务设计和优化的图形处理器（GPU）。相比传统显卡，AI显卡具备更强的计算能力、更高的并行处理效率以及针对深度学习、数据科学等领域的特殊硬件支持。在人工智能领域，尤其是深度学习中，训练和推理任务需要处理大量的矩阵运算，这正是GPU擅长的领域。AI显卡通过高度并行的架构，可以显著提升训练速度和模型性能，同时降低功耗和延迟。常见的AI显卡用途包括：深度学习模
详解AI大模型的主要指标与国内常见大模型对比分析 wit_@ 人工智能 AIGC 语言模型 ai 大数据服务器
AI大模型的主要指标与国内常见大模型对比分析随着人工智能技术的快速发展，大模型（LargeAIModels）在自然语言处理、计算机视觉和多模态任务中取得了突破性进展。对于选择和评价AI大模型，不仅需要关注其功能，还要理解其关键指标和性能表现。本文将详细分析AI大模型的主要评价指标，并对国内常见大模型进行具体对比，提供实际数值和深度解析。一、AI大模型的主要指标AI大模型的性能和实用性通常通过以下指
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
Python Turtle：绚丽多彩的烟花动画赵闪闪168 闪闪精选 python 开发语言
以下是一个使用Python的turtle库实现的烟花动画程序示例：收起python复制importturtleimportrandomimporttime#创建画布screen=turtle.Screen()screen.bgcolor("black")screen.title("FireworksAnimation")#烟花颜色列表colors=["red","orange","yellow",
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本