fish小余儿

(CVPR 2020) RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

Abstract

我们研究了大规模3D点云的有效语义分割问题。通过依赖昂贵的采样技术或计算量大的预处理/后处理步骤，大多数现有方法只能在小规模点云上进行训练和操作。在本文中，我们介绍了RandLA-Net，这是一种高效且轻量级的神经架构，可直接推断大规模点云的每点语义。我们方法的关键是使用随机点采样而不是更复杂的点选择方法。尽管计算和内存效率非常高，但随机抽样可能会偶然丢弃关键特征。为了克服这个问题，我们引入了一种新的局部特征聚合模块来逐步增加每个3D点的感受野，从而有效地保留几何细节。大量实验表明，我们的RandLA-Net可以一次处理100万个点，速度比现有方法快200倍。此外，我们的RandLA-Net在两个大型基准Semantic3D和SemanticKITTI上明显超越了最先进的语义分割方法。

1. Introduction

大规模3D点云的有效语义分割是实时智能系统（如自动驾驶和增强现实）的基本和必不可少的能力。一个关键挑战是深度传感器获取的原始点云通常是不规则采样、非结构化和无序的。尽管深度卷积网络在结构化2D计算机视觉任务中表现出出色的性能，但它们不能直接应用于此类非结构化数据。

最近，开创性的工作PointNet[43]已成为一种有前途的直接处理3D点云的方法。它使用共享的多层感知器(MLP)学习每点特征。这在计算上是有效的，但无法为每个点捕获更广泛的上下文信息。为了学习更丰富的局部结构，随后迅速引入了许多专用的神经模块。这些模块通常可以分类为：1)相邻特征池[44, 32, 21, 70, 69], 2)图消息传递[57, 48, 55, 56, 5, 22, 34], 3)kernel-based convolution[49, 20, 60, 29, 23, 24, 54, 38]和4)基于注意力的聚合[61, 68, 66, 42]。尽管这些方法在对象识别和语义分割方面取得了令人印象深刻的结果，但几乎所有这些方法都仅限于极小的3D点云（例如，4k点或1×1米块），不能直接扩展到更大的点云（例如，数百万点和最大200×200米），无需块划分等预处理步骤。造成这种限制的原因有三个。 1）这些网络常用的点采样方法要么计算量大，要么内存效率低。例如，广泛使用的最远点采样[44]需要200多秒才能对100万个点中的10%进行采样。2）大多数现有的局部特征学习器通常依赖计算昂贵的内核化或图构建，因此无法处理大量点。3）对于通常由数百个目标规模点云，现有的局部特征学习器要么无法捕获复杂的结构，要么效率低下，因为它们的感受野大小有限。

最近的一些工作已经开始解决直接处理大规模点云的任务。SPG[26]在应用神经网络学习每个超点语义之前将大点云预处理为超图。FCPN[45]和PCT[7]都结合体素化和点级网络来处理海量点云。尽管它们实现了不错的分割精度，但预处理和体素化步骤的计算量太大，无法部署在实时应用程序中。

在本文中，我们的目标是设计一种内存和计算效率高的神经架构，它能够在单次通过中直接处理大规模3D点云，而不需要任何预处理/后处理步骤，例如体素化、块分割或图形构造。然而，这项任务极具挑战性，因为它需要：1)一种内存和计算效率高的采样方法，以逐步对大规模点云进行下采样以适应当前GPU的限制，以及2)一种有效的局部特征学习器，以逐步增加接受能力字段大小以保留复杂的几何结构。为此，我们首先系统地证明了随机抽样是深度神经网络有效处理大规模点云的关键推动力。但是，随机采样会丢弃关键信息，尤其是对于点稀疏的目标。为了应对随机抽样的潜在不利影响，我们提出了一种新的高效局部特征聚合模块，以在逐渐变小的点集上捕获复杂的局部结构。

在现有的采样方法中，最远点采样和逆密度采样最常用于小尺度点云[44,60,33,70,15]。由于点采样是这些网络中的一个基本步骤，我们在第3.2节中研究了不同方法的相对优点，其中我们看到常用的采样方法限制了对大点云的缩放，并成为实时处理的重要瓶颈。然而，我们认为随机采样是迄今为止最适合大规模点云处理的组件，因为它速度快且可有效扩展。随机抽样并非没有成本，因为突出的点特征可能会被偶然丢弃，并且不能直接在现有网络中使用而不会导致性能损失。为了克服这个问题，我们在3.3节设计了一个新的局部特征聚合模块，它能够通过逐步增加每个神经层的感受野大小来有效地学习复杂的局部结构。特别是，对于每个3D点，我们首先引入一个局部空间编码（LocSE）单元来显式地保留局部几何结构。其次，我们利用注意力池来自动保留有用的局部特征。第三，我们将多个LocSE单元和注意力池堆叠为一个扩张的残差块，大大增加了每个点的有效感受野。请注意，所有这些神经组件都是作为共享MLP实现的，因此具有显着的内存和计算效率。

总体而言，基于简单随机抽样和有效的局部特征聚合器的原则，我们的高效神经架构RandLA-Net不仅比现有的大规模点云方法快200倍，而且超过Semantic3D[17]和SemanticKITTI[3]基准上最先进的语义分割方法。图1显示了我们方法的定性结果。我们的主要贡献是：

我们分析和比较现有的采样方法，将随机采样确定为最适合在大规模点云上进行有效学习的组件。
我们提出了一个有效的局部特征聚合模块，通过逐步增加每个点的感受野来保留复杂的局部结构。
我们在基线上展示了显着的内存和计算增益，并在多个大规模基准上超越了最先进的语义分割方法。

图1.PointNet++[44]、SPG[26]和我们在SemanticKITTI[3]上的方法的语义分割结果。我们的RandLA-Net在3D空间中直接处理 $150 \times 130 \times 10$ 米的 $10^{5}$ 个点的大型点云仅需0.04秒，比SPG快200倍。红色圆圈突出了我们方法的卓越分割精度。

2. Related Work

为了从3D点云中提取特征，传统方法通常依赖于手工制作的特征[11、47、25、18]。最近基于学习的方法[16, 43, 37]主要包括此处概述的基于投影、基于体素和基于点的方案。

(1) Projection and Voxel Based Networks. 为了利用2D CNN的成功，许多工作[30、8、63、27]将3D点云投影/展平到2D图像上以解决目标检测任务。但是，在投影过程中可能会丢失几何细节。或者，可以将点云体素化为3D网格，然后在[14、28、10、39、9]中应用强大的3D CNN。尽管它们在语义分割和目标检测方面取得了领先的成果，但它们的主要限制是计算成本高，尤其是在处理大规模点云时。

(2) Point Based Networks. 受PointNet/PointNet++[43, 44]的启发，许多最近的作品引入了复杂的神经模块来学习每点的局部特征。这些模块通常可以分类为1)相邻特征池[32, 21, 70, 69], 2)图消息传递[57, 48, 55, 56, 5, 22, 34, 31], 3)基于内核卷积 [49, 20, 60, 29, 23, 24, 54, 38]和4)基于注意力的聚合[61, 68, 66, 42]。尽管这些网络在小点云上显示出有希望的结果，但由于其高计算和内存成本，它们中的大多数无法直接扩展到大型场景。与它们相比，我们提出的RandLA-Net在三个方面有区别：1）它只依赖于网络内的随机采样，因此需要更少的内存和计算量； 2）所提出的局部特征聚合器可以通过明确考虑局部空间关系和点特征来获得连续更大的感受野，从而对于学习复杂的局部模式更加有效和鲁棒；3）整个网络仅由共享的MLP组成，不依赖于任何昂贵的操作，例如图构建和内核化，因此对于大规模点云非常有效。

(3) Learning for Large-scale Point Clouds. SPG[26]将大点云预处理为超点图，以学习每个超点语义。最近的FCPN[45]和PCT[7]应用基于体素和基于点的网络来处理海量点云。然而，图分割和体素化在计算上都是昂贵的。相比之下，我们的RandLA-Net是端到端可训练的，无需额外的预处理/后处理步骤。

3. RandLA-Net

3.1. Overview

如图2所示，给定一个具有数百万点跨越数百米的大规模点云，要使用深度神经网络对其进行处理，不可避免地需要在每个神经层中对这些点进行渐进有效的下采样，而不会丢失有用的点特征。在我们的RandLA-Net中，我们建议使用简单快速的随机采样方法来大大降低点密度，同时应用精心设计的局部特征聚合器来保留突出的特征。这使得整个网络在效率和有效性之间实现了极好的权衡。

图2. 在RandLA-Net的每一层中，大规模点云被显着下采样，但能够保留准确分割所需的特征。

3.2. The quest for efficient sampling

现有的点采样方法[44, 33, 15, 12, 1, 60]可以大致分为启发式和基于学习的方法。但是，仍然没有适合大规模点云的标准采样策略。因此，我们分析和比较它们的相对优点和复杂性如下。

(1) Heuristic Sampling

最远点采样（FPS）：为了从具有 $N$ 个点的大规模点云 $\boldsymbol{P}$ 中采样 $K$ 个点，FPS返回度量空间 $\left\{p_{1} \cdots \cdot p_{k} \cdots p_{K}\right\}$ 的重新排序，使得每个 $p_{k}$ 是距离前 $k - 1$ 个点最远的点。FPS在[44, 33, 60]中广泛用于小点集的语义分割。虽然它对整个点集有很好的覆盖，但它的计算复杂度是 $\mathcal{O}\left(N^{2}\right)$ 。对于大规模点云 $\left(N \sim 10^{6}\right)$ ，FPS在单个GPU上处理最多需要200秒。这说明FPS不适用于大规模点云。
逆密度重要性采样（IDIS）：为了从 $N$ 个点中采样 $K$ 个点，IDIS根据每个点的密度对所有 $N$ 个点进行重新排序，然后选择前 $K$ 个点[15]。其计算复杂度约为 $\mathcal{O}(N)$ 。根据经验，处理 $10^{6}$ 个点需要10秒。与FPS相比，IDIS效率更高，但对异常值也更敏感。但是，在实时系统中使用它仍然太慢。
随机抽样（RS）：随机抽样从原来的 $N$ 个点中均匀选择 $K$ 个点。它的计算复杂度为 $\mathcal{O}(1)$ ，与输入点的总数无关，即它是恒定时间的，因此具有固有的可扩展性。与FPS和IDIS相比，随机采样具有最高的计算效率，无论输入点云的规模如何。处理 $10^{6}$ 个点仅需0.004s。

(2) Learning-based Sampling

基于生成器的采样 (GS)：GS[12]学习生成一小组点来近似表示原始的大点集。然而，FPS通常用于在推理阶段将生成的子集与原始集进行匹配，从而产生额外的计算。在我们的实验中，对 $10^{6}$ 个点的10%进行采样最多需要1200秒。
基于连续松弛的采样(CRS)：CRS方法[1, 66]使用重新参数化技巧将采样操作松弛到连续域以进行端到端训练。特别是，每个采样点都是基于整个点云上的加权和来学习的。当通过一次矩阵乘法同时对所有新点进行采样时，它会导致很大的权重矩阵，从而导致无法承受的内存成本。例如，估计需要超过300 GB的内存占用来采样 $10^{6}$ 个点的10%。

图3. 提出的局部特征聚合模块。顶部面板显示了提取特征的位置空间编码块，以及基于局部上下文和几何形状对最重要的相邻特征进行加权的注意池化机制。底部面板显示了如何将这些组件中的两个链接在一起，以增加残差块内的感受野大小。

基于策略梯度的采样 (PGS)：PGS将采样操作制定为马尔可夫决策过程[62]。它顺序学习概率分布以对点进行采样。然而，当点云很大时，由于极大的探索空间，学习概率具有很高的方差。例如，要对 $10^{6}$ 个点的10%进行采样，探索空间是 $\mathrm{C}_{10^{6}}^{10^{5}}$ ，不太可能学习到有效的采样策略。我们凭经验发现，如果PGS 用于大型点云，网络很难收敛。

总体而言，FPS、IDIS和GS的计算成本太高，无法应用于大规模点云。 CRS方法具有过多的内存占用，而PGS很难学习。相比之下，随机采样具有以下两个优点：1）它具有显着的计算效率，因为它与输入点的总数无关，2）它不需要额外的计算内存。因此，我们有把握地得出结论，与所有现有的替代方案相比，随机抽样是迄今为止处理大规模点云的最合适的方法。然而，随机抽样可能会导致许多有用的点特征被丢弃。为了克服它，我们提出了一个强大的局部特征聚合模块，如下一节所述。

3.3. Local Feature Aggregation

如图3所示，我们的局部特征聚合模块并行应用于每个3D点，它由三个神经单元组成：1)局部空间编码(LocSE)、2)注意力池化和 3) 扩张残差块。

(1) Local Spatial Encoding

给定一个点云 $\boldsymbol{P}$ 和每个点的特征（例如，原始RGB或中间学习特征），这个局部空间编码单元显式嵌入所有相邻点的x-y-z坐标，使得对应的点特征总是知道它们的相对空间位置。这允许LocSE单元显式地观察局部几何图案，从而最终使整个网络受益于有效地学习复杂的局部结构。特别是，本单元包括以下步骤：

寻找相邻点。对于第i个点，为了提高效率，首先通过简单的最近邻(KNN)算法收集其相邻点。KNN基于逐点欧几里得距离。

相对点位置编码。对于中心点 $p_{i}$ 的每个最近的 $K$ 点 $\left\{p_{i}^{1} \cdots p_{i}^{k} \cdots p_{i}^{K}\right\}$ ，我们将相对点位置显式编码如下：

$\mathbf{r}_{i}^{k}=M L P\left(p_{i} \oplus p_{i}^{k} \oplus\left(p_{i}-p_{i}^{k}\right) \oplus\left\|p_{i}-p_{i}^{k}\right\|\right) \quad\quad\quad\quad(1)$

其中 $p_{i}$ 和 $p_{i}^{k}$ 是点的x-y-z位置， $\oplus$ 是连接操作， $\|\cdot\|$ 计算相邻点和中心点之间的欧几里得距离。似乎 $\mathbf{r}_{i}^{k}$ 是从冗余点位置编码的。有趣的是，这往往有助于网络学习局部特征并在实践中获得良好的性能。

点特征增强。对于每个相邻点 $p_{i}^{k}$ ，将编码后的相对点位置 $\mathbf{r}_{i}^{k}$ 与其对应的点特征 $\mathbf{f}_{i}^{k}$ 连接起来，得到一个增强的特征向量 $\hat{\mathbf{f}}_{i}^{k}$ 。

最终，LocSE单元的输出是一组新的相邻特征 $\hat{\mathbf{F}}_{i}=\left\{\hat{\mathbf{f}}_{i}^{1} \cdots \hat{\mathbf{f}}_{i}^{k} \cdots \hat{\mathbf{f}}_{i}^{K}\right\}$ ，它显式地编码了中心点 $p_{i}$ 的局部几何结构。我们注意到最近的工作[36]也使用点位置来改进语义分割。然而，这些位置用于学习[36]中的点分数，而我们的LocSE显式编码相对位置以增强相邻点特征。

(2) Attentive Pooling

该神经单元用于聚合一组相邻点特征 $\hat{\mathbf{F}}_{i}$ 。现有的工作[44, 33]通常使用最大/均值池化来硬集成相邻特征，导致大部分信息丢失。相比之下，我们转向强大的注意力机制来自动学习重要的局部特征。特别是，受[65]的启发，我们的注意力池单元由以下步骤组成。

计算注意力分数。给定一组局部特征 $\hat{\mathbf{F}}_{i}=\left\{\hat{\mathbf{f}}_{i}^{1} \cdots \hat{\mathbf{f}}_{i}^{k} \cdots \hat{\mathbf{f}}_{i}^{K}\right\}$ 我们设计一个共享函数 $g ()$ 来学习每个特征的唯一注意力分数。基本上，函数 $g ()$ 由一个共享MLP和其后的softmax组成。其正式定义如下:

$\mathbf{s}_{i}^{k}=g\left(\hat{\mathbf{f}}_{i}^{k}, \boldsymbol{W}\right) \quad\quad\quad\quad(2)$
其中 $W$ 是共享MLP的可学习权重。

加权求和。学习的注意力分数可以被视为自动选择重要特征的soft mask。从形式上看，这些特征的加权总和如下:

$\tilde{\mathbf{f}}_{i}=\sum_{k=1}^{K}\left(\hat{\mathbf{f}}_{i}^{k} \cdot \mathbf{s}_{i}^{k}\right) \quad\quad\quad\quad(3)$

总的来说，给定输入点云 $\boldsymbol{P}$ ，对于第 $i$ 个点 $p_{i}$ ，我们的位置和注意池单元学习聚集其 $K$ 个最近点的几何图案和特征，并最终生成信息特征向量 $\tilde{\mathbf{f}}_{i}$ 。

(3) Dilated Residual Block

由于大点云将被大幅下采样，因此希望显着增加每个点的感受野，这样即使删除了一些点，输入点云的几何细节也更有可能被保留。如图3所示，受成功的ResNet[19]和有效的扩张网络[13]的启发，我们将多个LocSE和Attentive Pooling单元与跳跃连接堆叠为扩张残差块。

为了进一步说明我们的扩张残差块的能力，图4显示红色3D点在第一次LocSE/Attentive Pooling操作后观察到 $K$ 个相邻点，然后能够接收来自多达 $K^{2}$ 个相邻点的信息，即它的两跳第二次之后的邻域。这是一种通过特征传播扩大感受野并扩大有效邻域的廉价方法。理论上，我们堆叠的单位越多，这个方块就越强大，因为它的影响范围变得越来越大。但是，更多的单元将不可避免地牺牲整体计算效率。此外，整个网络很可能会过拟合。在我们的RandLA-Net中，我们简单地将两组LocSE和Attentive Pooling堆叠为标准残差块，在效率和有效性之间取得了令人满意的平衡。

总体而言，我们的局部特征聚合模块旨在通过明确考虑相邻几何形状和显着增加感受野来有效地保留复杂的局部结构。此外，该模块仅由前馈（feed-forward）MLP组成，因此计算效率高。

图4.显着增加每个点的感受野（虚线圆圈）的扩张残差块的图示，彩色点代表聚合特征。 L：局部空间编码，A：注意力池化。

3.4. Implementation

我们通过堆叠多个局部特征聚合模块和随机采样层来实现RandLA-Net。详细的架构在附录中给出。我们使用带有默认参数的Adam优化器。初始学习率设置为0.01，每个epoch后降低5%。最近点的数量 $K$ 设置为16。为了并行训练我们的RandLA-Net，我们从每个点云中采样固定数量的点 $\left(\sim 10^{5}\right)$ 作为输入。在测试过程中，整个原始点云被输入到我们的网络中以推断每个点的语义，而无需进行几何或块分区等预/后处理。所有实验均在NVIDIA RTX2080Ti GPU上进行。

4. Experiments

4.1. Efficiency of Random Sampling

在本节中，我们根据经验评估现有采样方法的效率，包括第3.2节中讨论的FPS、IDIS、RS、GS、CRS和PGS。特别地，我们进行了以下4组实验。

第1组。给定一个小规模点云（ $\sim 10^{3}$ 个点），我们使用每种采样方法逐步对其进行下采样。具体来说，点云通过五个步骤进行下采样，在单个GPU上的每个步骤中仅保留25%的点，即四倍抽取率。这意味着最后只剩下 $\sim(1 / 4)^{5} \times 10^{3}$ 个点。这种下采样策略模拟了PointNet++[44]中使用的过程。对于每种采样方法，我们总结了它的时间和内存消耗以进行比较。

图5. 不同采样方法的时间和内存消耗。由于有限的GPU内存，虚线表示估计值。

第2/3/4组。总点数向着大范围增加，即分别在 $10^{5}$ 、 $10^{5}$ 和 $10^{6}$ 点左右。我们使用与第1组相同的五个采样步骤。

分析。 图5比较了每种采样方法处理不同尺度点云的总时间和内存消耗。可以看出：1）对于小规模点云（ $\sim 10^{3}$ ），所有采样方法往往具有相似的时间和内存消耗，并且不太可能产生沉重或有限的计算负担。 2）对于大规模点云（ $\sim 10^{6}$ ），FPS/IDIS/GS/CRS/PGS要么非常耗时，要么耗费内存。相比之下，随机采样总体上具有出色的时间和内存效率。这一结果清楚地表明，大多数现有网络[44、33、60、36、70、66]只能在小块点云上进行优化，主要是因为它们依赖于昂贵的采样方法。受此启发，我们在RandLA-Net中使用了有效的随机抽样策略。

4.2. Efficiency of RandLA-Net

在本节中，我们系统地评估了我们的RandLA-Net在现实世界大规模点云上用于语义分割的整体效率。特别是，我们在 SemanticKITTI[3]数据集上评估RandLA-Net，获得了我们网络在序列08上的总时间消耗，总共有4071次点云扫描。我们还评估了同一数据集上最近的代表性作品[43、44、33、26、54]的时间消耗。为了公平比较，我们将每次扫描的相同数量的点（即81920）输入每个神经网络。

此外，我们还评估了RandLA-Net和基线的内存消耗。特别是，我们不仅报告了每个网络的参数总数，还测量了每个网络在单次传递中可以作为输入的最大3D点数，以推断每个点的语义。请注意，所有实验均在具有AMD 3700X @3.6GHz CPU和NVIDIA RTX2080Ti GPU的同一台机器上进行。

分析。 表1定量地显示了不同方法的总时间和内存消耗。可以看出，1）SPG[26]的网络参数数量最少，但由于昂贵的几何划分和超图构建步骤，处理点云的时间最长； 2)PointNet++[44]和PointCNN[33]的计算成本也很高，主要是因为FPS采样操作；3）PointNet[43]和KPConv[54]由于内存效率低下的操作，无法在一次通过中获取超大规模点云（例如 $10^{6}$ 个点）。4）由于简单的随机抽样和高效的基于MLP的局部特征聚合器，我们的RandLA-Net用最短的时间（4071帧平均185秒→大约22FPS）来推断每个大规模点的语义标签云（最多 $10^{6}$ 点）。

表1.SemanticKITTI[3]数据集序列08上不同语义分割方法的计算时间、网络参数和最大输入点数。

4.3. Semantic Segmentation on Benchmarks

在本节中，我们在三个大型公共数据集上评估RandLA-Net的语义分割：室外Semantic3D[17]和SemanticKITTI[3]以及室内S3DIS[2]。

(1)对Semantic3D的评估。 Semantic3D数据集[17]由15个用于训练的点云和15个用于在线测试的点云组成。每个点云最多有 $10^{8}$ 个点，在真实世界3D空间中覆盖最大160×240×30米。原始3D点属于8个类别，包含3D坐标、RGB信息和强度。我们只使用3D坐标和颜色信息来训练和测试我们的RandLANet。所有类别的平均交并比(mIoU)和总体准确度(OA)用作标准指标。为了公平比较，我们只包括最近发布的强基线（strong baselines）[4, 52, 53, 46, 69, 56, 26]和当前最先进的方法KPConv[54]的结果。

表2展示了不同方法的定量结果。 RandLA-Net在mIoU和OA方面明显优于所有现有方法。值得注意的是，除了低植被和扫描艺术外，RandLANet在八个类别中的六个上也取得了卓越的表现。

表2. Semantic3D(reduced-8)[17]上不同方法的定量结果。仅比较最近发布的方法。于2020年3月31日访问。

表3. SemanticKITTI[3]上不同方法的定量结果。仅比较最近发表的方法，所有分数均来自在线单次扫描评估轨道。于2020年3月31日访问。

图6. RandLA-Net在SemanticKITTI[3]验证集上的定性结果。红色圆圈表示失败案例。

(2)对SemanticKITTI的评估。 SemanticKITTI[3]由43552个密集注释的LIDAR扫描组成，属于21个序列。每次扫描都是一个大规模的点云，大约有 $10^{5}$ 个点，在3D空间中跨越160×160×20米。官方将序列00∼07和09∼10（19130次扫描）用于训练，序列08（4071次扫描）用于验证，序列11∼21（20351 次扫描）用于在线测试。原始3D点只有3D坐标，没有颜色信息。超过19个类别的mIoU得分用作标准指标。

表3显示了我们的RandLANet与最近的两个方法系列的定量比较，即1）基于点的方法[43、26、49、44、51]和2）基于投影的方法[58、59、3、40]，以及图6显示了RandLA-Net在验证拆分上的一些定性结果。可以看出，我们的RandLA-Net大大超过了所有基于点的方法[43、26、49、44、51]。我们也优于所有基于投影的方法[58, 59, 3, 40]，但并不显着，主要是因为RangeNet++[40]在交通标志等小目标类别上取得了更好的结果。然而，我们的RandLA-Net的网络参数比RangeNet++[40]少40倍，并且计算效率更高，因为它不需要昂贵的前/后投影步骤。

(3)对S3DIS的评价。 S3DIS数据集[2]由271个房间组成，属于6个大区域。每个点云都是一个中等大小的单人房间（ $\sim 20 \times 15 \times 5$ 米），带有密集的3D点。为了评估我们的RandLA-Net的语义分割，我们在实验中使用了标准的6重交叉验证。比较了总共13个类的平均IoU (mIoU)、平均类准确度(mAcc)和总体准确度(OA)。

如表4所示，我们的RandLA-Net实现了与最先进的方法相当或更好的性能。请注意，这些基线[44, 33, 70, 69, 57, 6]中的大多数倾向于使用复杂但昂贵的操作或采样来优化点云小块（例如， $\times 1$ 米）上的网络，并且相对较小的房间有利于他们被分成小块。相比之下，RandLA-Net将整个房间作为输入，并且能够在单次传递中有效地推断每个点的语义。

表4.S3DIS数据集[2]上不同方法的定量结果（6重交叉验证）。仅包括最近发布的方法。

4.4. Ablation Study

由于在第4.1节中充分研究了随机抽样的影响，我们对我们的局部特征聚合模块进行了以下消融研究。所有消融网络都在序列00∼07和09∼10上进行训练，并在SemanticKITTI数据集[3]的序列08上进行测试。

(1)去除局部空间编码(LocSE)。 该单元使每个3D点能够明确地观察其局部几何形状。去除locSE后，我们直接将局部点特征输入到后续的注意力池中。

(2∼4)用max/mean/sum pooling代替attentive pooling。 注意力池单元学习自动组合所有局部点特征。相比之下，广泛使用的max/mean/sum pooling倾向于硬选择或组合特征，因此它们的性能可能不是最优的。

(5)简化扩张残差块。 扩张的残差块堆叠了多个LocSE单元和注意力池，大大扩张了每个3D点的感受野。通过简化这个块，我们每层只使用一个LocSE单元和注意力池化，也就是说，我们不像原来的RandLA-Net那样链接多个块。

表5比较了所有消融网络的mIoU分数。由此，我们可以看出：1）最大的影响是由链式空间嵌入和注意力池化块的移除造成的。这在图4中突出显示，它显示了如何使用两个链式块允许信息从更广泛的邻域传播，即大约 $K^{2}$ 个点而不是仅 $K$ 。这对于随机采样尤其重要，随机采样不能保证保留特定的点集。2）局部空间编码单元的去除显示了对性能的第二大影响，表明该模块对于有效学习局部和相对几何上下文是必要的。3)移除注意力模块会因为无法有效保留有用的特征而降低性能。从这项消融研究中，我们可以看到所提出的神经单元如何相互补充以达到我们最先进的性能。

表5. 基于我们完整的RandLA-Net的所有消融网络的平均IoU分数。

5. Conclusion

在本文中，我们证明了使用轻量级网络架构可以有效地分割大规模点云。与依赖昂贵采样策略的大多数当前方法相比，我们在我们的框架中使用随机采样来显着减少内存占用和计算成本。还引入了一个局部特征聚合模块，以有效地保留来自广泛邻域的有用特征。在多个基准上进行的大量实验证明了我们方法的高效率和最先进的性能。通过借鉴最近的工作[64]以及实时动态点云处理[35]，扩展我们在大规模点云上端到端3D实例分割的框架将会很有趣。

References

[1] Abubakar Abid, Muhammad Fatih Balin, and James Zou. Concrete autoencoders for differentiable feature selection and reconstruction. In ICML, 2019.

[2] Iro Armeni, Sasha Sax, Amir R Zamir, and Silvio Savarese. Joint 2D-3D-semantic data for indoor scene understanding. In CVPR, 2017.

[3] Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, and Juergen Gall. SemanticKITTI: A dataset for semantic scene understanding of lidar sequences. In ICCV, 2019.

[4] Alexandre Boulch, Bertrand Le Saux, and Nicolas Audebert. Unstructured point cloud semantic labeling using deep segmentation networks. In 3DOR, 2017.

[5] Chao Chen, Guanbin Li, Ruijia Xu, Tianshui Chen, Meng Wang, and Liang Lin. ClusterNet: Deep hierarchical cluster network with rigorously rotation-invariant representation for point cloud analysis. In CVPR, 2019.

[6] Lin-Zhuo Chen, Xuan-Yi Li, Deng-Ping Fan, Ming-Ming Cheng, Kai Wang, and Shao-Ping Lu. LSANet: Feature learning on point sets by local spatial attention. arXiv preprint arXiv:1905.05442, 2019.

[7] Siheng Chen, Sufeng Niu, Tian Lan, and Baoan Liu. PCT: Large-scale 3D point cloud representations via graph inception networks with applications to autonomous driving. In ICIP, 2019.

[8] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia. Multi-view 3D object detection network for autonomous driving. In CVPR, 2017.

[9] Yilun Chen, Shu Liu, Xiaoyong Shen, and Jiaya Jia. Fast point R-CNN. In ICCV, 2019.

[10] Christopher Choy, JunY oung Gwak, and Silvio Savarese. 4D spatio-temporal convnets: Minkowski convolutional neural networks. In CVPR, 2019.

[11] Chin Seng Chua and Ray Jarvis. Point signatures: A new representation for 3D object recognition. IJCV, 1997.

[12] Oren Dovrat, Itai Lang, and Shai Avidan. Learning to sample. In CVPR, 2019.

[13] Francis Engelmann, Theodora Kontogianni, and Bastian Leibe. Dilated point convolutions: On the receptive field of point convolutions. In BMVC, 2019.

[14] Benjamin Graham, Martin Engelcke, and Laurens van der Maaten. 3D semantic segmentation with submanifold sparse convolutional networks. In CVPR, 2018.

[15] Fabian Groh, Patrick Wieschollek, and Hendrik P . A. Lensch. Flex-convolution (million-scale point-cloud learning beyond grid-worlds). In ACCV, 2018.

[16] Y ulan Guo, Hanyun Wang, Qingyong Hu, Hao Liu, Li Liu, and Mohammed Bennamoun. Deep learning for 3d point clouds: A survey. arXiv preprint arXiv:1912.12033, 2019.

[17] Timo Hackel, Nikolay Savinov, Lubor Ladicky, Jan D Wegner, Konrad Schindler, and Marc Pollefeys. Semantic3d. net: A new large-scale point cloud classification benchmark. ISPRS, 2017.

[18] Timo Hackel, Jan D Wegner, and Konrad Schindler. Fast semantic segmentation of 3d point clouds with strongly varying density. ISPRS, 2016.

[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.

[20] Binh-Son Hua, Minh-Khoi Tran, and Sai-Kit Yeung. Pointwise convolutional neural networks. In CVPR, 2018.

[21] Qiangui Huang, Weiyue Wang, and Ulrich Neumann. Recurrent slice networks for 3D segmentation of point clouds. In CVPR, 2018.

[22] Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, ChiWing Fu, and Jiaya Jia. Hierarchical point-edge interaction network for point cloud semantic segmentation. In ICCV, 2019.

[23] Artem Komarichev, Zichun Zhong, and Jing Hua. A-CNN: Annularly convolutional neural networks on point clouds. In CVPR, 2019.

[24] Shiyi Lan, Ruichi Y u, Gang Y u, and Larry S Davis. Modeling local geometric structure of 3D point clouds using GeoCNN. In CVPR, 2019.

[25] Loic Landrieu, Hugo Raguet, Bruno V allet, Clément Mallet, and Martin Weinmann. A structured regularization framework for spatially smoothing semantic labelings of 3d point clouds. ISPRS, 2017.

[26] Loic Landrieu and Martin Simonovsky. Large-scale point cloud semantic segmentation with superpoint graphs. In CVPR, 2018.

[27] Alex H Lang, Sourabh V ora, Holger Caesar, Lubing Zhou, Jiong Yang, and Oscar Beijbom. PointPillars: Fast encoders for object detection from point clouds. In CVPR, 2019.

[28] Truc Le and Ye Duan. PointGrid: A deep network for 3D shape understanding. In CVPR, 2018.

[29] Huan Lei, Naveed Akhtar, and Ajmal Mian. Octree guided cnn with spherical kernels for 3D point clouds. In CVPR, 2019.

[30] Bo Li, Tianlei Zhang, and Tian Xia. V ehicle detection from 3D lidar using fully convolutional network. In RSS, 2016.

[31] Guohao Li, Matthias Muller, Ali Thabet, and Bernard Ghanem. Deepgcns: Can gcns go as deep as cnns? In ICCV, October 2019.

[32] Jiaxin Li, Ben M Chen, and Gim Hee Lee. SO-Net: Selforganizing network for point cloud analysis. In CVPR, 2018.

[33] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di, and Baoquan Chen. PointCNN: Convolution on Xtransformed points. In NeurIPS, 2018.

[34] Jinxian Liu, Bingbing Ni, Caiyuan Li, Jiancheng Yang, and Qi Tian. Dynamic points agglomeration for hierarchical point sets learning. In ICCV, 2019.

[35] Xingyu Liu, Mengyuan Yan, and Jeannette Bohg. MeteorNet: Deep learning on dynamic 3D point cloud sequences. In ICCV, 2019.

[36] Y ongcheng Liu, Bin Fan, Shiming Xiang, and Chunhong Pan. Relation-shape convolutional neural network for point cloud analysis. In CVPR, 2019.

[37] Zhijian Liu, Haotian Tang, Y ujun Lin, and Song Han. Pointvoxel cnn for efficient 3d deep learning. In NeurIPS, 2019.

[38] Jiageng Mao, Xiaogang Wang, and Hongsheng Li. Interpolated convolutional networks for 3D point cloud understanding. In ICCV, 2019.

[39] Hsien-Y u Meng, Lin Gao, Y u-Kun Lai, and Dinesh Manocha. VV-net: V oxel vae net with group convolutions for point cloud segmentation. In ICCV, 2019.

[40] Andres Milioto, Ignacio Vizzo, Jens Behley, and Cyrill Stachniss. RangeNet++: Fast and accurate lidar semantic segmentation. In IROS, 2019.

[41] Andriy Mnih and Karol Gregor. Neural variational inference and learning in belief networks. arXiv preprint arXiv:1402.0030, 2014.

[42] Anshul Paigwar, Ozgur Erkent, Christian Wolf, and Christian Laugier. Attentional pointnet for 3d-object detection in point clouds. In CVPRW, 2019.

[43] Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. PointNet: Deep learning on point sets for 3D classification and segmentation. In CVPR, 2017.

[44] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. PointNet++: Deep hierarchical feature learning on point sets in a metric space. In NeurIPS, 2017.

[45] Dario Rethage, Johanna Wald, Jurgen Sturm, Nassir Navab, and Federico Tombari. Fully-convolutional point networks for large-scale point clouds. In ECCV, 2018.

[46] Xavier Roynard, Jean-Emmanuel Deschaud, and Franc ¸ois Goulette. Classification of point cloud scenes with multiscale voxel deep network. arXiv preprint arXiv:1804.03583, 2018.

[47] Radu Bogdan Rusu, Nico Blodow, and Michael Beetz. Fast point feature histograms (fpfh) for 3D registration. In ICRA, 2009.

[48] Yiru Shen, Chen Feng, Yaoqing Yang, and Dong Tian. Mining point cloud local structures by kernel correlation and graph pooling. In CVPR, 2018.

[49] Hang Su, V arun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, and Jan Kautz. SPLA TNet: sparse lattice networks for point cloud processing. In CVPR, 2018.

[50] Richard S Sutton, David A McAllester, Satinder P Singh, and Yishay Mansour. Policy gradient methods for reinforcement learning with function approximation. In NeurIPS, 2000.

[51] Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, and QianYi Zhou. Tangent convolutions for dense prediction in 3D. In CVPR, 2018.

[52] Lyne Tchapmi, Christopher Choy, Iro Armeni, JunY oung Gwak, and Silvio Savarese. Segcloud: Semantic segmentation of 3D point clouds. In 3DV, 2017.

[53] Hugues Thomas, Franc ¸ois Goulette, Jean-Emmanuel Deschaud, and Beatriz Marcotegui. Semantic classification of 3D point clouds with multiscale spherical neighborhoods. In 3DV, 2018.

[54] Hugues Thomas, Charles R Qi, Jean-Emmanuel Deschaud, Beatriz Marcotegui, Franc ¸ois Goulette, and Leonidas J Guibas. KPConv: Flexible and deformable convolution for point clouds. In ICCV, 2019.

[55] Chu Wang, Babak Samari, and Kaleem Siddiqi. Local spectral graph convolution for point set feature learning. In ECCV, 2018.

[56] Lei Wang, Y uchun Huang, Yaolin Hou, Shenman Zhang, and Jie Shan. Graph attention convolution for point cloud semantic segmentation. In CVPR, 2019.

[57] Y ue Wang, Y ongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, and Justin M. Solomon. Dynamic graph cnn for learning on point clouds. ACM Transactions on Graphics (TOG), 2019.

[58] Bichen Wu, Alvin Wan, Xiangyu Y ue, and Kurt Keutzer. Squeezeseg: Convolutional neural nets with recurrent crf for real-time road-object segmentation from 3D lidar point cloud. In ICRA, 2018.

[59] Bichen Wu, Xuanyu Zhou, Sicheng Zhao, Xiangyu Y ue, and Kurt Keutzer. Squeezesegv2: Improved model structure and unsupervised domain adaptation for road-object segmentation from a lidar point cloud. In ICRA, 2019.

[60] Wenxuan Wu, Zhongang Qi, and Li Fuxin. PointConv: Deep convolutional networks on 3D point clouds. In CVPR, 2018.

[61] Saining Xie, Sainan Liu, Zeyu Chen, and Zhuowen Tu. Attentional shapecontextnet for point cloud recognition. In CVPR, 2018.

[62] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Y oshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015.

[63] Bin Yang, Wenjie Luo, and Raquel Urtasun. Pixor: Realtime 3D object detection from point clouds. In CVPR, 2018.

[64] Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, and Niki Trigoni. Learning object bounding boxes for 3D instance segmentation on point clouds. In NeurIPS, 2019.

[65] Bo Yang, Sen Wang, Andrew Markham, and Niki Trigoni. Robust attentional aggregation of deep feature sets for multiview 3D reconstruction. IJCV, 2019.

[66] Jiancheng Yang, Qiang Zhang, Bingbing Ni, Linguo Li, Jinxian Liu, Mengdie Zhou, and Qi Tian. Modeling point clouds with self-attention and gumbel subset sampling. In CVPR, 2019.

[67] Xiaoqing Ye, Jiamao Li, Hexiao Huang, Liang Du, and Xiaolin Zhang. 3D recurrent neural networks with context fusion for point cloud semantic segmentation. In ECCV, 2018.

[68] Wenxiao Zhang and Chunxia Xiao. PCAN: 3D attention map learning using contextual information for point cloud based retrieval. In CVPR, 2019.

[69] Zhiyuan Zhang, Binh-Son Hua, and Sai-Kit Yeung. Shellnet: Efficient point cloud convolutional neural networks using concentric shells statistics. In ICCV, 2019.

[70] Hengshuang Zhao, Li Jiang, Chi-Wing Fu, and Jiaya Jia. Pointweb: Enhancing local neighborhood features for point cloud processing. In CVPR, 2019.

你可能感兴趣的:(3D实例分割,深度学习,神经网络,计算机视觉,语义分割,实例分割)

天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
Qt/C++音视频开发22-通用GPU显示 feiyangqingyun Qt/C++音视频开发 Qt视频监控 Qt音视频 Qt硬解码
一、前言采用GPU来绘制实时视频一直以来都是个难点，如果是安防行业的做视频监控开发这块的人员，这个坎必须迈过去，本人一直从事的是安防行业的电子围栏这个相当小众的细分市场的开发，视频监控这块仅仅是周边技术玩一玩探讨一下，关于GPU绘制这块着实走了不少的弯路。之前用ffmpeg解码的时候，已经做了硬解码的处理，比如支持qsv、dxva2、d3d11va等方式进行硬解码处理，但是当时解码出来以后，还是重
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
5大核心技术+3大交互革命！Java如何让虚拟世界‘活过来’？——附代码实战+防坑指南！墨瑾轩 Java乐园交互 java 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣从“木头人”到“交互大师”的Java魔法之旅一、Java的“五大核心技术”——虚拟世界的“五感开关”1.1核心技术1：JOGL渲染引擎——“视觉中枢”作用：用OpenGL实现3D场景渲染代码示例：//JOGL渲染循环：画一个旋转的立方体importjavax.
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
Android 系统默认代码，如何屏蔽相册分享功能
Android系统默认代码，如何屏蔽相册分享功能开发云-一站式云服务平台diff--gita/packages/apps/Gallery2/src/com/android/gallery3d/app/GalleryActionBar.javab/packages/apps/Gallery2/src/com/android/gallery3d/app/GalleryActionBar.javaind
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
fps透视基础-d3d绘制-绘制文字-绘制方框-绘制连线程序员陈子青逆向工程 DirectX fps透视画方框画文字
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓#include#include#pragmacomment(lib,"d3d9.lib")#pragmacomment(lib,"d3dx9.lib")staticLPDIRECT3D9g_pD3D=NULL;staticD3DPRESENT_PARAMETERSg_d3dpp={};staticLPDIRECT3DDEVICE9g_pd3dDevice=NUL
任鸟飞FPS类型游戏绘制,骨骼,u3d,UE4和游戏安全,反外挂研究 (三) 任鸟飞逆向~ FPS C语言网络安全 3d 游戏 ue4
书接上文,我们非矩阵的方式绘制是没有那么的精确的在学习矩阵之前,我们先来了解下绘制的几种方法绘制的几种方法和反外挂建议第一种hookd3d/opengl优点:不闪,代码简单缺点:非常容易被检测第二种窗口上自行绘制,但是会闪优缺点适中第三种自建透明窗口,覆盖游戏窗口,透明窗口上绘制优点:稳定确定:代码复杂,会闪反外挂:无非就是针对外挂使用的函数进行检测深入学习矩阵对象的世界坐标列向量xyzw(w为了
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
资源分享-FPS, 矩阵, 骨骼, 绘制, 自瞄, U3D, UE4逆向辅助实战视频教程小零羊矩阵 3d ue4
文章底部获取资源教程概述本视频教程专为游戏开发者和安全研究人员设计，涵盖FPS游戏设计、矩阵运算、骨骼绘制、自瞄算法、U3D和UE4逆向辅助等实战内容。通过102节详细视频教程，您将掌握从基础到高级的游戏开发与安全防护技能。教程内容1.FPS类型游戏的设计研究和游戏安全,反外挂研究2.二维向量和平面距离3.atan2和tan4.三维向量和空间距离5.补充向量乘法6.矩阵和矩阵的运算7.矩阵的特性8
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&