(CVPR 2020) 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation

(CVPR 2020) 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation_第1张图片

图 1:给定输入 3D 点云,我们的多提议聚合网络 (3D-MPA) 预测点精确的 3D 语义实例。我们提出了一种以对象为中心的方法,该方法生成实例提议,然后是图卷积网络,该网络能够在相邻提议之间进行更高级别的交互。与以前的方法不同,最终的对象实例是通过聚合多个提案而不是使用非最大抑制来修剪提案来获得的。

Abstract

我们提出了3D-MPA,一种在3D点云上进行实例分割的方法。给定一个输入点云,我们提出了一种以对象为中心的方法,其中每个点都为其对象中心投票。我们从预测的对象中心采样对象proposals。然后,我们从投票给同一对象中心的分组点特征中学习proposal特征。图卷积网络引入了proposal间关系,除了较低级别的点特征外,还提供了更高级别的特征学习。每个proposal都包含一个语义标签、一组相关联的点,我们在这些点上定义了一个前景-背景mask、一个对象分数和聚合特征。以前的工作通常对提议执行非最大抑制(NMS)以获得最终的对象检测或语义实例。然而,NMS可以丢弃可能正确的预测。相反,我们的方法保留所有proposal,并根据学习到的聚合特征将它们组合在一起。我们表明,在ScanNetV2基准和S3DIS数据集上的3D对象检测和语义实例分割任务上,分组proposal改进了 NMS,并优于以前的最先进方法。

1. Introduction

随着 Kinect 或 Intel RealSense 等商品 RGB-D 传感器的出现,计算机视觉和图形社区在 3D 重建方法 [27, 28] 方面取得了令人瞩目的成果,现在甚至可以实时实现全局姿态跟踪 [8, 47 ]。除了几何结构的重建,语义场景理解对于许多现实世界的计算机视觉应用至关重要,包括机器人、移动设备上即将推出的应用或 AR/VR 耳机。为了理解重建的 3D 环境,研究人员已经在 3D 深度学习方法方面取得了重大进展,这些方法在体积网格 [6、32、37、38、48]、点云 [11、31、33]、网格 [16、 36]或多视图混合[7, 39]。虽然早期的 3D 学习方法主要关注语义分割,但我们最近看到了许多关于 3D 语义实例分割 [18, 19, 49] 和 3D 对象检测 [29, 51] 的工作,我们认为这两者对于现实世界都至关重要3D 感知。

3D 对象检测的基本挑战之一在于如何预测和处理对象建议:一方面,自上而下的方法首先预测大量粗糙的对象边界框建议(例如,Faster R-CNN [35] 中的锚机制]),然后是第二阶段的细化步骤。在这里,可以在单个前向传递中生成结果,但对错误检测到的框锚几乎没有异常值容忍度。另一方面,自下而上的方法利用度量学习方法,其目标是学习每个点的特征嵌入空间,该空间随后被聚类到对象实例中 [10,19,24]。这种策略可以有效地处理异常值,但它在很大程度上依赖于手动调整集群参数,并且由于 O(N 2) 成对关系,在推理时计算成本很高。

在这项工作中,我们提出了 3D-MPA,它遵循一种混合方法,利用自上而下和自下而上技术的优势:从表示 3D 扫描的输入点云中,我们从每个点生成对象中心的投票并将它们分组为对象建议;然后——而不是使用非最大抑制拒绝提案——我们为每个提案学习更高级别的特征,我们用这些特征将提案聚类成最终的对象检测。该策略背后的关键思想是生成的提议的数量比 3D 扫描中的原始输入点的数量小几个数量级,这使得分组在计算上非常高效。同时,每个对象可以接收多个提议,这简化了提案的生成,因为所有大小的对象都以相同的方式处理,并且我们可以轻松地容忍离群提案更进一步。

为此,我们的方法首先使用来自稀疏体积特征主干的每点投票方案生成以对象为中心的提案。然后,我们将提案解释为提案图的节点,我们将其输入到图卷积神经网络中,以实现相邻提案特征之间的高阶交互。除了提案损失之外,该网络还使用与相似度相似的提案之间的代理损失进行训练度量学习的分数;然而,由于提案数量相对较少,我们可以有效地训练网络和集群提案。最后,每个节点预测一个语义类、一个对象前景掩码、一个对象分数以及用于将节点分组在一起的其他特征。

总之,我们的贡献如下:

  • 一种基于密集对象中心预测的 3D 实例分割新方法,该方法利用从稀疏体积骨干中学习到的语义特征。

  • 为了从对象提议中获得最终的对象检测和语义实例,我们将常用的 NMS 替换为基于联合学习的提议特征的多提议聚合策略,并报告显着提高了 NMS 的分数。

  • 我们使用了一个图卷积网络,该网络除了低级点特征外,还显式地模拟了相邻提议特征之间的高阶交互。

2. Related Work

Object Detection and Instance Segmentation. 在 2D 领域,对象检测和实例分割受到 Ren 等人 [35] 的 Faster R-CNN 的影响最为显着,它引入了锚机制来预测具有相关对象分数和感兴趣区域的提议,从而实现语义回归边界框。这种方法在 Mask-RCNN [17] 中得到了扩展,以预测每个像素的对象实例掩码。 Hou 等人 [18] 通过密集的 3D 卷积网络将 2D 提议的想法应用于 3D 域。作为替代方案,在 [4, 14, 19] 中提出了依赖于度量学习的无提议方法。在 2D 域中,Fathi 等人 [14] 估计像素属于同一对象的可能性有多大。 De Brabandere 等人 [4] 定义了一种判别损失,它将同一对象的特征点向其均值移动,同时将不同对象的均值推开。 Lahoud 等人 [19] 采用这种判别损失来在 3D 空间中执行实例分割。最终实例是通过学习特征空间的聚类获得的。Yang 等人 [49] 直接从学习的全局特征向量预测对象边界框,并通过在边界框内分割点来获得实例掩码。最近的 VoteNet [29] 强调了在稀疏 3D 数据中直接预测边界框中心的挑战,因为大多数表面点远离对象中心。相反,他们通过根据对对象中心的投票对来自同一对象的点进行分组来预测边界框。我们采用以对象为中心的方法,用一个分支进行扩展,例如掩模预测,并用联合学习的提议特征的分组机制替换NMS。

3D Deep Learning. PointNets [31] 率先将深度学习方法用于点云处理。从那时起,我们在许多不同领域都取得了令人瞩目的进展,包括 3D 语义分割 [15, 12, 21, 31, 33, 40, 46],3D 实例分割 [10, 18, 19, 45, 49, 50],对象检测 [18, 29, 51] 和重定位 [42],流估计 [3, 25, 43],场景图重建 [1] 和场景过度分割 [20]。基于点的架构,例如 PointNet [29]和 PointNet++ [34] 直接对非结构化点集进行操作,而基于体素的方法,例如 3DMV [7] 或 SparseConvNets [5, 15] 将连续 3D 空间转换为离散网格表示,并在体积网格上定义卷积算子,类似于 2D 域中的图像卷积。基于图的方法 [22, 41, 46] 在 3D 网格 [16, 36]、引文网络 [41] 或分子 [9] 等图结构数据上定义卷积算子。在这里,我们利用 Graham 等人 [15] 的基于体素的方法作为点特征主干,并使用 Wang 等人 [46] 的图神经网络来实现提案之间的更高级别的交互。

(CVPR 2020) 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation_第2张图片

图 2:3D-MPA 网络架构。从输入点云中,我们的网络通过聚合对象提议掩码来预测对象实例掩码。完整模型由三部分组成:提案生成(左)遵循以对象为中心的策略:每个点都投票给它所属对象的中心。然后从预测的对象中心对建议位置进行采样。通过对抽样提案位置附近的投票进行分组和聚合,我们学习了提案特征。在提案合并期间(中),提案特征使用图卷积网络进一步细化,这使得提案级别的高阶交互成为可能。最后,我们建议通过对联合学习的聚合特征进行聚类来聚合多个提案,而不是常用的非最大抑制(右)。

3. Method

3D-MPA 的总体架构如图 2 所示。该模型由三部分组成:第一部分将 3D 点云作为输入,并从投票给同一对象中心的采样和分组点特征中学习对象建议(第 3.1 节).下一部分使用图卷积网络来整合提案特征,从而在提案之间实现更高级别的交互,从而产生细化的提案特征(第 3.2 节)。最后,对象生成器使用对象建议并生成最终的对象检测,即语义实例。我们将对象参数化为与该对象和语义类相关的一组点。 (第 3.3 节)。

3.1. Proposal Generation

给定一个大小为 N × I N \times I N×I的点云,由 N N N个点和 I I I 维输入特征(例如位置、颜色和法线)组成,网络的第一部分会生成固定数量的 K K K个对象建议。提议是一个元组 ( y i , g i , s i ) \left(y_i, g_i, s_i\right) (yi,gi,si),由位置 y i ∈ R 3 y_i \in \mathbb{R}^3 yiR3、提议特征向量 g i ∈ R D g_i \in \mathbb{R}^D giRD和与提议相关的一组点 s i s_i si组成。

为了生成提案,我们需要对语义上下文和底层场景几何进行编码的强点特征。我们实现了一个稀疏体积网络 [5, 15] 作为特征主干,以生成每点特征 { f i ∈ R F } i = 1 N \left\{f_i \in \mathbb{R}^F\right\}_{i=1}^N {fiRF}i=1N(图 2,绿色部分)。通过使用语义标签监督特征主干,语义上下文被编码到点特征中,使用标准交叉熵损失进行每点语义分类 L sem.pt.  \mathcal{L}_{\text {sem.pt. }} Lsem.pt. 。遵循Qi等人[29] 建议的以对象为中心的方法,点投票选择它们所属对象的中心。然而,与[29]不同的是,只有来自对象的点才能预测中心。这是可能的,因为我们共同预测语义类别,即我们可以在训练和测试期间区分来自前景(对象)和背景(墙壁、地板等)的点。这导致精确的中心预测,因为来自背景点的噪声预测被忽略了。具体来说,这是作为回归损失实现的,它预测点位置 x i ∈ R 3 x_i \in \mathbb{R}^3 xiR3与其对应的ground truth边界框中心 c i ∗ ∈ R 3 c_i^* \in \mathbb{R}^3 ciR3 之间的每点相对3D偏移量 Δ x i ∈ R 3 \Delta x_i \in \mathbb{R}^3 ΔxiR3。我们将每点中心回归损失定义为:

L cent.pt.  = 1 M ∥ x i + Δ x i − c i ∗ ∥ H ⋅ 1 ( x i ) , \mathcal{L}_{\text {cent.pt. }}=\frac{1}{M}\left\|x_i+\Delta x_i-c_i^*\right\|_H \cdot \mathbb{1}\left(x_i\right), Lcent.pt. =M1xi+ΔxiciH1(xi),
其中 ∥ ⋅ ∥ H \|\cdot\|_H H是休伯损失(或平滑L1损失), 1 ( ⋅ ) \mathbb{1}(\cdot) 1()是二元函数,表示点 x i x_i xi是否属于某个对象。 m m m是归一化因子,等于对象上的总点数。总而言之,特征主干有两个头(图2,橘黄色):语义头(执行点的语义分类)和中心头(为每个点回归对象中心)。使用组合损耗 L point  \mathcal{L}_{\text {point }} Lpoint 对它们进行联合监控,其中 λ \lambda λ是设置为0.1的加权因子:
L point  = λ ⋅ L sem.pt.  + L cent.pt.  \mathcal{L}_{\text {point }}=\lambda \cdot \mathcal{L}_{\text {sem.pt. }}+\mathcal{L}_{\text {cent.pt. }} Lpoint =λLsem.pt. +Lcent.pt. 

Proposal Positions and Features. 在每个点(属于一个对象)投票给一个中心之后,我们获得了对象中心的分布(图 3,第 3 列)。从这个分布中,我们随机选择 K 个样本作为提议位置 { y i = x i + Δ x i ∈ R 3 } i = 1 K \left\{y_i=x_i+\Delta x_i \in \mathbb{R}^3\right\}_{i=1}^K {yi=xi+ΔxiR3}i=1K(图 3,第 4 列)。我们发现随机采样比[29]中使用的最远点采样 (FPS) 效果更好,因为FPS有利于远离真实对象中心的异常值。接下来,我们将关联点 s i s_i si的集合定义为那些投票给采样提议位置 y i y_i yi半径 r \boldsymbol{r} r内的中心的点。提议特征 { g i ∈ R D } i = 1 K \left\{g_i \in \mathbb{R}^D\right\}_{i=1}^K {giRD}i=1K是使用应用于相关点 s i s_i si的点特征的 PointNet [31] 来学习的。这对应于[29]中描述的分组和归一化技术。在这个阶段,我们有 K K K个提议,由位于对象中心附近的3D位置 y i y_i yi、描述局部几何形状和最近对象语义的提议特征 g i ∈ R D g_i \in \mathbb{R}^D giRD(图 2,红色)以及一组点 s i s_i si与每个提案相关联。

3.2. Proposal Consolidation

到目前为止,提案特征对其关联对象的本地信息进行编码。在提案合并期间,提案通过显式建模相邻提案之间的高阶交互来了解其全局邻域。为此,我们在提案上定义了一个图卷积网络(GCN)。初始点-特征骨干在点级别上运行,而 GCN 在提议级别上运行。特别地,图的节点由具有相关提议特征 g i g_i gi的提议位置 y i y_i yi定义。如果两个 3D 提议位置 y { i , j } y_{\{i, j\}} y{i,j}之间的欧几里德距离 d d d小于2 m,则存在两个节点之间的边。我们采用来自DGCNN[46]的卷积算子将两个相邻提议之间的边缘特征 e i j e_{i j} eij定义为:

e i j = h Θ ( [ y i , g i ] , [ y j , g j ] − [ y i , g i ] ) , e_{i j}=h_{\Theta}\left(\left[y_i, g_i\right],\left[y_j, g_j\right]-\left[y_i, g_i\right]\right), eij=hΘ([yi,gi],[yj,gj][yi,gi]),

其中 h Θ h_{\Theta} hΘ是具有可学习参数 θ \theta θ 的非线性函数, [ ⋅ , ⋅ ] [\cdot, \cdot] [,]表示连接。图卷积网络由 l l l个堆叠图卷积层组成。虽然我们的方法在没有GCN细化的情况下也可以工作(即 l = 0 l=0 l=0),但我们观察到使用 l = 10 l=10 l=10(第 4 节)的最佳结果。总而言之,在提案合并期间给定初始提案特征 { h i ∈ R D ′ } i = 1 K \left\{h_i \in \mathbb{R}^{D^{\prime}}\right\}_{i=1}^K {hiRD}i=1K,GCN学习精炼提案特征 { g i ∈ R D } i = 1 K \left\{g_i \in \mathbb{R}^D\right\}_{i=1}^K {giRD}i=1K

3.3. Object Generation

在这个阶段,我们有 K K K个建议 { ( y i , h i , s i ) } i = 1 K \left\{\left(y_i, h_i, s_i\right)\right\}_{i=1}^K {(yi,hi,si)}i=1K,位置为 y i y_i yi,细化特征 h i h_i hi和点集 s i s_i si。目标是从这些提议中获得最终的语义实例(或对象检测)。为此,我们为每个提议预测语义类、聚合特征向量、对象分数和与提议相关的点 s i s_i si的二进制前景背景掩码。具体来说,建议特征 h i h_i hi输入到具有输出大小 ( 128 , 128 , D out  ) \left(128,128, D_{\text {out }}\right) (128,128,Dout )的 MLP,其中 D out  = S + E + 2 D_{\text {out }}=S+E+2 Dout =S+E+2具有 S S S个语义类、 E E E维聚合特征和2D(正、负)对象性分数(图 2,紫色)。

objectness score[29, 35]将提案分为正样本或负样本。它通过交叉熵损失 L o b j \mathcal{L}_{o b j} Lobj进行监督。靠近ground truth中心 (< 0.3 m) 的建议被归类为正。如果它们距离任何ground truth中心很远(> 0.6 m),或者如果它们与两个ground truth中心的距离相等,则它们被归类为负数,因为那时正确的ground truth对象是不明确的。当 d 1 > 0.6 ⋅ d 2 d_1>0.6 \cdot d_2 d1>0.6d2时就是这种情况,其中 d i d_i di是到第 i i i个最近的ground truth中心的距离。

进一步监督正提议以预测语义类、聚合特征和二进制掩码。负数被忽略。我们使用交叉熵损失 L s e m \mathcal{L}_{\mathrm{sem}} Lsem。预测最近的ground truth对象的语义标签。

Aggregation Features. 以前的方法如VoteNet[29]或3D-BoNet[49]依靠非极大值抑制 (NMS) 来获得最终对象。NMS迭代地选择具有最高 objectness分数的提案,并删除与某个IoU重叠的所有其他提案。然而,这对objectness分数的质量很敏感,并且可能会丢弃正确的预测。我们没有拒绝可能有用的信息,而是结合了多个提案。为此,我们学习了每个提案的聚合特征,然后使用DBScan[13]对其进行聚类。

聚合特征最终在同一个集群中的所有建议都聚合在一起,产生最终的对象检测。最终对象的点是组合提议的前景掩码上的并集。由于与完整点云( N ≈ 1 0 6 N \approx 10^6 N106)相比,提议的数量相对较少( K ≈ 500 K \approx 500 K500),因此这一步非常快( ∼ 8   m s \sim 8 \mathrm{~ms} 8 ms)。与集群全点云 [10, 19] 相比,这是一个显着的优势,后者可能非常缓慢。

我们研究了两种类型的聚合特征:
①Geometric features { ϵ i ∈ R E = 4 } i = 1 K \left\{\epsilon_i \in \mathbb{R}^{E=4}\right\}_{i=1}^K {ϵiRE=4}i=1K由精细的3D对象中心预测 Δ y i \Delta y_i Δyi和1D目标半径估计 r i r_i ri组成。损失定义为:
L agg.  = ∥ y i + Δ y i − c i ∗ ∥ H + ∥ r i − r i ∗ ∥ H \mathcal{L}_{\text {agg. }}=\left\|y_i+\Delta y_i-c_i^*\right\|_H+\left\|r_i-r_i^*\right\|_H Lagg. =yi+ΔyiciH+ririH
其中 c i ∗ c_i^* ci是最近的ground truth对象中心, r i ∗ r_i^* ri是最近的ground truth对象边界球的半径。
②Embedding features { ϵ i ∈ R E } i = 1 K \left\{\epsilon_i \in \mathbb{R}^E\right\}_{i=1}^K {ϵiRE}i=1K 使用判别损失函数 [4] 进行监督。这种损失已经成功应用于 3D 实例分割 [10, 19]。它由三个术语组成: L agg.  = L var.  + L dist.  + γ ⋅ L reg.  \mathcal{L}_{\text {agg. }}=\mathcal{L}_{\text {var. }}+\mathcal{L}_{\text {dist. }}+\gamma \cdot \mathcal{L}_{\text {reg. }} Lagg. =Lvar. +Ldist. +γLreg. .

L var.  = 1 C ∑ c = 1 C 1 N C ∑ i = 1 N C [ ∥ μ C − ϵ i ∥ − δ v ] + 2 \mathcal{L}_{\text {var. }}=\frac{1}{C} \sum_{c=1}^C \frac{1}{N_C} \sum_{i=1}^{N_C}\left[\left\|\mu_C-\epsilon_i\right\|-\delta_v\right]_{+}^2 Lvar. =C1c=1CNC1i=1NC[μCϵiδv]+2

L dist.  = 1 C ( C − 1 ) ∑ C A = 1 C A ≠ C B C ∑ C B = 1 C [ 2 δ d − ∥ μ C A − μ C B ∥ ] + 2 \mathcal{L}_{\text {dist. }}=\frac{1}{C(C-1)} \sum_{\substack{C_A=1 \\ C_A \neq C_B}}^C \sum_{C_B=1}^C\left[2 \delta_d-\left\|\mu_{C_A}-\mu_{C_B}\right\|\right]_{+}^2 Ldist. =C(C1)1CA=1CA=CBCCB=1C[2δdμCAμCB]+2

L reg.  = 1 C ∑ C = 1 C ∥ μ C ∥ \mathcal{L}_{\text {reg. }}=\frac{1}{C} \sum_{C=1}^C\left\|\mu_C\right\| Lreg. =C1C=1CμC

在我们的实验中,我们设置 γ = 0.001 \gamma=0.001 γ=0.001 δ v = δ d = 0.1 \delta_v=\delta_d=0.1 δv=δd=0.1 C C C是ground truth对象的总数, N C N_C NC是属于一个对象的proposals数量朝向原点。 DeBrabandere等人[4]的原始作品中提供了更多细节和直觉。在第4节中,我们将展示几何特征优于嵌入特征。

Mask Prediction. 每个正提案在与该提案相关的点 s i s_i si上预测一个与类别无关的二进制分割掩码,其中每个提案 i i i的点数为 ∣ s i ∣ = n i \left|s_i\right|=n_i si=ni(图 2,淡蓝)。先前的方法通过分割2D感兴趣区域 (RoI) (MaskRCNN [17]) 或3D边界框 (3D-BoNet [49]) 来获得掩码。由于我们采用以对象为中心的方法,因此可以直接对与提案相关的点 s i s_i si执行掩码分割。特别是,对于每个提案,我们选择在提案位置 y i y_i yi距离 r r r内投票给中心的点的每点特征 f i f_i fi。形式上,选定的每点特征集定义为 M f = { f i ∣ ∥ ( x i + Δ x i ) − y i ∥ 2 < r } M_f=\left\{f_i \mid\left\|\left(x_i+\Delta x_i\right)-y_i\right\|_2Mf={fi(xi+Δxi)yi2<r},其中 r = 0.3 m r = 0.3 m r=0.3m。选择的特征 M f M_f Mf被传递到 PointNet[32]进行二进制分割,即,我们在每个点特征上应用共享MLP,在所有特征通道上计算最大池化,并将结果连接到每个特征,然后再通过另一个MLP具有特征尺寸(256、128、64、32、2)。具有与最近的ground truth对象实例标签相同的ground truth实例标签的点被监督为前景,而所有其他的都是背景。与[49]类似,掩码损失 L mask  \mathcal{L}_{\text {mask }} Lmask 被实现为FocalLoss [23]而不是cross-entropy loss以应对前景-背景类别的不平衡。

3.4. Training Details

使用多任务损失 L = L point  + L obj.  + 0.1 ⋅ L sem.  + L mask  + L agg.  \mathcal{L}=\mathcal{L}_{\text {point }}+\mathcal{L}_{\text {obj. }}+0.1 \cdot \mathcal{L}_{\text {sem. }}+\mathcal{L}_{\text {mask }}+\mathcal{L}_{\text {agg. }} L=Lpoint +Lobj. +0.1Lsem. +Lmask +Lagg. . 从头开始​​对模型进行端到端训练。批量大小为 4,初始学习率为 0.1,减半每 2 ⋅ 1 0 4 2 \cdot 10^4 2104次迭代,总共训练 15 ⋅ 1 0 4 15 \cdot 10^4 15104次迭代。我们的模型在 TensorFlow中实现,并在Nvidia TitanXp GPU (12GB) 上运行。

Input and data augmentation. 我们的网络在从 3D 网格表面采样的 N N N个点的 3   m × 3   m 3 \mathrm{~m} \times 3 \mathrm{~m} 3 m×3 m点云作物上进行训练。在测试期间,我们对完整场景进行评估。输入特征是分配给每个点的3D位置、颜色和法线。数据增强是通过围绕垂直轴以 Uniform[-180°, 180°] 和围绕另一个轴的 Uniform[-10°, 10°] 随机旋转场景来执行的。场景在两个水平方向上随机翻转,并按 Uniform[0.9, 1.1] 随机缩放。

5. Conclusion

在这项工作中,我们介绍了 3D-MPA,一种用于 3D 语义实例分割的新方法。我们的核心思想是结合自上而下和自下而上的目标检测策略的优点。也就是说,我们首先使用基于稀疏体积骨干的以对象为中心的投票方​​案生成许多提案。每个对象可能会收到多个提议,这使得我们的方法对对象提议阶段的潜在异常值具有鲁棒性。然而,与此同时,我们只获得了少数几个建议,因此对它们进行聚类在计算上并不昂贵。为了解决这个问题,我们首先允许通过图卷积网络在提案之间进行高阶特征交互。然后,我们根据图关系结果和提案特征相似性聚合提案。我们展示了图卷积有助于获得高评估分数,尽管最大的改进来自我们的多提议聚合策略。我们的组合方法在流行的 ScanNetV2 和 S3DIS 数据集上实现了最先进的实例分割和对象检测结果,从而验证了我们的算法设计。

总的来说,我们认为多提议聚合是目标检测的一个有前途的方向,特别是在 3D 领域。然而,仍有许多有趣的未来途径,例如,如何将检测与半动态序列中的跟踪相结合。我们看到了各种有趣的想法,其中提案可以分布在 4D 空间中并沿时空轴累积。

原文链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Engelmann_3D-MPA_Multi-Proposal_Aggregation_for_3D_Semantic_Instance_Segmentation_CVPR_2020_paper.pdf

References

(CVPR 2020) 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation_第3张图片
(CVPR 2020) 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation_第4张图片

你可能感兴趣的:(3D实例分割,3d,深度学习,人工智能,3D实例分割)