图 1. 给定输入的彩色点云,对每个体素的占用大小进行回归,从而预测其所属实例占用的体素数量。自适应聚类方案同时考虑占用信息和嵌入距离,进一步应用于 3D 实例分割。
如今,3D 实例分割在机器人技术和增强现实中具有多种应用,需求量很大。与作为环境投影观察的 2D 图像不同,3D 模型提供场景的度量重建,没有遮挡或尺度模糊。在本文中,我们将“3D occupancy size”定义为每个实例占用的体素数量。它具有预测鲁棒性的优点,在此基础上,OccuSeg提出了一种占用感知的3D实例分割方案。我们的多任务学习产生占用信号和嵌入表示,其中空间和特征嵌入的训练随着它们在尺度感知方面的差异而变化。我们的聚类方案受益于预测占用大小和集群占用大小之间的可靠比较,这鼓励了硬样本正确聚类并避免过度分割。所提出的方法在 3 个真实世界数据集(即 ScanNetV2、S3DIS 和 SceneNN)上实现了最先进的性能,同时保持了高效率。
过去十年见证了实时 3D 重建技术的快速发展 [31、32、5、45、14],随着 Kinect、Xtion 等商用 RGB-D 深度传感器的普及。鉴于重建场景,有对 3D 环境的实例级语义理解越来越关注。更具体地说,3D 实例分割旨在识别属于同一对象的点并同时推断其语义类别,这是移动机器人以及增强/虚拟现实应用程序的基本技术。
尽管最近随着深度学习技术的发展,对 2D 图像的场景理解取得了重大进展,但 3D 数据的不规则性带来了超出 2D 解决方案能力的新挑战。如之前的工作 [17] 所示,将最先进的 2D 实例分割 MaskRCNN [16] 预测直接投影到 3D 空间会导致性能不佳,这通过将 3D 几何信息整合到网络设计中来激发更好的解决方案。一种流行的 3D 实例分割解决方案 [26,41,21] 是将强大的 3D 特征提取器(空间稀疏卷积网络 [13] 或 PointNet++ [37])与传统的 2D 图像实例分割技术 [16,7,27] 结合起来.这种现有的 3D 解决方案不太关注利用 3D 模型本身的固有属性,它提供了环境的度量重建,而没有遮挡或尺度模糊。
图 2. 提出的实例分割方案概述。对于输入点云,我们的方法以 RGB 特征作为输入,并使用 3D UNet 进行逐点特征学习。通过用于 3D 实例分割的全连接层,将学习到的特征解码为各种表示。
在本文中,我们提出了一种占用感知 3D 实例分割方法 OccuSeg。它以 3D 几何模型作为输入,并生成实例级语义信息的逐点预测,如图 1 所示。鉴于 3D 度量空间比基于 2D 图像的投影观测提供更可靠的感知3D场景,我们特别引入了“3D occupancy signal”,表示每个实例占用的体素数量。这样的占用信号代表了每个 3D 实例的固有和基本属性,显示出在 3D 设置下处理比例、位置、纹理、照明和遮挡的模糊性的强大潜力。因此,我们将新的占用信号编码到传统的 3D 实例分割管道中,即学习阶段,然后是聚类阶段。在我们的占用感知方法中,学习和聚类阶段都充分利用占用信号的特征,从而在公共数据集上具有竞争力的性能。mAP 的可观增益(mAP 中约为 12.3)进一步表明我们的占用感知方法拥有在 3D 环境中保留实例的固有和基本性质的优越性。
更具体地说,学习阶段将彩色 3D 场景作为输入,并利用空间稀疏卷积方法 [12] 为每个体素 [26、25、21] 提取混合向量。它不仅学习了空间嵌入(图 1(d))和特征嵌入(图 1(e))等经典嵌入,而且还产生了表示对象级别的占用信号(图 1(f))体积。为了充分利用语义和几何信息,我们的特征和空间嵌入受到不同目标的明确监督,并通过特征和空间嵌入距离的协方差估计进一步结合。对于聚类阶段,3D输入点云是使用基于图形的分割算法[9]根据几何和外观约束将超级体素分组。然后,为了将具有相似特征嵌入的超级体素合并到同一个实例中,我们利用自适应阈值来评估之间的相似性嵌入距离和占用大小。借助预测的占用大小和集群占用大小之间的可靠比较,我们的聚类鼓励硬样本正确聚类,并消除部分实例被识别为独立实例的误报。技术贡献总结如下。
更具体地说,学习阶段将彩色 3D 场景作为输入,并利用空间稀疏卷积方法 [12] 为每个体素 [26、25、21] 提取混合向量。它不仅学习了空间嵌入(图 1(d))和特征嵌入(图 1(e))等经典嵌入,而且还产生了表示对象级别的占用信号(图 1(f))体积。为了充分利用语义和几何信息,我们的特征和空间嵌入受到不同目标的明确监督,并通过特征和空间嵌入距离的协方差估计进一步结合。对于聚类阶段,3D输入点云是使用基于图形的分割算法[9]根据几何和外观约束将超级体素分组。然后,为了将具有相似特征嵌入的超级体素合并到同一个实例中,我们利用自适应阈值来评估之间的相似性嵌入距离和占用大小。借助预测的占用大小和集群占用大小之间的可靠比较,我们的聚类鼓励硬样本正确聚类,并消除部分实例被识别为独立实例的误报。技术贡献总结如下。
我们提出了一种占用感知 3D 实例分割方案 OccuSeg。它在三个公共数据集上实现了最先进的性能:ScanNetV2 [4]、S3DIS [1] 和 SceneNN [18],在所有指标中以显着的优势排名第一,同时保持高效率,例如,mAP 增益为 12.3在 ScanNetV2 基准测试上。
特别是,本文提出了一种新的占用信号,它可以预测每个实例的占用体素的数量。占用信号与特征和空间嵌入的组合共同学习,并用于指导 3D 实例分割的聚类阶段。
2D Instance Segmentation. 2D 实例分割方法通常分为两类:基于提议的方法和无提议的方法。基于提议的方法[10,6,16,15,23,44]首先生成包含对象的区域提议(预定义的矩形),并进一步将每个提议内的像素分类为对象或背景。通过认为卷积算子是平移不变的,因此不能很好地区分不同位置的相似对象,Novotny 等人 [33] 提出了基于每个像素坐标的半卷积算子,以实现更好的实例分割。
另一方面,无提议方法[24、7、8、20、22]为每个像素学习一个嵌入向量,并在嵌入空间中应用一个聚类步骤作为实例分割的后处理。 Brabandere 等人 [7] 提出训练每个像素的嵌入向量,并采用判别成本来鼓励属于同一实例的像素尽可能靠近,而不同实例的嵌入中心彼此远离。 Liang 等人 [24] 对每个像素的指向对象中心的偏移向量进行回归,并进一步使用预测的中心从“投票”角度进行实例分割 [22]。最近,Neven 等人 [30] 引入了一种可学习的聚类带宽,而不是使用手工制作的成本函数来学习嵌入,从而实现了实时准确的实例分割。
虽然所有这些方法都在 2D 领域取得了可喜的成果,但扩展到 3D 领域并非易事。如何利用 3D 实例的基本属性仍然是一个具有挑战性的问题。
3D Instance Segmentation. 与具有规则像素网格的 2D 图像不同,3D 点云在物理空间中的不规则分布对 3D 实例分割提出了新的挑战。先锋作品 [43, 40, 17] 尝试通过将输入点体素化为统一体素,并改为应用 3D 卷积,将 2D 卷积神经网络直接扩展到 3D 空间。然而,大多数计算都浪费在不活动的空体素上。因此,最近的方法利用更可行的 3D 特征提取器来解决这个问题。基于点的实例分割方法 [41, 46, 48] 直接使用无序点云作为输入,并使用置换不变神经网络 PointNet [36, 37] 进行特征提取。而体积方法 [26, 25, 21] 采用空间稀疏卷积网络 (SSCN) [12, 2] 来省略使用稀疏卷积技术对非活动体素的计算。
图 3. 在同一 3D 场景的不同视角下进行 2D 观察的玩具示例。每个实例的占用像素/体素的数量(表示为占用率)在 2D 图像上是不确定的,但可以对重建的 3D 模型进行稳健的预测。
具体来说,SGPN [41] 建议学习所有点对的相似度矩阵,在此基础上合并相似点以进行实例分割。 D BoNet [46] 直接预测对象的边界框以进行有效的实例分割。 GSPN [48] 引入了一个生成形状提议网络,并依靠对象提议来识别 3D 点云中的实例。 V oteNet [35] 为种子点预测到相应对象中心的偏移向量,然后是一个聚类模块以生成对象建议。此外,3DSIS [17] 通过将从图像上的 2D 卷积提取的特征反向投影到 3D 空间来联合学习 2D 和 3D 特征。它进一步将 3D 卷积应用于基于提案的 3D 实例分割的体积特征学习。对于无提议的 3D 实例分割,MASC [26] 将 SSCN 架构与跨多个尺度的实例亲和力预测相结合。 Liang 等人 [25] 在 SSCN 的卓越性能之上应用嵌入学习 [7]。 Lahoud 等人 [21] 进一步将每个对象的方向信息与语义特征嵌入相结合。
回想一下,我们的目标是,我们将体素化的 3D 彩色场景作为输入,并为每个体素生成一个 3D 对象实例标签,其中属于同一对象的体素共享一个唯一的实例标签。
检查上述方法,其中很少有人明确利用与 2D 图像观察不同的 3D 模型的固有性质:在度量空间中重建环境而没有遮挡或尺度模糊。如图 3 所示,对于 3D 空间中的相同实例,其在 2D 图像上的观察结果可能会有很大差异。每个实例的占用像素/体素的数量(表示为占用)在 2D 图像上是不可预测的,但可以从重建的 3D 模型中稳健地预测。
在占用信号的基础上,我们提出了一种占用感知的 3D 实例分割方案。管道如图 2 所示。虽然它遵循经典的学习后聚类过程,但学习阶段和聚类阶段都不同于现有方法。首先,输入 3D 场景以 2cm 的分辨率进行体素化,然后输入用于特征提取的 3D 卷积神经网络(UNet [38])。然后,将学习到的特征转发给特定任务的头部,以学习每个输入体素的不同表示,包括语义分割,旨在分配类标签、特征和空间嵌入,以及占用回归(第 3.1 节)。最后,执行基于图的占用感知聚类方案,该方案利用预测的占用信息和前一阶段的特征嵌入(第 3.2 节)。请注意,所有 3D 卷积都是使用子流形稀疏卷积网络 [13] 实现的,以利用输入 3D 场景的稀疏性。附录中提供了网络的详细信息。
为了共同利用来自 3D 场景的固有占用以及语义和空间信息,我们提出了一个多任务学习框架来学习第 i i i个输入体素的任务特定表示,包括 (1) 用于语义分割的 c i \mathbf{c}_i ci,其目标是分配类别标签; (2) s i \mathbf{s}_i si 和 d i \mathbf{d}_i di用于联合特征和空间嵌入,以及对应的 b i \mathbf{b}_i bi用于协方差预测以融合特征和空间信息; (3) o i o_i oi用于入住率回归。网络经过训练以最小化联合成本函数 L joint \mathcal{L}_{\text {joint }} Ljoint :
L joint = L c + L e + L o (1) \mathcal{L}_{\text {joint }}=\mathcal{L}_{\mathrm{c}}+\mathcal{L}_{\mathrm{e}}+\mathcal{L}_{\mathrm{o}} \tag{1} Ljoint =Lc+Le+Lo(1)
这里 L c \mathcal{L}_{\mathrm{c}} Lc是用于语义分割的传统交叉熵损失 [11]。 L e \mathcal{L}_{\mathrm{e}} Le旨在学习一个嵌入向量,该向量同时考虑特征和空间嵌入以进行实例分割(第 3.1.1 节)。 L o \mathcal{L}_{\mathrm{o}} Lo用于回归每个体素所属实例的占用大小(第 3.1.2 节)。
与以前直接连接特征和空间嵌入的方法 [33] 不同,我们建议将它们明确分离并以不同的目标监督它们的学习过程。我们的关键观察是,虽然空间嵌入是尺度感知的并且具有明确的物理解释,例如从当前体素到其所属实例的空间中心的偏移向量,但特征嵌入存在固有的模糊尺度,因此必须进行正则化使用额外的成本函数。两个嵌入都使用协方差估计进一步正则化。我们嵌入 L e \mathcal{L}_{\mathrm{e}} Le的学习函数由三个项组成,即空间项 L s p \mathcal{L}_{\mathrm{sp}} Lsp、特征项 L s e \mathcal{L}_{\mathrm{se}} Lse和协方差项 L c o v \mathcal{L}_{\mathrm{cov}} Lcov,
L e = L s p + L s e + L cov . (2) \mathcal{L}_{\mathrm{e}}=\mathcal{L}_{\mathrm{sp}}+\mathcal{L}_{\mathrm{se}}+\mathcal{L}_{\text {cov }} . \tag{2} Le=Lsp+Lse+Lcov .(2)
Spatial Term. 第 i i i个体素的空间嵌入 d i \mathbf{d}_i di是一个回归到对象中心的 3 维向量,使用以下空间项进行监督:
L s p = 1 C ∑ c = 1 C 1 N c ∑ i = 1 N c ∥ d i + μ i − 1 N c ∑ i = 1 N c μ i ∥ , (3) \mathcal{L}_{\mathrm{sp}}=\frac{1}{C} \sum_{c=1}^C \frac{1}{N_c} \sum_{i=1}^{N_c}\left\|\mathbf{d}_i+\mu_i-\frac{1}{N_c} \sum_{i=1}^{N_c} \mu_i\right\|, \tag{3} Lsp=C1c=1∑CNc1i=1∑Nc∥∥∥∥∥di+μi−Nc1i=1∑Ncμi∥∥∥∥∥,(3)
其中 C C C是输入 3D 场景中的实例数, N c N_c Nc是第 c c c 个实例中的体素数, μ i \mu_i μi表示第 c c c个实例的第 i i i个体素的 3D 位置。
Feature Term. 特征嵌入 s i \mathbf{s}_i si是使用由三个项组成的判别损失函数 [7] 来学习的:
L s e = L v a r + L dist + L r e g , (4) \mathcal{L}_{\mathrm{se}}=\mathcal{L}_{\mathrm{var}}+\mathcal{L}_{\text {dist }}+\mathcal{L}_{\mathrm{reg}}, \tag{4} Lse=Lvar+Ldist +Lreg,(4)
其中方差项 L var \mathcal{L}_{\text {var }} Lvar 将当前嵌入吸引到每个实例的平均嵌入,距离项 L dist \mathcal{L}_{\text {dist }} Ldist 将实例推离彼此,正则化项 L reg \mathcal{L}_{\text {reg }} Lreg 将所有实例吸引到原点以保持激活有界。详细配方如下。
L v a r = 1 C ∑ c = 1 C 1 N c ∑ i = 1 N C [ ∥ u c − s i ∥ − δ v ] + 2 (5) \mathcal{L}_{\mathrm{var}}=\frac{1}{C} \sum_{c=1}^C \frac{1}{N_c} \sum_{i=1}^{N_C}\left[\left\|\mathbf{u}_c-\mathbf{s}_i\right\|-\delta_v\right]_{+}^2 \tag{5} Lvar=C1c=1∑CNc1i=1∑NC[∥uc−si∥−δv]+2(5)
L d i s t = 1 C ( C − 1 ) ∑ c A = 1 C ∑ c B = c A + 1 C [ 2 δ d − ∥ u c A − u c B ∥ ] + 2 , (6) \mathcal{L}_{\mathrm{dist}}=\frac{1}{C(C-1)} \sum_{c_A=1}^C \sum_{c_B=c_A+1}^C\left[2 \delta_d-\left\|\mathbf{u}_{c_A}-\mathbf{u}_{c_B}\right\|\right]_{+}^2, \tag{6} Ldist=C(C−1)1cA=1∑CcB=cA+1∑C[2δd−∥ucA−ucB∥]+2,(6)
L r e g = 1 C ∑ c = 1 C ∥ u c ∥ . (7) \mathcal{L}_{\mathrm{reg}}=\frac{1}{C} \sum_{c=1}^C\left\|\mathbf{u}_c\right\| . \tag{7} Lreg=C1c=1∑C∥uc∥.(7)
这里, u c = 1 N c ∑ i = 1 N c s i \mathbf{u}_c=\frac{1}{N_c} \sum_{i=1}^{N_c} \mathbf{s}_i uc=Nc1∑i=1Ncsi表示第 c c c个实例的平均特征嵌入。预定义阈值 δ v \delta_v δv和 δ d \delta_d δd设置为 0.1 和 1.5,确保实例内嵌入距离小于实例间距离。
Covariance Term. 协方差项旨在为每个实例学习最佳聚类区域。令 b i = ( σ s i , σ d i ) \mathbf{b}_i=\left(\sigma_s^i, \sigma_d^i\right) bi=(σsi,σdi)表示第 c c c个实例中第 i i i个体素的预测特征/空间协方差。通过对 b i \mathbf{b}_i bi进行平均,我们得到 ( σ s c , σ d c ) \left(\sigma_s^c, \sigma_d^c\right) (σsc,σdc),即第 c c c个实例的嵌入协方差。然后,第 i i i个体素属于第 c c c个实例的概率,记为 p i p_i pi,表示为:
p i = exp ( − ( ∥ s i − u c ∥ σ s c ) 2 − ( ∥ μ i + d i − e c ∥ σ d c ) 2 ) (8) p_i=\exp \left(-\left(\frac{\left\|\mathbf{s}_i-\mathbf{u}_c\right\|}{\sigma_s^c}\right)^2-\left(\frac{\left\|\mu_i+\mathbf{d}_i-\mathbf{e}_c\right\|}{\sigma_d^c}\right)^2\right) \tag{8} pi=exp(−(σsc∥si−uc∥)2−(σdc∥μi+di−ec∥)2)(8)
其中 e c = 1 N c ∑ k = 0 N c ( μ k + d k ) \mathbf{e}_c=\frac{1}{N_c} \sum_{k=0}^{N_c}\left(\mu_k+\mathbf{d}_k\right) ec=Nc1∑k=0Nc(μk+dk)表示第 c c c个实例的预测空间中心。由于对于属于第 c c c个实例的体素,预计 p i p_i pi大于 0.5,因此协方差项由二元交叉熵损失表示,
L c o v = − 1 C ∑ c = 1 C 1 N ∑ i = 1 N [ y i log ( p i ) + ( 1 − y i ) log ( 1 − p i ) ] (9) \mathcal{L}_{\mathrm{cov}}=-\frac{1}{C} \sum_{c=1}^C \frac{1}{N} \sum_{i=1}^N\left[y_i \log \left(p_i\right)+\left(1-y_i\right) \log \left(1-p_i\right)\right] \tag{9} Lcov=−C1c=1∑CN1i=1∑N[yilog(pi)+(1−yi)log(1−pi)](9)
其中 y i = 1 y_i=1 yi=1表示 i i i属于 c c c,否则 y i = 0 y_i=0 yi=0, N N N表示输入点云中的点数。
为了利用 3D 设置下的占用信息,对于第 c c c个实例中的第 i i i个体素,我们预测一个正值 o i o_i oi来表示当前实例占用的体素数量。然后, o i o_i oi的平均值将作为当前实例的预测占用大小。为了更稳健的预测,我们回归对数而不是原始值并制定以下占用项,
图 4. ScanNetV2 [4] 验证集上相对预测误差的累积分布函数。
L o = 1 C ∑ c = 1 C 1 N c ∑ i = 1 N c ∥ o i − log ( N c ) ∥ (10) \mathcal{L}_{\mathrm{o}}=\frac{1}{C} \sum_{c=1}^C \frac{1}{N_c} \sum_{i=1}^{N_c}\left\|o_i-\log \left(N_c\right)\right\| \tag{10} Lo=C1c=1∑CNc1i=1∑Nc∥oi−log(Nc)∥(10)
其中 N c N_c Nc是第 c c c个实例中的体素数。
为了评估我们的占用预测策略的可行性,我们使用相对预测误差 R c R_c Rc来衡量第 c c c个实例的占用预测性能,
R c = ∣ N c − exp ( 1 N c ∑ i = 1 N c o i ) ∣ N c . R_c=\frac{\left|N_c-\exp \left(\frac{1}{N_c} \sum_{i=1}^{N_c} o_i\right)\right|}{N_c} . Rc=Nc∣∣∣Nc−exp(Nc1∑i=1Ncoi)∣∣∣.
我们特别在图 4 中绘制了 R c R_c Rc的累积分布函数。对于 ScanNetV2 数据集 [4] 的验证集中的 4000 多个实例,预测了超过 68% 的实例,相对误差小于 0.3,这说明了我们为以下聚类阶段的入住率回归。
在本小节中,在前一阶段的多表示学习的基础上,引入了一种基于图的占用感知聚类方案来解决推理过程中的 3D 实例分割问题。具体来说,我们采用自下而上的策略,并使用有效的基于图的分割方案 [9] 将输入体素分组为超级体素。与 2D 空间中的超像素表示 [39, 47] 相比,由于几何连续性或局部凸性约束 [3],超体素表示可以更好地分离不同实例,其中 3D 空间中的实例边界更容易识别。
令 Ω i \Omega_i Ωi表示属于超体素 v i v_i vi的所有体素的集合,我们将 v i v_i vi的空间嵌入 D i \mathbf{D}_i Di定义为,
D i = 1 ∣ Ω i ∣ ∑ k ∈ Ω i ( d i + μ i ) (12) \mathbf{D}_i=\frac{1}{\left|\Omega_i\right|} \sum_{k \in \Omega_i}\left(\mathbf{d}_i+\mu_i\right) \tag{12} Di=∣Ωi∣1k∈Ωi∑(di+μi)(12)
其中 ∣ Ω i ∣ \left|\Omega_i\right| ∣Ωi∣表示 Ω i \Omega_i Ωi中的体素数。 v i v_i vi的特征嵌入 S i \mathbf{S}_i Si、占用率 O i O_i Oi和协方差 σ s i , σ d i \sigma_s^i, \sigma_d^i σsi,σdi是基于对属于 v i v_i vi的所有体素的类似平均操作计算的。我们进一步定义以下占用率 r i r_i ri来指导聚类步骤,
r i = O i ∣ Ω i ∣ (13) r_i=\frac{O_i}{\left|\Omega_i\right|} \tag{13} ri=∣Ωi∣Oi(13)
注意 r i > 1 r_i>1 ri>1 表示 v i v_i vi中的体素太多进行实例分割,否则 v i v_i vi应该吸引更多的体素。
图 5. OccuSeg 与先前方法 [21] 在 ScanNetV2 [4] 的验证集上的定性比较。OccuSeg 生成更一致的实例标签并成功区分附近的小实例,这要归功于所提出的占用感知聚类方案。
给定超体素表示,建立无向图 G = ( V , E , W ) G=(V, E, W) G=(V,E,W),其中顶点 v i ∈ V v_i \in V vi∈V表示生成的超体素, e i , j = ( v i , v i ) ∈ E e_{i, j}=\left(v_i, v_i\right) \in E ei,j=(vi,vi)∈E 表示权重为 w i , j ∈ W w_{i, j} \in W wi,j∈W的顶点。权重 w i , j w_{i, j} wi,j表示 v i v_i vi和 v j v_j vj之间的相似度。这里 w i , j w_{i, j} wi,j被表述为
w i , j = exp ( − ( ∥ S i − S j ∥ σ s ) 2 − ( ∥ D i − D j ∥ σ d ) 2 ) max ( r , 0.5 ) , (14) w_{i, j}=\frac{\exp \left(-\left(\frac{\left\|\mathbf{S}_{\mathbf{i}}-\mathbf{S}_{\mathbf{j}}\right\|}{\sigma_s}\right)^2-\left(\frac{\left\|\mathbf{D}_{\mathbf{i}}-\mathbf{D}_{\mathbf{j}}\right\|}{\sigma_d}\right)^2\right)}{\max (r, 0.5)}, \tag{14} wi,j=max(r,0.5)exp(−(σs∥Si−Sj∥)2−(σd∥Di−Dj∥)2),(14)
其中 σ s , σ d \sigma_s, \sigma_d σs,σd 和 r r r表示合并 v i v_i vi 和 v j v_j vj的虚拟超体素的特征协方差、空间协方差和占有率。
请注意,较大的权重表示 v i v_i vi 和 v j v_j vj属于同一实例的可能性较高。在计算合并权重的过程中,我们的占用率有助于惩罚过度分割的实例,并鼓励部分实例合并在一起,如图 5 所示。
对于 E E E中的所有边,我们选择权重 w i , j w_{i, j} wi,j最高的边 e i , j e_{i, j} ei,j,如果 w i , j > T 0 w_{i, j}>T_0 wi,j>T0,则合并 v i , v j v_i, v_j vi,vj作为新顶点,其中合并阈值 T 0 T_0 T0设置为 0.5。图 G G G然后在每次合并操作后更新。这个过程被迭代,直到没有一个权重大于 T 0 T_0 T0。最后,如果 G G G中的剩余顶点的占用率 r r r满足 0.3 < r < 2 0.3
我们采用简单的类似 UNet 的结构 [38] 从带有颜色信息的输入点云中提取特征。网络详细信息见附录。为了效率,采用[19]中基于块的稀疏卷积策略,比SCN [13]的原始实现快4倍。该网络使用 Adam 优化器进行训练,初始学习率为 1 e − 3 1 \mathrm{e}-3 1e−3。对于包括 ScanNetV2 [4]、Stanford3D [1] 和 SceneNN [18] 在内的所有数据集,如第 4 节的实验所示。如图 4 所示,我们使用相同的超参数并从头开始训练网络 320 个 epoch。
我们提出了 OccuSeg,一种用于 3D 场景的占用感知实例分割方法。我们的学习阶段利用特征嵌入和空间嵌入,以及新颖的 3D 占用信号来暗示 3D 对象的固有属性。占用信号进一步指导我们基于图的聚类阶段正确合并硬样本并禁止过度分割的聚类。大量的实验结果证明了我们的方法的有效性,它大大优于以前的方法并保持了高效率。在未来的工作中,我们将通过为部分重建的对象结合定制设计来改进我们的方法。此外,我们打算研究子对象级 3D 实例分割并进一步提高效率,使高质量 3D 实例分割在 AR/VR、游戏和移动机器人的巨大应用中得到实际应用。