In-Place Scene Labelling and Understanding with Implicit Scene Representation

Semantic NeRF是2021年ICCV_oral工作,出自帝国理工学院。文章的想法非常自然,就是在NeRF的基础上增加一个语义分支,按照Volume Rendering过程对语义信息进行积分。这是一个很好的工作,无需调整过多的代码,简单的拓展却有很好的实验效果,理论方面也比较可信。


文章目录

  • 1、论文介绍
  • 2、实验细节
  • 3、实验结果
  • 参考文献


1、论文介绍

文章在一开始就点明了他们的处理思路:

Semantic labelling is highly correlated with geometry and radiance reconstruction, as scene entities with similar shape and appearance are more likely to come from similar classes.

也就是说,场景中的实体如果属于同一类别,那它们的外观以及形状应当具有较高的相似性,语义这种high level信息应当与几何以及辐射信息高度相关。我们可以仿照神经辐射场对颜色c、体密度σ的处理方法,对空间中每个粒子的语义也进行建模,最后投影到像素平面,语义图就是对光线途径所有粒子的语义进行体素渲染的结果。

我觉得这种处理思路是很合理的。既然能对空间中的每个粒子赋予颜色c,通过体素渲染形成像素平面的RGB图;就能对空间中的每个粒子赋予语义信息s,通过体素渲染形成像素平面的语义图。

另外,我觉得这篇文章最大的贡献在于:

The intrinsic multi-view consistency and smoothness of NeRF benefit semantics by enabling sparse labels to efficiently propagate. We show the benefit of this approach when labels are either sparse or very noisy in room-scale scenes.

1、传统的基于图像的语义分割方法只使用了单张图像的信息,基于视频的语义分割方法只使用了前后帧之间的时序一致性,但是这些方法都没有将多视角信息用好。而NeRF作为一种隐式三维重建方法,它天然具有多视角一致性,也就是说,对于多张RGB图和语义图,它能够利用彼此提供的信息相互促进,得到更好的分割结果。

2、在进行语义标注的时候,经常会出现错误标签从而引入噪声,这对后续的模型训练影响很大。而借助NeRF天然存在的多视角一致性,Semantic NeRF在训练过程中会主动纠正标签错误,生成高质量的分割掩码。

除此之外,论文还在Sparse Labels、Super-Resolution、Label Propagation等方面进行了实验探索。一个很自然的想法是,语义信息的引入是否可以提高重建的精度?实验表明,添加语义任务对重建并无明显影响,但是作者发现,仅使用稀疏的语义标签也能得到很好的重建结果。使用100%和10%的语义label,训练出来的语义结果并无大差,仅仅是在某些区域的信息熵比较高。

2、实验细节

Semantic NeRF网络架构如下:

In-Place Scene Labelling and Understanding with Implicit Scene Representation_第1张图片
在设计网络架构时,作者假定:体密度σ只与空间位置(x,y,z)有关,语义信息s也只与空间位置(x,y,z)有关,颜色信息c与空间位置(x,y,z)和观测方向(nx,ny,nz)均有关。我认为这种假定是比较合理的,语义信息作为空间结构的一个固有属性,应该是独立于视角观测的,仅仅只与空间位置结构有关。

In-Place Scene Labelling and Understanding with Implicit Scene Representation_第2张图片

关于损失函数,最终loss由photometric loss和semantic loss构成,权重为0.04。论文中提到,网络训练对权重值并不敏感,设置为1.0也能得到类似的结果。

where λ is the weight of the semantic loss and is set to 0.04 to balance the magnitude of both losses [8]. In practice we find that actual performance is not sensitive to λ value and setting λ to 1 gives us similar performance.

3、实验结果

作者采用Replica数据集进行语义三维重建:

1、Room文件夹共有900个视角,训练集和测试集各取了180张图片,其中traj_w_c.txt文件每行存储的4x4矩阵,实际物理含义是c2w矩阵。由于输入图像尺寸较大,因此resize到(240,320)尺度后再进行三维重建。depth深度图存储的是实际深度值(以毫米为单位)。语义图类别会被重新remap到0-28索引,其中0代表无效值,后续在损失函数中会被忽略。射线采样最近最远距离,恒定取值0.1m、10m。

2、在Semantic NeRF训练时,射线并没有采用ndc变换进行处理,但感觉实际预测效果(rgb渲染、depth渲染、semantic渲染)也还不错。

测试集上渲染得到的RGB图、深度图、语义图结果如下:

In-Place Scene Labelling and Understanding with Implicit Scene Representation_第3张图片
In-Place Scene Labelling and Understanding with Implicit Scene Representation_第4张图片
In-Place Scene Labelling and Understanding with Implicit Scene Representation_第5张图片
文章构建了implicit 3D representation和semantic之间的联系,并通过输入sparse的label和添加noise的label,依然得到正确的输出,来论证geometry上的语义连续性对最终正确的语义输出有着重要影响,从3D方面实现语义分割的降维打击。另外,这一工作也给未来auto-labeling和interactive labeling提供了一个很好的方向,是一个很好的工作。

参考文献

1、源码:https://github.com/Harry-Zhi/semantic_nerf
2、Semantic NeRF理解:https://zhuanlan.zhihu.com/p/384946242
3、Semantic NeRF理解:https://zhuanlan.zhihu.com/p/565131548

你可能感兴趣的:(人工智能,计算机视觉)