论文阅读:(一)Voxblox++:Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery

语义SLAM定义:

SLAM技术完成了机器人对环境的几何信息的理解,但是忽略了对环境语义信息的理解。单纯的SLAM技术是缺乏场景理解能力的,机器人实时的对3D环境感知理解能力是智能体的技术的关键部分。
在传统的SLAM中,地图由特征点构成,而语义SLAM把这些特征点进一步进行归纳,达到人所理解的分类层面,它能分辨出地图的特征点到底是构成了什么物体,而不是要自己判断。
如果你想让机器人去桌子附近,不要碰撞,可以使用传统SLAM,但是如果你想让机器人去桌子上拿苹果,就离不开CNN。
语义SLAM让SLAM有了更多可能。
总的来说:语义帮助SLAM减缓对特征的依赖,对地图进行更高层次的理解,语义信息一定可以提高SLAM的鲁棒程度。而SLAM也可以帮助语义,SLAM获取的几何信息也是方便机器人进行语义理解的重要内容。

语义SLAM性质:

(1)语义地图的特征点的可区别性更高。
(2)语义地图的信息更多,再利用性更高。(地图的复用性)

论文

Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery(voxblox++)——2019 IEEE
有体积实体感知的语义建图和3D实体发现

代码地址:https://github.com/ethz-asl/voxblox-plusplus

摘要:为了在现实世界环境中自主导航和规划交互,机器人需要能够稳健地感知和构建复杂的、非结构化的周围场景地图。除了构建观察到的场景几何范围内的表示之外,对环境真正功能性理解的关键洞察是在建图期间使用更高级别的实体,例如单个对象实例。这项工作提出了一种在使用本地化 RGB-D 相机进行在线扫描期间增量构建以物体为中心的体积地图的方法。
具体步骤:
(1)单帧的RGB-D图像分割:基于深度的无监督几何分割+基于RGB的语义物体预测方案。
(2)多帧分割的数据关联
(3)在voxblox上的扩展,构建包含实例标号和语义标号的全局TSDF地图

为了学习用于抓取和操作等任务的精确3D对象模型,机器人视觉系统应该能够在单个实例的级别上发现、分割、跟踪和重建对象。
以前的研究:
(1)检测RGB图像中的单个对象、预测每个像素的语义注释淹模
(2)稠密三维场景重建
融合(1)、(2)成功的在重建场景中定位和分割了语义上有意义的对象。
不足:只能够将检测结果归为训练过的对象。
(3)基于几何的方法,能够发现以前未见的场景元素,但是有过度分割和没有语义信息的这两个缺点。

这篇论文提出了一种逐步建立环境立体图的方法,该立体图中包含了在场景中观察到的单个对象实例的信息。特别是,面向对象的建图框架能查询识别出的语义对象的姿态和形状,以及以前未见过的对象实例的姿态和形状。
voxblox是基于几何的增量场景分割,对其扩展,产生一个完整的实例感知语义建图框架voxblox++。

该系统将已知姿态的深度相机的RGB-D图像流作为输入。(当前的工作完全集中在地图绘制上,因此假定给出了摄像机的定位)
首先,逐帧分割方案将深度图像的无监督几何分割+RGB图像的语义对象结合。
语义使得系统能够推断帧中预测的一些3D片段的类别,以及根据片段所属的对象实例对片段进行分组。(语义分割)
接下来,通过数据关联策略将每帧预测和全局地图中的现有片段进行匹配,来解决跨多个帧的单个预测实例的跟踪。(跟踪)
最后,观察到的表面几个形状和分割信息被集成到全局TSDF几何地图中。(建图)

主要贡献:
(1)一种融合几何和语义的分割方案,将检测对象扩展到从未见过的类别。
(2)用于跨多个帧跟踪和匹配实例预测的数据关联策略。
(3)在公开可用的数据集上、在线机器人建图设置中评估框架。

论文阅读:(一)Voxblox++:Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery_第1张图片
图(d)是纯几何分割,所提出的框架防止了已识别的关节对象的过度分割,并将它们分割为一个实例,尽管它们的形状是非凸的(蓝色圆圈),为每个对象分配了图©中所示的语义类别。同时,所提出的方法发现了未知类(红圈)的新颖的、以前未见过的类似物体的元素。图(b)是真实的实例分割。

相关工作
(1)目标检测与分割
CNNs提出了几种用于检测RGB图像中的对象的体系结构。
Mask R-CNN框架还能够为每个检测到的实例预测的每个像素语义注释掩码。
不足:需要大量训练数据且这些算法只能识别训练过程中提供的固定集合类。
MaskX R-CNN采用了迁移学习的方法,只需要在训练时标记数据的一个子集。
SceneCut和它的贝叶斯扩展在开放条件下运行,并且能够检测和分割未知类别的新对象。
但是这些方法仅仅在语义分割,本事并不能提供全面的场景3D表示。
(2)语义对象级建图
传统的语义分割不知道对象实例。此外还需要提供场景中单个物体的几何形状和相对未知信息。这些都是传统的语义分割方法,不能将场景中的部分组合成不同的独立对象,未能构建有意义的地图来对单个对象实例进行建模。
SLAM++通过检测RGB-D中的可识别元素来构建面向对象的地图,但是需要预先知道确切的几何模型的对象数据库。
纯几何分割能够发现场景中以前未见过的对象,根据深度数据执行。但是会导致不必要的非凸对象的过度分割。
还有些工作可以从已知物体的数据库中进行物体识别,虽然能够发现新的对象,但还是需要已知被识别对象的精确3D几何模型,但现实物体形状可能有变化。
还有的工作是一种基于几何的增量分割策略,结合了的YOLO V2检测器来识别和合并被检测为同一实例的几何片段。但是它只存储表面信息,并不能表示观察到的自由空间。
所以这篇论文(voxblox++)采用了基于体积的TSDF建图,没有丢弃有价值的自由空间信息,能够分辨空白空间和自由空间,能够增量提供环境的稠密重建体素地图,其包含识别和未知物体元素的形状和位姿信息。

方法
4步 几何分割-语义实例感知分割细化-数据关联-地图集成
首先,根据基于凸性的几何方法分割深度图,产生精确描述现实世界物理边界的分割轮廓。
对应的RGB图像帧用Mask R-CNN框架处理,检测对象实例,并为每个像素计算语义分割掩码。
每个实例的掩码用在语义标记相应的深度段,并合并被检测为非凸对象实例的几何过度分割的段。
数据关联将在当前帧中发现的片段及其组成的实例与已经存储在地图中的片段进行匹配。
最后,片段被集成到稠密的3D地图中。

论文阅读:(一)Voxblox++:Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery_第2张图片
在每一个新的帧,传入的RGB图像用掩码R-CNN网络进行处理,以检测对象实例并为每个对象预测语义注释的掩码。同时,几何分割将深度图像分解成一组凸起的3D片段。预测的语义掩码用于推断相应深度片段的类别信息,并通过根据非凸对象所属的对象实例对片段进行分组来细化非凸对象的过分割。接下来,数据关联策略将当前帧中预测的片段与它们在全局地图中的对应实例进行匹配,以便为每个片段检索地图一致的标签。最后,来自当前帧的密集几何和分割信息被集成到全局地图体积中。

具体步骤:
论文阅读:(一)Voxblox++:Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery_第3张图片
论文阅读:(一)Voxblox++:Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery_第4张图片
论文阅读:(一)Voxblox++:Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery_第5张图片
论文阅读:(一)Voxblox++:Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery_第6张图片

你可能感兴趣的:(论文阅读,计算机视觉)