3D语义场景图论文小记

3D Scene Graph 论文整理

本文会继续更新3D场景图方面的相关内容。

  1. 【2019-ICCV 】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans 【网站】

    ​ 该论文出自斯坦福大学李飞飞团队,提出了对于3D空间、语义和相机的统一框架,本质是将2D关系数据集Visual Genome拓展到了3D空间,构建的框架图层次如下所示:

    3D语义场景图论文小记_第1张图片

    ​ 该框架主要由四层组成,最下面一层为以建筑物为节点的建筑层,包含了建筑物的类别及属性;往上一层为room层,以每个房间为节点,包含了房间的类别及属性;再往上一层为object层,包含了房间中的每个object的属性及相互关系(包括属于哪个房间的关系);最上面一层为在相机视角下看到的object层,该层只包含在某一位姿下,相机看到的object的属性及关系。整个层次架构比较符合人类的思维和感知方式。

    ​ 该统一表示的构建过程主要通过(1)通过全景图像训练2D网络,和(2)通过多视觉一致性进行场景图构建。在训练2D网络时,主要采用了Mask-RCNN获取轮廓,然后用多视觉一致性进行合并。文章还提到了使用亚马逊众包服务进行标注,应该是为了标注空间中出现的关系和属性信息。在该架构中,关系被定义为多种类型,如相对大小、相对位置、遮挡、相邻、是否在同一房间等,且不同架构层次间的关系不同,非常丰富;对于属性的标注包含了功能性属性、类别、区域、位姿、mesh分割结果、大小、纹理、体素占用等,同样非常丰富。在Gibson数据集上生成的场景图也比较炫酷:

    3D语义场景图论文小记_第2张图片

    ​ 整篇文章的思想非常好,通过这种架构可以描述更多现有的表示方式无法表达的信息,但是对于场景图的生成需要经过标注,且整个过程基本是在扫描完全部场景后才进行解析构建,不能实时构建;同样,对于动态环境也没有进行相应处理。该文章还提到,这种节点表示的环境表达方式,更适合机器人导航任务中对环境的理解,由于环境抽象为节点和边,更有利于机器人在不同环境中的泛化能力,但是并没有给出机器人实际应用的实例。

  2. 【2019 Trans on cybernetics】 “3-D Scene Graph: A Sparse and Semantic Representation of Physical Environments for Intelligent Agents”

    ​ 由于现有的环境表示方法,大多只是构建环境的尺度地图或语义地图,并不适用于机器人在3D空间中的任务执行,该文章提出了一种新的三维场景表示方式,即使用节点和边,构建3D环境下的场景图,每个节点表示场景中的物体和属性(颜色,位置),每条边表示物体之间的关系。整个系统框架如下:

3D语义场景图论文小记_第3张图片

该系统在使用首先对输入的图像(不知道为啥选ScanNet数据集,图像都有点模糊)进行去噪,然后使用ElasticFusion和BundleFusion进行位姿估计(当然数据集里包含位姿),再进行关键帧的选取,通过Fast-RCNN进行目标检测,并使用Factorizable Net (F-Net)进行关系检测(其实本质上还是检测的2D图像中的关系,只是将该关系直接作为3D场景的关系)。将检测信息经过虚假检测筛选后组合为局部场景图,然后通过相同节点检测(即分别对两个物体的类别、位置和颜色的相似度进行加权求和,满足一定阈值即为相同节点)进行合并与更新。

​ 在实验验证中,主要验证了精度和适用性两方面(按论文中说,其图结构的稳定性和可拓展性早已被大范围的使用所验证)。该论文使用了ScanNet数据集进行测试,并通过人工评定的方式对实验结果进行判断,主要验证了3D场景图生成的精度。实验结果如下:

3D语义场景图论文小记_第4张图片
3D语义场景图论文小记_第5张图片
3D语义场景图论文小记_第6张图片

对该实验进行复现时,并没有取得论文中所展示的简介效果,而且该数据集场景中的物体复杂性远大于该图示,后面邮件咨询作者,作者解释该实验结果仅使用的该数据集中的部分数据。

​ 对于场景图的适用性的验证,分别利用场景图进行了VQA与任务规划(通过将3D场景图转化为PDDL的输入格式)。

3D语义场景图论文小记_第7张图片

这个demo还比较有意思,其实本质上是调用了PDDL任务规划器的接口,作者只是验证了该3D场景图的表示方式,更容易转化为任务规划器的接口,从而更方便机器人对3D场景进行任务的执行。

​ 该论文作者后面还提出四个方面需要解决的问题:

  1. 动态场景。现有场景图构建只针对静态场景,对于如何考虑动态目标(比如人),将更有利于机器人执行任务时对人的安全性。
  2. 提升精度和效率。对于框架中的每个模块(位姿估计、目标检测等)都可以进行改进提升,虽然现有的工作可以实时运行,也是只处理关键帧才可以,后面还有很大的性能提升空间。
  3. 架构提升。通过端到端的框架,或者整合多个模块为一个的形式是可能的。例如通过多任务学习等方法进行整合。
  4. 应用场景。该场景表示方法可以用于盲人对周围场景的理解,从而避免可能的危险;可以帮助3D场景的稠密重构;VQA增强问答功能;任务规划功能也可以更好的拓展。

3.【2020 ArXiv】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans

​ 该论文在前两篇论文的基础上,提出了动态3D场景图的概念。效果可以参考。该框架的形式如下:

3D语义场景图论文小记_第8张图片

​ 该框架参考了论文一中的层次架构,整个层次分为建筑层(B),房间层(R),房间结构层、物体及智能体层和语义mesh层;同时,该框架的构建也如论文二具有较高操作性,无需人工标注。按照论文所说,这四层结构的确定是根据任务来的。该框架是在Kimera感知框架的基础上建立的,相当于早就把场景语义分割信息处理好了,只是拿过来提取一下即可,当然其中新增了通过聚类对房间范围的感知:

3D语义场景图论文小记_第9张图片

​ 与前两篇文章最大的不同在于,该框架加入了动态目标(主要是人)的检测与追踪,从而消除动态变化的影响:

3D语义场景图论文小记_第10张图片

​ 该文章的实验也是在仿真器中进行,测试了其robustness和expressiveness。这种规模的框架在实际场景中确实很难做实验,其实整个文章还是比较理想的,相当于在一整个仿真环境中监视环境的变化(行人运行),从而可以随时追踪其轨迹:

3D语义场景图论文小记_第11张图片
3D语义场景图论文小记_第12张图片

然而在实际环境中,除非在整个空间布满摄像头,不然不可能如此全方位的检测环境中的动态变化(最理想的情况也就是一个机器人带着摄像头一直跟着一个人,才有可能较全面的更新场景表示,但是动态场景肯定不止一个动态目标)。因此在针对机器人实际任务方面,还是存在很多问题。

​ 在文章的最后,作者提出了四个未来的发展规划,分别是将这种场景表示框架应用于机器人决策规划、人机交互、长期自主运行及场景情况预测。在仿真场景这种全观察的环境下,可以完美构建该框架,对于这四个问题可以深入展开;但是在真实场景这种部分可观测环境中,往往很难做到全面构建该框架和实时更新该框架,对于后面的应用问题也因此较为困难。

  1. 【2019】Deep Neural Network-Based Scene Graph Generation for 3D Simulated Indoor Environments

    ​ 该论文是一篇韩文论文,但是其3D场景图的构建思路还是非常好的。论文中提出,3D场景信息不止包含目标类别,位置和属性也是非常的重要。3D场景图的构建可以用于视觉问答和服务机器人的任务规划。该框架主要围绕目标检测网络ObjNet、属性检测网络AttNet和关系检测网络(转换TransNet和预测RelNet)三个部分进行构建。整体框架如下:

    3D语义场景图论文小记_第13张图片

    后面内容主要围绕ObjNet、AttNet、TransNet和RelNet进行展开。

    其中,ObjNet主要使用了Yolov3;AttNet网络如下所示:

    3D语义场景图论文小记_第14张图片

    TransNet网络主要用于得到物体的3D bounding box:

    3D语义场景图论文小记_第15张图片

    而RelNet网络则用于结合前面的检测结果,输出最终的场景图:

    3D语义场景图论文小记_第16张图片

    实验结果如下图所示:

    3D语义场景图论文小记_第17张图片

    该论文存在的问题:

    1. 实验结果只针对单一图像进行场景图构建,没有涉及整个场景图的构建与更新;
    2. 关系检测只有相对于相机的空间关系,并不包含语义关系;
    3. 对于场景中物体间的几何关系检测,使用基于规则的方法应该比使用网络训练更加方便;
    4. 没有涉及前面论文提到的场景层次结构和动态目标处理,属于最开始提出来的初步成果。

你可能感兴趣的:(slam,自动驾驶,3d)