Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding

Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding
基于关联嵌入的单图像分段平面三维重建
摘要
  单图像分段平面3D重建旨在同时分割平面实例并从图像恢复3D平面参数。最近的方法利用卷积神经网络(CNN)并获得有希望的结果。然而,这些方法仅限于检测具有某些学习顺序的固定数量的平面。为了解决这个问题,我们提出了一种基于关联嵌入的新颖的两阶段方法,其灵感来自于最近在实例分割方面的成功。在第一阶段,我们训练CNN将每个像素映射到嵌入空间,其中来自同一平面实例的像素具有类似的嵌入。然后,通过有效的均值漂移聚类算法将嵌入矢量分组到平面区域中来获得平面实例。在第二阶段,我们通过考虑像素级和实例级一致性来估计每个平面实例的参数。通过所提出的方法,我们能够检测任意数量的平面。对公共数据集的大量实验验证了我们方法的有效性和有效性。此外,我们的方法在测试时以30 fps运行,因此可以促进许多实时应用,例如视觉SLAM和人机交互。代码可在https://github.com/svip-lab/PlanarReconstruction获得。
1.简介
  单图像3D重建是计算机视觉中的基本问题,其中许多应用在诸如虚拟和增强现实,机器人和社交媒体的新兴领域中。 在本文中,我们通过恢复场景的分段平面3D模型来解决这一具有挑战性的问题,即在单个RGB图像中查找所有平面实例并估计其3D参数,如图1所示。 平面模型提供了3D场景的紧凑表示,这可以使SLAM和人机交互等许多应用受益。
Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding_第1张图片
  在文献中,大多数现有方法以自下而上的方式解决了这个问题[6,2,24,32,15,10,12]。它们首先从图像中提取几何图元,例如直线段,消失点,角点,交汇点和图像块。然后基于它们的几何关系将这些基元分组为平面区域。然而,在实践中,检测构成几何图元本身是非常具有挑战性的,经常导致大量遗漏检测(例如,由于纹理不良的表面,照明条件)和异常值(例如,由于存在非平面物体) )。结果,诸如RANSAC或马尔可夫随机场(MRF)的统计技术通常用于产生最终的3D模型。但是,当错过的和不相关的检测的百分比很高时,这种技术经常会崩溃,并且仅适用于限制性场景(例如,曼哈顿世界场景)。此外,统计模型的优化是耗时的,这极大地限制了它们在实时任务中的应用。
  与自下而上的方法不同,自上而下的方法[13]通过以整体方式分析图像而不依赖于局部几何图元来克服上述困难。 最近,[23,31]训练CNN直接从单个图像预测平面分割和平面参数。 这些方法被证明可以在多个室内和室外数据集上实现最先进的性能。 尽管它们有其优点,但目前基于学习的方法有其自身的局限性。 特别是,由于缺乏关于图像中平面的数量和特定顺序的先验知识,它们仅限于检测具有某种学习顺序的固定数量的平面,因此可能不够灵活以处理现实世界中的变化。 场景结构。
  在本文中,我们提出了一种新的基于CNN的自下而上的方法,该方法充分利用了两个方面,同时避免了现有方法的局限性。 为了实现这一点,我们的主要观点是我们可以通过计算两个像素属于同一平面实例的可能性来检测图像中的平面实例,然后使用这些可能性将相似的像素组合在一起。 与在几何图元上执行分组的传统自下而上方法不同,我们的相似性度量基于深度嵌入模型,在最近成功进行姿态估计[25],对象检测[19]和实例分割[9,5,17]之后]。 接下来,我们使用由另一个CNN分支生成的平面/非平面分割图来掩蔽非平面像素。 最后,采用有效的均值漂移聚类算法将掩蔽的像素嵌入聚类成平面实例。
  在平面实例分割之后,我们通过考虑像素级精度和实例级一致性来设计平面参数网络。 我们首先预测每个像素的平面参数,然后将这些预测与平面实例组合以生成每个平面的参数。 注意,与现有的CNN方法不同,我们限制我们的网络进行局部预测(即,按像素嵌入向量和平面参数),并以自下而上的方式对这些预测进行分组。 这使我们的方法能够生成任意数量的平面,并避免受限于任何特定顺序或空间布局。
  总之,我们的贡献如下:i)我们提出了一种新颖的两阶段深度学习框架,用于分段平面三维重建。 基于深度关联嵌入模型,我们设计了一个多分支,端到端的可训练网络,可以检测任意数量的平面并同时估计它们的参数。 ii)我们提出了一种快速变换的均值漂移聚类算法,将像素嵌入分组到平面实例中,从而在测试时实现了实时性能。 iii)对两个具有挑战性的数据集ScanNet [4]和NYUv2 [28]进行了大量实验,验证了我们方法的有效性和有效性。
2.相关工作
2.1。 单视图平面重建
  基于几何的方法。 基于几何的方法[6,2,24,20]基于2D图像中的几何线索恢复3D信息。 例如,Delage等人。 [6]首先从图像中提取线段,消失点和超像素。 然后使用MRF模型用预定义的一组平面类别(即,曼哈顿世界假设下的三个主要平面取向)来标记超像素。 同样,Barinova等人。 [2]假设环境由平坦的地面和垂直的墙壁组成,并使用条件随机场(CRF)模型来标记检测到的基元。 李等人。 [20]检测图像中的线段和消失点的集合,并在最佳匹配几何图元集合的假设集中搜索建筑模型。 然而,所有这些方法都依赖于对场景的强烈假设,这限制了它们在实践中的适用性。
  基于外观的方法。基于外观的方法基于其外观推断图像的几何属性。早期作品[15,10,12]采用自下而上的方法。他们首先预测局部图像块的方向,然后将具有相似方向的块分组以形成平面区域。 Hoiem等人。 [15]定义了一组离散的表面布局标签,例如“支撑”,“垂直”和“天空”,并使用许多手工制作的局部图像特征(例如,颜色,纹理,位置和透视)来训练模型以标记图像中的每个超像素。 Haines和Calway [12]学习预测预分割区域的连续3D方向和铸造平面检测作为MRF模型的优化问题。 Fouhey等人。 [10]首先检测凸/凹边,遮挡边界,超像素及其方向,然后在曼哈顿世界假设下将分组问题表示为二元二次规划。我们的方法也属于这一类。与现有方法不同,我们将平面检测作为实例分割问题,其中我们学习了一个相似度量,直接分割图像中的平面实例,然后估计每个平面实例的平面参数。
  最近,已经提出了几种基于CNN的方法来直接预测全局3D平面结构。 刘等人。 [23]提出了一种深度神经网络,它学习推断平面参数并将平面ID(分割掩模)分配给单个图像中的每个像素。 Yang和Zhou [31]将这个问题作为一个深度预测问题,提出了一个不需要地面真实3D平面的训练方案。 然而,这些方法仅限于预测固定数量的平面,这可能导致复杂场景中的性能下降。 同时,刘等人。 [22]使用基于提议的实例分割框架,即Mask R-CNN [14]来解决这个问题。 相反,我们利用无提议的实例分割方法[5]来解决这个问题。
Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding_第2张图片
2.2。实例分割
  实例分割的流行方法首先生成区域提议,然后对边界框中的对象进行分类,并在每个提议中对前景对象进行分段[14]。关于关联嵌入[25]及其在对象检测[19]和实例分割[9,5,17]中的扩展的最新工作提供了不同的解决方案。这些方法学习嵌入功能,该功能将像素映射到嵌入空间,其中属于同一实例的像素具有类似的嵌入。然后,他们使用简单的聚类技术来生成实例分割结果。纽厄尔等人。 [25]在多人姿势估计的背景下引入关联嵌入,并将其扩展到无提议的实例分割。 De Brabandere等。 [5]提出了一种判别性损失来学习实例嵌入,然后使用均值移位聚类算法对嵌入进行组合以形成实例。 Kong和Fowlkes [17]引入了一种递归模型来解决像素级聚类问题。我们的方法尤其受到这些工作的启发,我们将图像中的每个平面视为一个实例,并利用关联嵌入的思想来检测平面实例。但我们进一步提出i)一种有效的均值漂移算法来聚类平面实例,以及ii)端到端可训练网络来联合预测平面实例分割和平面参数,这在原始实例分割问题的背景下并不明显。
3.方法
  我们的目标是从单个RGB图像推断平面实例和平面参数。 我们提出了一种具有多分支网络的新型两阶段方法来解决这个问题。 在第一阶段,我们训练CNN以获得平面/非平面分割图和像素嵌入。 然后,我们用分割图掩蔽像素嵌入,并通过有效的均值移位聚类算法对掩蔽的像素嵌入进行分组,以形成平面实例。 在第二阶段,我们训练网络分支以预测像素级平面参数。 然后,我们将实例感知池化层与第一阶段的实例分割图一起使用,以生成最终的平面参数。 图2显示了我们方法的整个管道。
3.1. 平面/非平面分割
  我们首先设计编码器 - 解码器架构以区分平面和非平面区域。 我们使用ResNet-101-FPN [21]的扩展版本作为编码器。[33,34]实现的ResNet-101在ImageNet [7]上预先进行了图像分类。 解码器预测每个像素的平面/非平面分割图。 由于这两类在人造环境中是不平衡的,我们使用[30,3]中采用的平衡交叉熵损失:
在这里插入图片描述
Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding_第3张图片
  
  

你可能感兴趣的:(论文)