Enhancing Piecewise Planar Scene Modeling from a Single Image via Multi-View Regularization

Enhancing Piecewise Planar Scene Modeling from a Single Image via Multi-View Regularization-基于多视图正则化的单图像分段平面场景建模

小记

2019 SIGGRAPH Asia全文翻译,期末作业,以做记录。

摘要

近几年,基于单幅图像的平面场景建模的研究是使用多分支神经网络,同时分割平面并恢复三维平面参数。但是,这些监督方法的推广性和准确性在很大程度上依赖于可用注释数据的规模。本文在不需要额外标注数据的情况下,提出了多视图正则化的网络训练方法,以进一步增强单视图重建网络。我们的多视图正则化强调了训练阶段的多视图一致性,使得特征嵌入对视图变化和光照变化具有更强的鲁棒性。因此,用我们的正则化训练的神经网络可以更好地推广到广泛的视野和照明。与以往在公共ScanNet数据集上的分段平面重建方法相比,我们的方法获得了更好的重建性能。

CCS概念

计算方法→重建; 现场了解。

关键词

场景建模,多视图,深度神经网络,平面重建,正则化

1 简介

基于图像的场景建模已经在计算机图形学中广泛研究了几十年。研究这一问题有助于增强现实、室内导航、人机交互等实际应用。然而,当输入仅限于一幅图像时,问题变得不适定。为了解决这一不适定问题,研究人员试图从人工交互或先验知识中引入了更多的约束条件,这可以追溯到Tour-into-the-Picture[Horry等,1997;Kang等,2001]。它依靠消失线来推断并生成一个简化的三维模型。尽管这些方法可以从单个图像下的新视图中生成有趣的渲染,但它们的处理流程既不够健壮,也不够自动化。
为了使用户免于在基于图像的建模中进行手动交互,已有学者通过利用带注释的图像数据集提出了一系列基于学习的方法[Hoiem等,2007;Wang等,2014]。假设自然场景通常由一组平面组成,那么这些方法将从局部面片中提取几何特征和外观特征,并将它们分类为不同方向的表面。尽管它们可以为室外场景合成出合理的的新视图,但由于对象干扰、遮挡和巨大的外观差异等情况,它们无法对室内场景进行建模。
近年来,深度学习方法极大地提高了基于单个图像的分段平面场景重建的三维重建性能[Liu等,2019、2018;Yang and Zhou,2018;Yu 等,2019]。这些方法以单个RGB图像为输入,同时分割平面区域并估计三维平面参数,以密集点云的形式对场景进行建模,如图1所示。他们采用平面性假设进行三维建模,这在人造场景建模中已被证明是有效的[Monszpart等,2015;Zhang等,2015]。
Enhancing Piecewise Planar Scene Modeling from a Single Image via Multi-View Regularization_第1张图片
在这些方法中,[Liu等,2018]和[Yang and Zhou,2018]采用语义分割框架来完成平面重建任务。他们利用深度神经网络(DNN)直接推导出平面参数并预测平面分割。它们在监督飞机参数方面起作用。PlaneNet[刘等,2018]使用传统的平面拟合方法来生成平面参数的地面真值,而[Yang and Zhou,2018]将预测的平面参数投射到深度图中,并使用地面真实深度来监督平面参数预测。然而,这些继承自语义分割框架的方法的一个局限性在于它们只能预测一个固定数量的平面。这个问题稍后将通过将平面分割作为一个检测问题来解决[Liu等,2019]或是一个聚类问题[Yu等,2019]嵌入空间。
尽管通过这些完全监督的方法已经取得了不错的进展,但由于密集注释的训练数据的缺陷,导致学习的特征嵌入的通用性较差,特别是针对视点变化和外观变化较大的情况。因此,通常会出现平面的过分割和欠分割,从而导致三维平面的错误预测。解决这一问题的一种可能方法是增加标记训练数据的规模。然而,获得精确的深度图和平面标注并非易事。
本文提出通过多视图正则化来增强现有的平面重建网络,以获得更稳健的特征嵌入。我们的训练框架将同一场景的多视图图像作为输入,通过最小化每个平面实例中多视图特征的差异,以及最大化不同平面实例中多视图特征的差异,来增强这些图像的嵌入特征的一致性。因此,既不需要额外的深度图标注或平面分割来进行监督,也不会增加模型的复杂度。通过我们的多视图正则化,增强的网络针对视图变化和光照变化提取了更一致的特征。因此,我们提出的方法在重建精度上优于先前的最新方法,并产生更具视觉效果的模型。

2方法

我们的方法采用了为单视图分段平面重建设计的网络[Yu等,2019]作为功能嵌入和平面恢复的基础。我们将简要介绍[Yu等,2019]的结构作为我们的单视图基准。然后详细介绍我们的多视图正则化方法。图2 简要地说明了所提出方法的流程。
Enhancing Piecewise Planar Scene Modeling from a Single Image via Multi-View Regularization_第2张图片
以单个RGB图像为输入,将单视面恢复网络表示为SVPNet [Yu等,2019],可以推断出具有三维平面恢复的深度图,如图2中的蓝色块所示。该算法首先采用编解码框架提取特征,然后利用三个卷积层分别生成二通道嵌入特征图、像素级平面参数以及分别指示平面和非平面像素的二进制分割掩模。利用改进的mean-shift聚类算法对嵌入特征进行聚类以获得平面实例。结合像素级的平面参数和分割掩模,生成分段平面三维模型。
我们的多视图正则化是为了在训练阶段针对视图变化和光照变化加强要素嵌入的一致性。为了训练SVPNet,我们在同一场景的不同视图下拍摄多幅图像作为输入。其中一幅图像是地面真实深度图D、平面参数{Pi}Ci=1和分割标签S,我们将该图像作为参考图像Ir,将其他k幅图像{Iks}作为源视图图像。参考图像Ir和K个源视图图像被送入到共享编码器-解码器块和特征嵌入块的K+1个子网中,以为每个图像提取嵌入特征Xr,X1s ···,XKs。
为了在K个源视图图像和参考图像之间建立像素级的对应关系,从源视图Xs1,··,XKs嵌入特征映射。根据其相机参数和地面真实深度图投影到参考视图。因此,我们从K个源视图和参考视图中得到K+1个投影的嵌入特征图{Xkp}。
为了构造多视图正则化项,我们将判别损失函数从扩展到多视图特征图[Brabandere等,2017]。单视图丢失被定义为
在这里插入图片描述
其中Lvar将每个嵌入拉到对应平面实例的平均嵌入,Ldist将平面实例的中心彼此推开。他们被定义为
Enhancing Piecewise Planar Scene Modeling from a Single Image via Multi-View Regularization_第3张图片
其中C是地面真实标签S的平面实例数,Nc是平面聚类C的像素数,μC是聚类C的均值嵌入,且均值嵌入的整体集合表示为{ μC } C,xi是平面聚类C中x上的第i个嵌入特征向量,||·||表示L2的距离,δv,δd分别是Lvar和Ldist的两个余量。尽管它们的单视图损失增强了嵌入空间的紧凑性,但我们的多视图正则化项倾向于在不同视图下增强同一平面实例的嵌入向量的一致性。对于每个源视图图像,我们都有其投影的嵌入特征映射Xkp和对应的平面实例标签Sr,与参考图像相同。结合投影嵌入特征图和参考嵌入特征图,我们将它们表示为{Fk}K+1={Xr,X1p,XKp}。对于Sr上的每个平面实例,我们计算所有K+1个嵌入{Fk}K+1中该平面所有像素的平均嵌入μc。通过在K+1个视图之间嵌入均值,我们的多视图正则化项由下式给出:
在这里插入图片描述
由于该网络的最终目标是恢复场景中平面的三维几何结构,因此我们将[Yu等,2019]中定义的语义分割损失Ls和平面参数损失Ln与特征嵌入的多视图正则化进行了整合 LMV训练我们的模型。 因此,我们网络的整体损失函数写为
在这里插入图片描述
这三个损失项都是不同的,因此网络可以以端到端的方式进行训练。

3 实验

我们在PyTorch中实现了我们的方法,并使用SGD优化器,学习率为10-4,权重衰减为10-5。基于ScanNet[Dai等,2017]构建的数据集,在单视图分段平面重建工作[Liu等,2018;Yu等,2019]之后,我们首先构建一个包含48214个参考图像的数据集进行训练。对于这些参考图像,通过ScanNet在重建的网格上拟合平面得到地面真平面的分割和参数。为了用我们的多视点正则化训练网络,对于每个参考图像,我们在相应的图像序列中选择两幅前后各20帧的图像,这两幅图像具有摄像机的外部参数和内部参数。在测试阶段,增强型网络只需要一幅图像作为输入。我们在包含760幅图像的测试集上评估我们的方法,与[Liu等,2018;Yu等,2019]相同。

3.1定量评价

我们首先将我们的方法与我们的基准SVPNet进行比较[Yu等,2019年]。我们分别以正确预测平面和像素的百分比作为每平面召回率和每像素召回率的指标来评估平面重建的性能。如果预测的平面与地面真值的相交重叠(IOU)得分大于0.5,并且在重叠区域推断深度和地面真值深度之间的平均差异小于阈值σd,则认为该预测平面是正确的,范围为0.05m至0.6m。比较结果见表1,从中可以看出,我们的方法比基准模型具有更好的平面重建性能,特别是在深度阈值较小的情况下。在测试期间,我们的方法与基线模型相比不会带来任何额外的网络参数和计算成本。验证了所提出的多视点正则化方法提高了网络的性能。
Enhancing Piecewise Planar Scene Modeling from a Single Image via Multi-View Regularization_第4张图片
此外,我们将我们的方法与PlaneRCNN [Liu等,2019],PlaneNet[Liu等,2018]和NYU-Toolbox [Silberman等,2012]进行了比较。图3显示出了测试集的比较结果。在这些方法中,我们的方法取得了最好的性能,这进一步证明了我们的方法的有效性。
Enhancing Piecewise Planar Scene Modeling from a Single Image via Multi-View Regularization_第5张图片

3.2定性评价

图4显示了与基线模型相比的场景建模结果[Yu等,2019]。比较图4(b)和(c),特别是在突出显示的区域,我们得出结论,我们的多视图正则化增强了网络检测和恢复小平面实例的能力,并提高了其鲁棒性,以避免将一个平面过度分割成多个片段。从图4(d)-(i),我们观察到,由于网络的多个分支共享相同的特征提取部分,我们的方法还提高了网络恢复正确三维平面参数的能力。
Enhancing Piecewise Planar Scene Modeling from a Single Image via Multi-View Regularization_第6张图片

4结论

本文介绍了一种通过多视图正则化增强单视图平面重建网络的方法。该方法可在训练阶段为不同视图增强嵌入功能的一致性,从而使增强型网络在测试阶段针对视图更改和光照变化更加健壮。我们的方法在公共ScanNet数据集上实现了最好的性能。我们认为,我们的多视图正则化可以灵活地与单视图模型集成,而不会带来更多的计算成本。

论文

你可能感兴趣的:(计算机视觉)