室内场景语义重建既包括场景理解,也包括对象重建。现有的作品要么解决了这个问题的一部分,要么专注于独立的对象。在本文中,我们弥合了理解和重建之间的差距,提出了一种端到端的解决方案,从单幅图像中联合重建房间布局、物体包围框和网格。我们的方法不是单独解决场景理解和对象重建,而是建立在一个整体的场景上下文之上,并提出了一个由粗到细的层次结构,包含三个组件:房间布局与相机姿势;2. 三维物体包围框;3.对象网格。我们认为,理解每个组件的上下文可以帮助解析其他组件,从而实现联合理解和重建。在SUN RGBD和Pix3D数据集上的实验表明,该方法在室内布局估计、三维目标检测和网格重建方面始终优于现有方法。
室内图像语义重建在室内设计和房地产等应用中具有独特的重要性。近年来,该主题受到计算机视觉和图形学领域研究人员的极大兴趣。然而,深度感知固有的模糊性、现实世界环境的杂乱和复杂性,使得仅从单幅图像中完全恢复场景上下文(语义和几何)仍然具有挑战性。
之前的工作试图通过各种方法解决这个问题。场景理解方法[38,14,3]获得房间布局和室内物体的3D边界框,没有形状细节。场景级重建方法利用上下文知识(房间布局和物体位置)恢复物体形状进行场景重建,但目前大多数方法采用深度或体素表示[39,22,416,19]。体素网格(voxel -grid)具有比box更好的形状描述能力,但其分辨率仍然有限,体素质量的提高使计算成本成倍增加,在场景级重建中表现得更为明显。网格检索方法[17,15,16]使用3D模型检索模块提高场景重建中的形状质量。由于这些方法需要迭代渲染或模型搜索,网格相似度和时间效率依赖于模型库的大小,引起了进一步的关注。目标网格重建在效率和精度方面都表现出优势[50,10,30,18,9],其中目标网格在其自身的以物体为中心的坐标系中是端到端的预测。在场景级网格重建中,由于物体对齐、遮挡关系和杂散的图像背景等挑战,将物体预测为孤立实例可能无法产生理想的结果。尽管Mesh R-CNN[9]能够从图像中预测多个物体的网格,但其对象方法仍然忽略了场景理解,并受到立方体体素上网格生成的伪影的影响。到目前为止,据作者所知,很少有工作同时考虑网格重建和场景上下文(房间布局,相机姿态和物体位置)以实现对整个3D场景的理解。
为弥合场景理解和物体网格重建之间的鸿沟,本文用联合学习将它们统一起来,同时预测房间布局、相机姿态、3D物体边界框和网格(图1)。场景中的物体网格表明了空间占有率,可以帮助3D物体检测,而3D检测提供了物体对齐,可以在实例级别进行以物体为中心的重建。与体素网格不同,重建网格的坐标是可微的,因此可以通过将输出网格与场景点云进行比较来进行联合训练(例如在SUN RGBD[41]上)。通过上述设置,观察到在SUN RGB-D[41]和Pix3D[42]数据集上,场景理解和网格重建的性能可以取得进一步的进展,达到了最先进的水平。总而言之,我们的贡献如下:
本文提供了一种从单幅图像自动重建房间布局、对象边界框和网格的解决方案。据我们所知,这是端到端学习的第一个工作,用于全面的3D场景理解,并在实例级别进行网格重建。这种综合方法显示了每个组件的互补作用,并在每个任务上达到了最先进的水平。
在物体网格生成中提出一种新的密度感知拓扑修改器。该算法根据网格的局部密度剪枝网格边,逐步修改网格的拓扑结构,逼近目标形状。该方法直接解决了[30]算法的主要瓶颈,即需要一个严格的距离阈值来从目标形状中去除分离的人脸。与[30]算法相比,该算法对复杂背景下各种形状的室内目标具有较强的鲁棒性。
我们的方法考虑了注意力机制和对象之间的多边关系。在3D目标检测中,目标姿态与周围环境有隐式和多边的关系,特别是在室内(如床,床头柜和灯)。该策略提取了潜在特征,以更好地决定物体的位置和姿态,并改进了3D检测。
自第一个从单幅照片中进行形状推断的工作[37]以来,单视图场景重建在计算机视觉和图形学中提出了一项具有挑战性的任务。室内场景重建的难度随着杂波、遮挡和目标多样性等因素的复杂程度而增加。
早期的工作只关注房间布局估计[12,21,25,5,35],用边界框来表示房间。随着cnn的发展,越来越多的方法被开发出来用于估计布局以外的物体姿态[7,14,1]。然而,这些方法仅限于预测每个家具的3D边界框。为了恢复物体形状,一些方法[17,16,15]采用形状检索方法从数据集中搜索外观相似的模型。然而,其精度和时间效率直接依赖于数据集的大小和多样性。
由于室内物体数量众多且类别繁多,实例级场景重建仍然存在问题。它导致物体形状的高维隐空间受到不同的几何和拓扑结构的影响。为了首先解决单物体重建问题,一些方法以点云[8,26,20,29]、面片[10,51]和基元[45,47,32,6]的形式来表示形状,这些形状适应复杂的拓扑结构,但需要进行后处理才能获得网格。体素网格的结构[4,23,49]是规则的,但受到分辨率和效率之间的平衡,需要使用八叉树来改善局部细节[36,44,51]。一些方法使用有符号距离场[31]和隐式曲面的形式产生了令人印象深刻的网格结果[2,28,52,27]。然而,这些方法耗时且计算量大,无法重建场景中的所有物体。另一种流行的方法是从模板[50,10,18]重建网格,但重建网格的拓扑结构受到限制。到目前为止,最先进的方法是修改网格拓扑结构以接近真实值[30,43]。然而,现有的方法是在以物体为中心的系统中估计三维形状,不能直接应用于场景重建。
与我们最相关的工作是[22,46,19,9],这些工作将单个图像作为输入,并在场景中重建多个物体形状。然而,方法[22,46,19]是为有限分辨率的体素重建而设计的。Mesh R-CNN[9]生成对象网格,但仍然将对象视为孤立的几何体,而没有考虑场景上下文(房间布局,对象位置等)。Mesh R-CNN使用立方体体素作为中间表示,存在分辨率有限的问题。与上述工作不同,所提出方法将以物体为中心的重建与3D场景理解联系起来,能够从单幅图像中联合学习房间布局、相机姿态、物体边界框和网格。
我们在图2a中概述了我们的方法。该网络体系结构遵循“盒中盒”方式,由三个模块组成:1。布局估计网络(LEN);2. 3D目标检测网络(ODN);3.Mesh Generation Network (MGN)。首先,从单幅图像中,使用Faster RCNN[34]预测2D对象边界框。LEN将整个图像作为输入,并生成相机姿态和布局边界框。给定物体的2D检测,ODN检测相机系统中的3D物体边界框,而MGN在其以物体为中心的系统中生成网格几何形状。通过嵌入所有网络的输出以及联合训练和推理来重建全场景网格,其中来自MGN的物体网格被缩放并放置到它们的边界框中(通过ODN),并根据相机姿态(通过LEN)转换到世界系统中。我们将在本节详细介绍每个网络的细节。
为了使布局和对象的边界框可学习,我们将一个框参数化为之前的工作[14] (图2b.)。我们设置位于相机中心的世界系统,它的垂直(y-)轴垂直于地板,它的向前(x-)轴指向相机,这样相机的姿态 R ( β , γ ) \mathbf{R}(\beta, \gamma) R(β,γ)可以由俯仰和滚动角度 ( β , γ ) (\beta, \gamma) (β,γ)决定。在世界系统中,一个盒子可以由 R 3 \mathbb{R}^{3} R3中的3 m a t h m D \ mathm{D} mathmD中心 C ∈ R 3 C \in \mathbb{R}^{3} C∈R3中的空间大小 s ∈ , [ − π , π ) s \in, [-\pi, \pi) s∈,[−π,π)中的方向角\theta \确定。对于室内物体,3个\ mathm {D}中心\粗体符号{C}表示为它在图像平面 R 2 \mathbb{R}^{2} R2中的2个\ mathm {D}投影C \,其在\mathbb{R}中的距离D \到相机中心的距离。给定相机的内隐矩阵 K ∈ R 3 \mathbf{K} \in \mathbb{R}^{3} K∈R3中,\粗体符号{C}可以表示为:
为了使布局和对象的边界框可学习,我们将一个框参数化为之前的工作[14] (图2b)。我们设置位于相机中心的世界系统,其垂直(y-)轴垂直于地板,其向前(x-)轴指向相机,以便相机姿态 R ( β , γ ) \mathbf{R}(\beta, \gamma) R(β,γ)由俯仰角和滚转角 ( β , γ ) (\beta, \gamma) (β,γ)。在世界坐标系中,一个盒子可以由一个三维中心 C ∈ R 3 C \in \mathbb{R}^{3} C∈R3确定,空间尺寸 s ∈ R 3 s \in \mathbb{R}^{3} s∈R3,取向角 θ ∈ [ − π , π ) \theta \in[-\pi, \pi) θ∈[−π,π)。对于室内物体,三维中心C表示为它在图像平面上的二维投影 c ∈ R 2 c \in \mathbb{R}^{2} c∈R2,它到相机中心的距离 d ∈ R d \in \mathbb{R} d∈R。给定摄像机的内禀矩阵 K ∈ R 3 \mathbf{K} \in \mathbb{R}^{3} K∈R3, C \boldsymbol{C} C可以表示为:
C = R − 1 ( β , γ ) ⋅ d ⋅ K − 1 [ c , 1 ] T ∥ K − 1 [ c , 1 ] T ∥ 2 (1) \boldsymbol{C}=\mathbf{R}^{-1}(\beta, \gamma) \cdot d \cdot \frac{\mathbf{K}^{-1}[\boldsymbol{c}, 1]^{T}}{\left\|\mathbf{K}^{-1}[\boldsymbol{c}, 1]^{T}\right\|_{2}} \tag{1} C=R−1(β,γ)⋅d⋅∥K−1[c,1]T∥2K−1[c,1]T(1)
二维投影中心c可通过 c b + δ c^{b}+ \boldsymbol{\delta} cb+δ进一步解耦。 c b \boldsymbol{c} ^{b} cb是二维边界框中心, δ ∈ R 2 \boldsymbol{\delta}\in\mathbb{R} ^{2} δ∈R2是要学习的偏移量。从二维检测 I \boldsymbol{I} I到三维包围盒角点,网络可表示为 F ( I ∣ δ , d , β , γ , s , θ ) ∈ R 3 × 8 \mathbf{F} (\boldsymbol{I}\mid\boldsymbol{\delta}, d, \beta, \gamma, \boldsymbol{s}, \theta) \in\mathbb{R} ^{3\times 8} F(I∣δ,d,β,γ,s,θ)∈R3×8。ODN估计每个对象的box属性 ( δ , d , s , θ ) (\boldsymbol{\delta}, d, \boldsymbol{s}, \theta) (δ,d,s,θ), LEN用布局框 ( C , s l , θ l ) \left (\boldsymbol{C}, \boldsymbol{s} ^l, \theta ^l\right) (C,sl,θl)决定相机姿态 R ( β , γ ) \mathbf{R} ({}\beta, {}\gamma) R(β,γ)。
目标检测网络(ODN)。在室内环境中,物体姿态通常遵循一套室内设计原则,使其成为一种可以学习的潜在模式。通过解析图像,之前的工作要么明智地预测3D盒子[14,46],要么只考虑成对关系[19]。本文假设每个物体在其周围环境之间具有多边关系,并在预测其边界框时考虑了室内所有物体。网络如图3所示。该方法的灵感来自注意力机制在2D目标检测中的不断改进[13]。对于3D检测,我们首先使用ResNet- 34[11]从2D检测中明智地提取外观特征,并使用[13,48]中的方法将2D目标框之间的相对位置和大小编码为几何特征。对于每个目标对象,利用对象关系模块[13]计算其与其他目标对象的关系特征。它采用由目标与其他目标在外观和几何上的相似性加权的分段特征求和,在图3中称为“注意力求和”。然后,我们明智地将关系特征添加到目标中,并回归 ( δ , d , s , θ ) (\boldsymbol{\delta}, d, \boldsymbol{s}, \theta) (δ,d,s,θ)具有两层MLP。在室内重建中,对象关系模块反映了物理世界中的内在意义:物体通常与相邻或外观相似的其他物体具有更强的关系。在消融分析中证明了其在改进3D目标检测方面的有效性。
布局估计网络(LEN)。LEN预测相机在世界系统中的姿态 R ( β , γ ) \mathbf{R} (\beta, \gamma) R(β,γ)和它的3D盒子 ( C , s l , θ l ) \left (\boldsymbol{C}, \boldsymbol{s} ^{l}, \theta ^{l}\right) (C,sl,θl)。在这一部分中,我们采用与ODN相同的架构,但删除了关系特性。 ( β , γ , C , s l , θ l ) \left (\beta, \gamma, C, s^{l}, \theta ^{l}\right) (β,γ,C,sl,θl)在ResNet之后用两个全连接层对每个目标进行回归。与[14]类似,通过学习到平均布局中心的偏移量来预测3D中心 C \boldsymbol{C} C。
所提出的网格生成网络直接解决了最近一项工作的主要问题,拓扑修改网络(TMN) [30]: TMN通过变形和修改网格拓扑来近似物体形状,其中需要一个预定义的距离阈值来从目标形状中删除分离的面。然而,对于不同尺度的物体网格给出一个通用的阈值是不容易的(见图5e)。一个可能的原因是室内物体在不同类别之间具有很大的形状差异。另一个问题是复杂的背景和遮挡往往导致无法估计精确的距离值。
密度与距离之比。与TMN使用严格的距离阈值进行拓扑修改不同,本文认为是否保留人脸应由其局部几何形状决定。在这一部分中,我们提出了一种基于真实值的局部密度自适应修改网格模型的方法。我们将 p i ∈ R 3 \boldsymbol{p}_{i} \in \mathbb{R}^{3} pi∈R3设为重构网格上的一个点,而 q i ∈ R 3 \boldsymbol{q}_{i} \in \mathbb{R}^{3} qi∈R3对应于其在地面真值上的最近邻居(见图4)。我们设计了一个二进制分类器f(∗)来预测pi是否接近方程2中的地面真值网格:
f ( p i ) = { False ∥ p i − q i ∥ 2 > D ( q i ) True otherwise D ( q i ) = max q m , q n ∈ N ( q i ) ∥ q m − q n ∥ 2 , m ≠ n (2) \begin{array}{l} f\left(\boldsymbol{p}_{i}\right)=\left\{\begin{array}{ll} \text { False } & \left\|\boldsymbol{p}_{i}-\boldsymbol{q}_{i}\right\|_{2}>D\left(\boldsymbol{q}_{i}\right) \\ \text { True } & \text { otherwise } \end{array}\right. \\ D\left(\boldsymbol{q}_{i}\right)=\max _{\boldsymbol{q}_{m}, \boldsymbol{q}_{n} \in N\left(\boldsymbol{q}_{i}\right)}\left\|\boldsymbol{q}_{m}-\boldsymbol{q}_{n}\right\|_{2}, m \neq n \\ \end{array} \tag{2} f(pi)={ False True ∥pi−qi∥2>D(qi) otherwise D(qi)=maxqm,qn∈N(qi)∥qm−qn∥2,m=n(2)
其中 N ( q i ) N\left(\boldsymbol{q}_{i}\right) N(qi)是 q i \boldsymbol{q}_{i} qi在ground-truth网格上的邻居, D ( q i ) D\left(\boldsymbol{q}_{i}\right) D(qi)定义为其局部密度。这个分类器是由我们的洞察力设计的:在形状近似中,如果一个点属于基准真值的邻居N(∗),则应该保留它。我们还观察到,与使用距离阈值相比,该分类器在不同的网格尺度下显示出更好的鲁棒性(见图5)。
边与面。我们选择切割网格边缘来进行拓扑修改,而不是删除面。我们在网格边缘上随机采样点,并使用分类器f(*)来切割平均分类分数较低的边缘。这是因为考虑到切割假边可以减少因边缘损失[50]而导致的不正确连接,并创建紧凑的网格边界。
网格生成网络。我们在图4中说明了我们的网络架构。它以二维检测为输入,使用ResNet-18生成图像特征。我们将检测到的对象类别编码为一个单一热点向量,并将其与图像特征连接起来。根据我们的观察,类别代码提供了形状先验,并有助于更快地近似目标形状。将增强的特征向量和模板球输入AtlasNet[10]解码器,预测球体上的变形位移,并输出拓扑不变的合理形状。边缘分类器具有与形状解码器相同的架构,其中最后一层被替换为用于分类的全连接层。它共享图像特征,将变形网格作为输入,并预测f(*)以去除冗余网格。然后在网络上附加边界细化模块[30]来细化边界边缘的平滑度,输出最终的网格。
在本节中,我们总结了具有相应损失函数的学习目标,并描述了我们端到端训练的联合损失。
单独的loss。ODN预测 ( δ , d , s , θ ) (\boldsymbol{\delta}, d, \boldsymbol{s}, \theta) (δ,d,s,θ)在相机系统中恢复3D对象框,LEN生成 ( β , γ , C , s l , θ l ) \left (\beta, \gamma, \boldsymbol{C}, \boldsymbol{s} ^{l}, \theta ^{l}\right) (β,γ,C,sl,θl)表示布局框,连同相机姿态将3个\mathrm{D}对象转换为世界系统。由于直接用L2损失回归绝对角度或长度容易出错[14,33]。我们通过使用分类和回归损失 L c l s , r e g = L cls + λ r L r e g \mathcal{L} ^ {\text cls,reg}=\mathcal{L}^{\text {cls }}+\lambda_{r} \mathcal{L}^{r e g} Lcls,reg=Lcls +λrLreg来优化 ( θ , θ l , β , γ , d , s , s l ) \left (\theta, \theta ^{l}, \beta, \gamma, d, \boldsymbol{s}, \boldsymbol{s} ^{l}\right) (θ,θl,β,γ,d,s,sl)。详情请参阅[14]。由于 C 和 δ \boldsymbol{C}和\boldsymbol{\delta} C和δ是由预先计算的中心的偏移量计算出来的,我们用L2损失来预测它们。对于MGN,我们采用倒角损失 L c \mathcal{L} _c Lc,边缘损失 L e \mathcal{L} _e Le,边界损失 L b \mathcal{L} _b Lb作为[10,50,30],我们的交叉熵损失 L c e \mathcal{L}_{ce} Lce用于网格生成中修改边缘。
联合的损失。我们基于两个观点定义ODN、LEN和MGN之间的联合损失:
首先,我们采用[14]中的合作损失 L c o \mathcal{L}_{co} Lco来保证布局盒和目标盒的预测世界坐标与地面真实值的一致性;对于第二种方法,我们要求重构网格靠近场景中的点云。它通过将网格坐标与ground-truth对齐来展示全局约束。我们将全局损失定义为偏倒角距离[10]:
L g = 1 N ∑ i = 1 N 1 ∣ S i ∣ ∑ q ∈ S i min p ∈ M i ∥ p − q ∥ 2 2 (3) \mathcal{L}_{g}=\frac{1}{N} \sum_{i=1}^{N} \frac{1}{\left|\mathbb{S}_{i}\right|} \sum_{\boldsymbol{q} \in \mathbb{S}_{i}} \min _{\boldsymbol{p} \in \mathbb{M}_{i}}\|\boldsymbol{p}-\boldsymbol{q}\|_{2}^{2} \tag{3} Lg=N1i=1∑N∣Si∣1q∈Si∑p∈Mimin∥p−q∥22(3)
其中 p \boldsymbol{p} p和 q \boldsymbol{q} q分别表示重构网格 M i \mathbb{M}_{i} Mi上的一个点,世界系统中第i个对象的真实地表 S i \mathbb{S}_{i} Si。N是物体的数量, ∣ S i ∣ \left|\mathbb{S}_{i}\right| ∣Si∣是 S i \mathbb{S}_{i} Si上的点数。与单物体网格不同,实景点云通常粗糙且部分覆盖(用深度传感器扫描),因此我们不使用Chamfer distance来定义 L g \mathcal{L}_{g} Lg。联合训练中所有的损失函数可以归纳为:
L = ∑ x ∈ { δ , d , s , θ } λ x L x + ∑ y ∈ { β , γ , C , s l , θ l } λ y L y + ∑ z ∈ { c , e , b , c e } λ z L z + λ c o L c o + λ g L g (4) \begin{aligned} \mathcal{L}= & \sum_{x \in\{\boldsymbol{\delta}, d, \boldsymbol{s}, \theta\}} \lambda_{x} \mathcal{L}_{x}+\sum_{y \in\left\{\beta, \gamma, \boldsymbol{C}, \boldsymbol{s}^{l}, \theta^{l}\right\}} \lambda_{y} \mathcal{L}_{y} \\ & +\sum_{z \in\{c, e, b, c e\}} \lambda_{z} \mathcal{L}_{z}+\lambda_{c o} \mathcal{L}_{c o}+\lambda_{g} \mathcal{L}_{g} \end{aligned} \tag{4} L=x∈{δ,d,s,θ}∑λxLx+y∈{β,γ,C,sl,θl}∑λyLy+z∈{c,e,b,ce}∑λzLz+λcoLco+λgLg(4)
数据集:根据它们提供的真实数据类型,我们在实验中使用了两个数据集。1) SUN RGB-D数据集[41]由10,335幅真实室内图像组成,具有带标签的3D布局、对象边界框和粗点云(深度图)。使用官方的训练/测试分割和NYU-37物体标签[40]来评估布局、相机姿态估计和3D物体检测。2) Pix3D数据集[42]包含9个类别的395个家具模型,与10069张图像对齐。我们使用它进行网格重建,并保持训练/测试分割与[9]内联。在补充文件中列出了从NYU-37到Pix3D场景重建的对象标签映射。
指标:结果在场景理解和网格重建指标上进行衡量。用平均3D交并比(IoU)来评估布局估计。利用平均绝对误差对摄像机位姿进行估计。目标检测使用所有目标类别的平均精度(AP)进行测试。我们像之前的工作[9,30]一样,使用倒角距离测试单物体网格生成,并使用方程3评估场景网格。
实现:我们首先在COCO数据集[24]上训练2D检测器(图2a),然后在SUN RGB-D上对其进行微调。ODN和LEN的图像编码器都使用resnet - 34[11], MGN使用ResNet-18。在LEN和ODN中,我们采用两层MLP来预测每个目标。在MGN中,模板球有2562个单位半径的顶点。我们切割出平均分类分数低于0.2的边。由于SUN RGB-D不提供3D监督的实例网格,而Pix3D只标记每个图像一个对象,而没有布局信息。首先在SUN-RGBD上训练ODN, LEN,和在Pix3D上训练MGN,批大小为32,学习率为1e-3(每20个epoch缩放0.5,总共100个epoch)。将Pix3D结合到SUN RGB-D中,以提供网格监督,并使用方程4中的损失L联合训练所有网络。在这里,我们使用一个分层批处理(每个批处理包含一个场景图像和N个对象图像),并将学习率设置为1e-4(每5个epoch缩放0.5,共20个epoch)。我们在补充文件中解释了我们网络的完整架构、训练策略、时间效率和参数设置。
在本节中,我们评估了该方法在物体和场景级别上的定性性能。
物体重建:将MGN与Pix3D上最先进的网格预测方法[9,10,30]进行比较。因为我们的方法是为了在真实场景中完成场景重建,所以训练了所有用目标图像而没有掩码输入的方法。对于AtlasNet[10]和拓扑修改网络(TMN)[30],我们还将物体类别编码为图像特征,以实现公平比较。TMN和我们的方法都是按照“变形+修改+细化”过程进行训练的(参见[30])。对于Mesh R-CNN[9],它涉及到一个目标识别阶段,我们直接与他们的论文中报道的结果进行比较。图5说明了这些比较,从中我们观察到,从真实图像重建是具有挑战性的。室内家具经常被各种各样的东西覆盖着(比如书架上的书)。从Mesh R-CNN的结果(图5b)中,它从低分辨率的体素网格(243体素)生成网格,因此在网格表面上产生明显的伪影。TMN改进了AtlasNet并细化了形状拓扑。然而,它的距离阈值τ并没有对室内环境中的所有形状表现出一致的适应性(例如图5e中的凳子和书架)。该方法依赖于边缘分类器。它根据局部密度切割边缘,使拓扑修改自适应不同对象类别之间形状的不同尺度(图5f)。实验结果表明,该方法较好地保持了边界的平滑性和细节。
场景重建:据我们所知,这是将场景理解和网格生成相结合以进行全场景重建的第一项工作,我们在图6中说明了我们在SUN RGB-D测试集上的结果(见补充文件中的所有样本)。请注意,SUN RGB-D不包含用于训练的地面真实对象网格。给出了不同场景类型和不同复杂度下的实验结果,验证了该方法的鲁棒性。图6中的第一行显示了大量重复和遮挡的场景。我们在第二行展示了对象方向混乱的情况。第三行和第四行展示了各种场景类型下的结果,第五行展示了处理杂乱和“视野之外”物体的性能。实验结果表明,在不同复杂程度下,该方法均能通过合理的对象布局保持视觉上的吸引力。
从4个方面比较了本文方法与当前主流方法的定量性能:1。布局估算;2. 摄像机姿态预测;3.3 . 3D目标检测;物体和场景网格重建。物体网格重建在Pix3D上进行测试,其余在SUN RGB-D上进行评估。通过删除联合训练来削弱该方法:每个子网络都单独训练,以研究将场景理解和目标重建相结合的互补优势。
布局估计:将所提出方法与现有的布局理解工作[3,15,14]进行了比较。如表1所示,将房间布局、物体边界框和网格进行联合训练,有助于提高布局估计,比目前最先进的方法提高了2分。
摄像机姿态估计:摄像机姿态由R (β;γ),因此,我们用与真实值的平均绝对误差来评估基音β和滚动γ。结果如表1所示,我们观察到联合学习也有利于相机姿态估计。
3D目标检测:用与[14]一致的基准来研究目标检测,其中使用3D边界框IoU使用平均精度均值(mAP)。如果检测结果与真实值的IoU大于0.15,则认为其为真阳性。我们将该方法与现有的3D检测工作[3,15,14]在表2中的共享对象类别上进行了比较。所有对象类别的完整表在补充文件中列出。对比表明,该方法显著改善了最先进的方法,并不断提高消融版本。原因可能有两方面。一是联合学习中的全局损失Lg包含几何约束,保证了物理合理性;二是ODN中的多维关系特征有利于预测空间占用情况的三维检测。
还将所提出工作与[46]进行了比较,以评估物体姿态预测。我们通过在NYU v2数据集[40]上训练它们的六个物体类别和ground-truth 2D盒子来保持与它们的一致。结果见表3。测试了物体的平移、旋转和缩放误差。有关指标的定义,请参阅[46]。实验结果进一步表明,该方法不仅能够获得合理的空间占用率(mAP),而且能够检索出真实的目标位姿。
网格重建:在物体和场景层面上评估网格重建。对于物体重建,我们将我们的MGN与最先进的[10,30]在表4中进行比较。将拓扑修改方法分为两个版本:1. 删除面而不是边(w/o。边);
2. 使用距离阈值[30]代替我们的局部密度(w/o。Dens)用于拓扑修改。实验结果表明,每个模块都提高了平均准确率,将它们结合起来提高了方法的性能。一个可能的原因是,使用局部密度可以保持小规模的拓扑结构,在避免错误的网格修改方面,切割边缘比删除面更鲁棒。场景的网格重建使用公式3中的 L g \mathcal{L}_g Lg进行评估,其中损失以每个对象的点云到重建网格上最近邻居的平均距离计算。与单目标重建不同,场景网格的评估考虑了世界系统中的目标对齐。在我们的测试中,通过联合学习, L g \mathcal{L}_g Lg从1.89e-2下降到1.43e-2。
为了更好地理解每个设计对最终结果的影响,用五种配置来消融该方法:
C0:无关系特征(在ODN中)和联合训练(基线)。
C1:基线+关系特征。
C2:基线+(only)联合训练中的协作损失 L c o \mathcal{L}_{c o} Lco。
C3:联合训练中基线+(only)全局损失 L g \mathcal{L}_g Lg。
C4:基线+联合训练 ( L g + L c o ) (\mathcal{L}_g +\mathcal{L}_{c o}) (Lg+Lco)。
全量:基线+关系特征+联合训练。
使用3D IoU、mAP和 L g \mathcal{L}_g Lg对布局估计、三维检测和场景网格重建进行了测试。结果报告于表5中,从中我们观察到:
C 0 C_0 C0 v.s. C 4 C_4 C4和 C 1 C_1 C1 v.s. F u l l Full Full:无论是否使用关系特征,联合训练始终能提高布局估计、目标检测和场景网格重建。
C 0 C_0 C0 vs . C 1 C_1 C1和 C 4 C_4 C4 vs . F u l l Full Full:关系特征有助于改进三维目标检测,间接减少场景网格重建的损失。
C 0 C_0 C0 vs . C 2 C_2 C2和 C 0 C_0 C0 vs . C 3 C_3 C3:在联合损失中,联合训练中的 L c o \mathcal{L}_{c o} Lco和 L g \mathcal{L}_g Lg都有利于最终输出,将它们结合起来进一步提高精度。
全局损失 L g \mathcal{L}_g Lg在目标检测和场景重建中表现出最大的效果,而协作损失 L c o \mathcal{L}_{co} Lco在布局估计中比其他损失提供了更多的好处。此外,场景网格损失随着目标检测性能的提高而降低。对象对齐会显著影响网格重建,这与直觉一致。在SUN RGB-D上对MGN进行微调并不能改善Pix3D上的单目标重建。这反映出物体重建依赖于干净的网格进行监督。以上事实说明了全场景重建的目标实际上是交织在一起的,使得联合重建是实现全场景理解的可行方案。
本文提出一种基于单幅图像的端到端室内场景重建方法。它嵌入场景理解和网格重建进行联合训练,自动生成房间布局、相机姿态、物体边界框和网格,以完全恢复房间和物体的几何形状。广泛的实验表明,所提出的联合学习方法显著提高了每个子任务的性能,提高了当前的技术水平。这表明,每个单独的场景解析过程对其他过程都有隐含的影响,揭示了整合训练它们以实现整体3D重建的必要性。该方法的一个局限性是学习物体网格需要密集的点云,而在真实场景中,这是非常耗时的。为了解决这一问题,自监督或弱监督的场景重建方法将是未来工作的理想解决方案。