加利福尼亚大学洛杉矶分校, RGB,整体场景理解(目标检测、布局检测、相机位姿预测)
以单个RGB图像为输入,提出了一种实时(2.5fps)恢复三维室内场景的端到端模型,包括三维房间布局、相机位姿和目标边界框。引入三维目标框的参数化和二维投影loss,增强了二维与三维的一致性,设计了可微的协同loss,有助于两个主要模块的协同高效训练。
以往的三维重建和整体场景理解通过增加一些2D-3D约束来维持2D-3D的一致性,而本文使用新的参数化方法使得一开始就解决了一致性的问题。
3D整体室内场景的理解需要联合获取目标框、室内布局以及相机位姿多个方面的3D数据,现有方法只能解决部分问题,并不能同时解决以上三个问题。
本文提出了一个端到端的模型,能够根据输入的RGB图像 同时解决目标检测、布局检测、相机定位三个任务。
该方法的特点:
该方法的优势:
在SUN-RGBD数据集上的实验表明,该方法在三维目标检测、三维布局估计、三维像机位置估计和整体场景理解等方面都明显优于现有方法
整体场景理解的困难之处在于:输入为有限的RGB信息,但是需要从其中恢复出大量未知的三维信息。整体场景理解包含三个任务:
现有方法可以分为:
本文方法不属于以上任何一种: 仅从一幅RGB图像中恢复真实的几何一致和物理上合理的三维场景,并以高效、协同的方式共同解决所有三个任务。 具体的,本文解决了一下三个问题:
论文提出的解决方法是:
综上,论文的贡献为:
其中h(.)是三维目标框的生成函数,三维中心Cw∈R3,尺寸Sw∈R3,朝向 R(θw)∈R3×3, θ 为沿着垂直轴的朝向角。
其中R(φ,ψ),T为相机位姿,K为相机内参,D为相机中心到三维目标中心的距离, CI为2D目标框的中心坐标, δI为2D目标框中心到3D目标框中心投影到2D的偏移。
当数据以第一人称视角采集时,T=0,此时上式变为一个可导的仿射变换,可以写为:
这样就实现了将3D中心CW与2D中心CI参数化的目的,减少了3D目标框预测时的误差。同时结合了目标检测与相机位姿预测模块的信息,实现了两个网络的联合预测。
将世界坐标系中的三维房间布局参数化为一个三维目标框XL ∈R3×8,
包括: 3D 中心CL∈R3, 尺寸SL∈R3, 朝向R(θL)∈R3x3,
本文通过预测与预先计算的平均布局中心的偏移量 来估计房间布局的中心
GGN( global geometry network ):(输入:RGB图像)
三维布局与相机位姿的预测均依赖于底层级的全局几何特征,因此使用GGN( global geometry network )预测。预测的具体参数为:3D 中心CL∈R3, 尺寸SL∈R3, 朝向R(θL)∈R3x3,以及相机的转向角 φ、ψ。
local object network(LON) :(输入: 2D image patches )
LON负责目标检测,预测: 距离D,目标尺寸SW, 朝向θW, 2D 偏移δI
实际中直接预测目标的信息(如朝向角)会导致非常大的error,因此作者采用了二阶段的基于bins的检测方法。
具体来说,预先定义了几个大小模板,或者将空间平均分割成一组角度bin。模型首先将大小和航向角度分类到那些预先定义的类别,然后预测每个类别中的残差。例如,在旋转角φ的情况下,定义:
Softmax用于分类,smooth-L1(Huber)损失用于回归。
使用三个联合损失函数实现两个网络之间的联合优化:
由于GGN和LON都不是直接预测出结果,因此从两个网络直接学习是不够的,这里采用目标框的8角点的损失
其中XW*表示3D目标框的真值
其中f(.)表示可导的投影函数(3D到2D),XI*j表示2D目标框真值。
最终,总的损失函数为:
λcoop为权重参数,调节direct loss与cooperative loss的权重
GGN与LON都是用ResNet34作为encoder,将256X256的图像编码为2048的特征向量。在后面加两个全连接层 (2048-1024, 1024-L) 负责输出预测值。
训练分为2步:
数据集: SUN RGB-D
分为5个方面进行评估:
实时性:2.5fps,on a single titan Xp