论文阅读笔记:Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes...

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

论文连接:https://arxiv.org/abs/2002.12212

论文源码:https://github.com/yinyunie/Total3DUnderstanding

论文英语视频:https://www.youtube.com/watch?v=tq7jBhfdszI

1.本文能够从一张图片估计相机的位置,房间的布局,物体检测的bounding boxes 和mesh重建。

2.本文认为房间的布局和相机的位置、物体的bounding box 和mesh这三个部分是相辅相成的。
就像SLAM认为定位和重建是相辅相成的,本文认为上述三个部件也是相辅相成的。

3.本文在处理的过程中注重了场景的整体理解, 通过理解这个场景是干什么的,以及相关的物体摆放之间的关系。从而为更好的重建服务。三维物体的摆放,位姿等等东西也和环境具体是什么有着相关的联系。(透过这种关系,也许也是一种减小算力的方式。)

4.本文是已知(博主已知)第一篇将三维语义理解和重建进行耦合的工作,三维understanding来存进重建,同时用重建来促进更精准的understanding。(但是这种促进的关系,现在并没有一个数学公式来刻画,现在只是利用深度学习的方法,从结果变好的角度认为,是互相促进的。)

5.本文的主要贡献:

(1)是第一个端到端的,将3D understanding和重建进行耦合的一个工作,三维understanding来存进重建,同时用重建来促进更精准的understanding。(但是这种促进的关系,现在并没有一个数学公式来刻画,现在只是利用深度学习的方法,从结果变好的角度认为,是互相促进的。)

(2)本文在mesh重建中利用了 topology modifier network的方法,同时对该方法进行了改进,分别同local density 代替了原来的depth,用cut mesh edges 而不是原来的改变face的方法,来完成mesh的 拓扑结构的修改。
同时,该mesh重建的方法主要是,通过检测出物体的类别,然后从模型库中调取最相似的模型,然后再改变mesh的拓扑结构,来完成最终的目标的mesh重建的任务。
(3)本文认为对语义环境的了解,更有利于检测物体的位姿,同时更有利于更快更好的重建物体。并实践了这一观点。

6.本文一共有三个并行处理的网络:

layout estimation network(LEN),3D Obeject Detection Network(ODN),Mesh Generation Network(MGN)
其中
LEN的主要任务是检测相机的位置,和layout bounding boxer(整个室内房间的box预测)。

ODN的主要任务是预测出物体的3D bounding box。

MGN的主要任务是完成物体的mesh重建。
论文阅读笔记:Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes..._第1张图片
论文阅读笔记:Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes..._第2张图片

三个网络的大致处理思路:
ODN

如图所示,首先通过ResNet对二维的图片进行检测,然后检测出多个物体的特征,同时找出多个物体的几何关系,然后通过 attention sum (这里引入了attention mechanism的思路)来计算多个物体和我们主要检测的物体的relational feature ,然后再结合进主要检测目标的特征向量,最后再通过多层感知机,完成三维物体的检测。
论文阅读笔记:Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes..._第3张图片

LEN
Len网路和上面ODN的网络很相似,只是删除了relational feature 然后增加了两个全连接层。 主要目的是检测出相机的位姿,和房间的box相关信息。
MGN
论文阅读笔记:Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes..._第4张图片

处理思路如图所示,首先利用二维检测,检测出目标的特征向量,然后利用one-hot编码获得物体的类别,再从template sphere 拿出该物体的mesh模型,最后通过改进的topology modifier network完成物体的mesh三维重建。

7.首先将三个网络都单独进行训练,最后再将三个网络联合在一起进行训练。

8.不足:(1)耗费的算力非常大,在真实实时的场景中不能应用(作者认为,可以设计弱监督的学习网络可能解决该问题)。
(2)对距离尚未远一点的物体不work
(3)对有遮挡的物体,并不work,显然只对 明显暴露在视野中的物体才很好。
(4)对纹理复杂的物体,和小物体,该方法都不work
(5)因为有模型库的原因,很多结果是从模型库中取出的,同时优化的还不够(即大致形状出来了,但是有些细节上和真实的并不一样)

你可能感兴趣的:(论文阅读,深度学习,计算机视觉,3d)