三维叉乘怎么算_AM3D: 高精度单目三维检测器

三维叉乘怎么算_AM3D: 高精度单目三维检测器_第1张图片

一、简介

2018年到2019年初,涌现了不少单目三维感知的优秀工作,随着单目深度估计技术的提高,深度学习在单目视觉上的巨大挑战将被不断攻克。

这次分享的是来自欧阳万里老师团队的"Accurate Monocular 3D Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving"(ICCV 2019)。AM3D将估计的深度信息转换为点云形式,同时带注意力机制地嵌入RGB信息,利用现有的点云学习框架在单目三维检测上得到了显著提升:

三维叉乘怎么算_AM3D: 高精度单目三维检测器_第2张图片
表一:Comparison Results with SOTA

(有趣的是,AM3D与专栏之前分享的Pseudo-LiDAR在motivation以及framework上非常相似)

二、核心思路总结

首先利用现有的2D检测单目深度估计模型对图像进行处理,得到2D Box和深度图像;然后根据相机参数将深度图像转换为三维点云,同时利用2D Box对点云中的目标区域进行前景分割;最后嵌入有效的RGB信息并使用PointNet回归3D Box,详细框架如下图所示。

三维叉乘怎么算_AM3D: 高精度单目三维检测器_第3张图片
图一:Framework of AM3D

整个框架与F-PointNet相似,都是基于2D驱动的3D感知,区别在于利用伪点云代替了激光雷达点云。

三、要点分析

1. 单目三维感知的关键

正如对Pseudo-LiDAR的分析中所说:"目前Image-based 3D Perception方案较差的性能主要是由于front view这种2D图形表示导致的"。 AM3D全文也是围绕图像表示形式这一点来做的,因此无脑叠加RGB和Depth Map并不能让神经网络有效感知真正的三维空间信息。可以说,对于不同的任务和维度,如何显式地表达一个数据的原始分布是至关重要的。更多细节可以参考专栏之前的分析。

2. RGB Aggregation with Attention

与F-PointNet和Pseudo-LiDAR不同的是,AM3D在点云中额外加入了RGB信息。需要注意的是点云的空间信息(X, Y, Z)颜色信息(R, G, B)不同模态的,如何高效感知并融合多模态信息,是进一步提高三维检测精度的关键所在。

我们首先可以简单回顾一下之前的方法是如何进行多模态信息融合的。比如MV3D, AVOD, PointFusion, 这些方法都是先分别处理点云数据和图像数据,然后把提取到的特征简单连接到一起,最后通过几层全连接进行融合与预测。(如下图的AVOD)

三维叉乘怎么算_AM3D: 高精度单目三维检测器_第4张图片
图二:Framework of AVOD

事实上,这种连接操作既没有统一不同模态信息的latent space,又没有让两者之间进行有效交互。AM3D中称这种方式为"plain concat". 为此,AM3D引入了带有注意力机制的融合方式,其流程如下图所示。具体来说,先通过max pooling和average pooling得到点云空间信息的feature map,然后学习出attention map并乘上点云颜色信息的feature map,以有效指导RGB特征到坐标特征的信息传递

三维叉乘怎么算_AM3D: 高精度单目三维检测器_第5张图片
图三:Fusion Module

四、一些思考

可以说,AM3D主要解决了两个plain concat问题,一个是图像与深度图的concat,一个是空间信息与颜色信息的concat,每一个解决思路的关键都是数据的表示与交互形式。这一点,个人认为也是目前深度学习下一步需要关注的。

传统的end-to-end框架(0-1)中,差不多都是直接丢一类数据给一个模型,然后直接分类或回归一个目标。然而在有些任务中,CNN提取得到的特征与目标之间的关系是十分隐式的,两者之间存在巨大的gap,这会限制神经网络的学习能力。因此,分解和细化网络模型的功能,使其递进式学习(0-0.5-1),理论上能够简化学习的难度。例如从单幅图像重构出一个三维模型,传统方法都是从0到1,中间过程到底在干嘛也不知道;如果先从单幅图像重构出物体各组件的几何约束关系(0.5),然后再重构具体的纹理细节,这样得到的模型会更加合情合理。此外,还有在数据上的分解与细化,这也是AM3D中所做的。

再比如说,无脑叠加不同的数据和特征有时可能起到负面作用(如下表中经过RGB特征和坐标特征的plain concat,比没有利用颜色信息的准确率还要低)。这一点在之前VoxelNet的分析中也有所提及。

三维叉乘怎么算_AM3D: 高精度单目三维检测器_第6张图片
表二:Ablation study of RGB information

你可能感兴趣的:(三维叉乘怎么算)