OFT论文解读

OFT是2018年的一篇单目3D检测的文章《Orthographic Feature Transform for Monocular 3D Object Detection》文章引入正交法特征变换,通过将基于图像的特征映射到正交法三维空间,实现了对图像域的转义,能够在一个尺度一致、物体之间的距离有意义的领域中对场景的空间配置进行整体推理。

文章链接:Orthographic Feature Transform for Monocular 3D Object Detection

核心思想:

  1. 引入基于透视图像的特征映射为鸟瞰图视角的正交特征变换,进一步利用图像的完整性;
  2. 构建了DL结构用于预测单目RGB图像目标的3D框;
  3. 强调3D推理在目标检测任务中的重要性;

框架结构:

1、前端由Resnet特征提取器来提取输入图像的多尺度特征图;
2、一种正交特征变换,它将每个尺度上基于图像的特征转换为鸟瞰图的正交表述法
3、一种由一系列Resnet残差单元组成的自上而下的网络,它以不受图像中观察到的透视效果影响的方式来处理鸟瞰视角的特征图;
4、一组输出分别生成每个对象类和每个类别在地平面的位置,置信度得分,位置偏移量,尺度偏移量和方向向量
5、非极大值抑制和解码阶段,该阶段识别出峰值,并生成离散边界框预测

OFT论文解读_第1张图片

实现细节:

1.front-end特征提取

利用Resnet生成多级多尺度特征图,这些特征编码了图像中低层结构的信息,这些信息构成了自上而下网络的基本组件,以构建场景的隐式3D表示。前端网络还负责根据图像特征的大小推断深度信息,因为后续阶段的结构目标是消除尺度的变化。(如何利用多尺度信息生成正交特征?)

2.正交特征变换

OFT的目标是用前端特征提取器提取的基于图像的特征图

中的相关n维特征填充3D体素特征图
。立体像素特征图定义在一个均匀间隔的3D网格
,它与地平面距离是固定的,在相机坐标
以下,维度为W,H,D,体素大小为 r 。对于给定的体素网格位置
(不能确定是否是体素中心点),通过对对应与体素的2D投影的图像特征图
的区域进行特征累加,得到体素特征
。一般情况下,每一个体素(大小为r 的立方体)都会投射到像平面上的六边形区域,作者用一个矩形包围框来近似它。其中左上角
的坐标如下:

OFT论文解读_第2张图片

其中特征g(x,y,z)的特征值是对特征图对应区域值的平均池化,计算使用以下公式:

作者利用一个基于积分图的快速平均池化操作。积分图

, 由输入特征图
用如下递归方式得到:

把三维体素网格g(x,y,z)的处理转换至正交特征图

,正交特征图是通过将学习得到的权重矩阵
沿着垂直轴与体素特征图相乘后求和得到,其中转换公式为:

3.top-down特征提取

这是一个简单的卷积网络,使用Resnet风格的skip连接,它在之前描述的OFT阶段生成的2D特征图 h 上运行。距离相机较远和较近的特征图得到完全相同的处理,尽管对应的图像区域要小得多。

4.confidence map prediction

置信度图S(x,z)表示该位置存在物体的概率,其中生成公式:


是地平面高度,ground truth:

网络置信度图预测分支头使用 L1 loss来训练的,回归到正交网格 H上每个位置的GT 置信度上。

5.定位和bounding box的估计

在对应的目标pi 的中心追加了一个额外的网络输出,输出头可以预测距离地面网格单元位置

的相对偏移
:

是尺寸输出,预测目标 i 的尺寸

和给定类别所有目标的平均尺寸
之间的对数尺度偏移

方向输出分支头,预测目标绕y轴的方向角

的sine和cosine值:

位置偏移

,尺寸偏移
,方向向量
都是L1 loss训练的。

6、NMS

首先用高斯核(其宽度为

)来平滑置信度图。在平滑后的置信度图上位置
的值
被认为是最大的,如果它满足下式:

在产生的峰值位置中,任何小于给定阈值 t 的置信度

都将被排除。

要点分析:

提出了一种通过投影提取正交特征的方式:将卷积网络对图像卷积得到的特征,经过3D到2D的投影和平均池化的操作取到3D鸟瞰图上,从而构成3D鸟瞰图的特征图。即可在该特征图上回归各种3D目标属性。

试验结果:

OFT论文解读_第3张图片

思考与展望:

该文提供了一种如何在2D图像中进行3D目标检测的思想,即将平面图像特征映射到鸟瞰图的正交表示空间。但是文章中也存在一些现实问题,比如求解过程中依赖的地面高度在实际场景中会产生起伏变化,或者由于相机外参变化导致地面信息失真等都会大大影响对车距的估计。

你可能感兴趣的:(网络,卷积,计算机视觉,机器学习,人工智能)