【3D目标检测】Orthographic Feature Transform for Monocular 3D Object Detection

目录

  • 概述
  • 细节
    • 网络结构
    • 正交特征变换模块
    • 其余部分

概述

本文是基于单目图像的3D目标检测方法。
【2018】【OFT-Net】
研究的问题:

  • 在图像表示中,物体的比例会随着深度的变化而变化;物体的外观随着视点的不同而不同;物体的距离(无论是物体相对于坐标系的绝对距离还是物体之间的相对距离)无法直接表示,且后者是没有意义的,会随着深度的变化而变化的。

提出的方法:

  • 作者认为应该在3D空间中进行检测,因此提出了一种可微的正交特征变换方式,将图像特征变换成正交的鸟瞰图特征,这种表示下物体的比例是均匀的,外观是与视点无关的,距离是有意义的。并且作者的方法没有显式的强调深度信息,作者认为图像特征到鸟瞰图特征的过程中已经隐式的建模了深度的信息。

细节

网络结构

  • 使用图像特征提取器提取图像特征
  • 使用正交特征变换模块将图像特征转换为正交的鸟瞰图特征
  • 一个CNN处理鸟瞰图特征
  • 检测头输出检测结果
    【3D目标检测】Orthographic Feature Transform for Monocular 3D Object Detection_第1张图片

正交特征变换模块

这个模块的作用就是将图像特征转换为正交的鸟瞰图特征。
第一步就是将图像特征转换成体素特征,具体的做法是将体素投影到图像坐标系下,并且使用获得一个最小的边界框,接着聚合(全局平均池化)这个区域内的特征,将结果作为对应的体素特征。
【3D目标检测】Orthographic Feature Transform for Monocular 3D Object Detection_第2张图片

第二步就是将体素特征转换成正交鸟瞰图特征,具体的做法是在z轴方向上做加权相加的操作。
在这里插入图片描述
然后作者觉得大批量的全局平均池化计算开销很大,使用了积分图做加速

其余部分

作者最后输出了一个置信度图,然后边界框预测部分的内容和我之前看大过的很多文章都不太一样,所以就没有仔细看了,以最新的文章给出的检测头配置以为边界框预测配置为主吧。

你可能感兴趣的:(论文学习,目标检测,3d,计算机视觉)