阅读笔记:CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection

1.想要解决的问题

利用 LiDAR 进行三维目标检测和利用视频进行二维目标 检测的神经网络都取得了显著进展。但是二者融合还是比较困难的,所以本文提出一种新的摄像机-lidar 对象候选(CLOCs)融合网络。CLOCs 融合提供了一个低复杂度的多模态融合框架,显著提高了单模态检测器的性能。

2.前言

  1. 3D 对象检测更具挑战性, 需要更多的输出参数来指定目标周围的 3D 定向边界框。
  2. 都受到输入数据分辨率通 常低于视频的阻碍,这对较长范围的精度有很大的不利影响。
  3. 与 2D 视觉检测不同,基于 3D 的对象检测使空 间路径规划能够用于对象回避和导航。

之所以引入多模态融合就是因为2d没发很好的描述空间位置关系

  1. Fusion methods can be divided into three broad classes: early fusion, deep fusion and late fusion, each with their own pros and cons.
  • 虽然早期和深度融合具有利用交叉模态信息的最大潜力,但它们对数据对齐具有敏感性,通常涉及复杂的体系结构, 并且通常需要传感器数据的像素级对应。
  • 后期融 合系统的构建要简单得多,因为它们包含了预先训练的、单 模式的检测器,而不需要改变,这只需要在检测级别上进行 关联。

作者提出:相机-LiDAR 对象候选融合(CLOCs)作为一种提高三维对象检测精度的方法。

3.创新点

1.通用性和模块化,2.概率驱动的基于学习的融合,3.速度和内存,4.检测性能

4.主要工作

4.1.三维物体检测的三个类别:

  • A. 用二维图像进行 3D 检测
    深度估计
  • B. 使用点云 3D 检测
  • C. 3D 多模态融合检测

a. 2D 和 3D 对象检测
y 轴中的旋转被设置为零,以便于简单。利用相机和 LiDAR 的校准参数,可以将 LiDAR 坐标中的三维包围盒精确地 投影到图像平面中
b. 为什么融合检测候选
融合体系结构可以根据不同模式的处理特征在什么时候进行分类。 三个一般类别是:
(1)在输入处组合数据的早期融合;
(2)在同时组合中间特征的同时,对不同模式具有不同网 络的深度融合;
(3)在单独的路径上处理每个模式并将决策 级别中的输出融合在一起的后期融合。

4.2 相机-李 DAR 对象候选融合

A. 几何和语义一致性
B. 网络架构
阅读笔记:CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection_第1张图片
CLOCs 融合网络体系结构。 首先,将单个 2D 和 3D 检测候选转换为一组一致的联合检测候选(稀疏张量,蓝 色框);然后使用 2D CNN 处理稀疏输入张量中的非空元素;最后,通过 maxpooling 将该处理后的张量映射到所需的学习 目标,概率得分图。

你可能感兴趣的:(3d目标检测,深度学习,人工智能)