【论文解读】MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review

MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review

  • 摘要
  • 4 传感器标定
    • A 坐标系标定(外参)
  • 4.2 雷达点滤除
    • 4.3 误差校准
  • 5 基于传感器融合的车辆检测
    • 5.1 数据级融合(前融合)
    • 5.2 决策级
    • 5.3 特征级
  • 7 总结

摘要

随着自动驾驶的蓬勃发展,复杂场景下的精准物体检测为保障自动驾驶安全而备受关注。毫米波(mmWave)雷达和视觉融合是准确检测障碍物的主流解决方案。本文详细介绍了毫米波雷达和基于视觉融合的障碍物检测方法。首先,我们介绍了自动驾驶目标检测的任务、评估标准和数据集。然后将毫米波雷达与视觉融合的过程分为传感器部署、传感器校准和传感器融合三个部分进行全面回顾。具体来说,我们将融合方法分为数据级、决策级和特征级融合方法。此外,我们还介绍了三维(3D)目标检测、自动驾驶中激光雷达和视觉的融合以及多模态信息融合,这些都对未来很有前景。最后,我们总结一下这篇文章。

4 传感器标定

由于不同传感器的空间位置和采样频率不同,不同传感器对同一目标的感知信息可能不匹配。因此,需要对不同传感器的传感信息进行校准。毫米波雷达返回的探测信息是雷达点,摄像头接收视觉图像。我们选择了来自 nuScenes [29] 的相机和毫米波雷达数据作为示例。该数据集提供的数据已经过帧同步处理,因此不需要时间同步,通过空间坐标变换即可得到图3。雷达点的RGB值由横向速度、纵向速度、距离三个物理量转换而来,雷达点的颜色代表了雷达点对应的物体的物理状态。一般来说,传感器标定包括坐标标定[42]-[48]、雷达点滤波[43]、[45]和误差标定[49]-[51]。
【论文解读】MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review_第1张图片

A 坐标系标定(外参)

坐标标定的目的是使雷达点与图像中的物体相匹配。 对于坐标标定,最常用的方法分为坐标变换方法[45]、[46]、传感器验证方法[42]、[44]、[47]和基于视觉的方法[43]、[52],如下。

• 坐标变换法:坐标变换法通过矩阵运算将雷达信息和视觉信息统一在同一坐标系下。在[46]中,根据毫米波雷达和视觉传感器的空间位置坐标,通过坐标变换的方法完成空间标定。针对不同传感器采样率导致的时间不一致,采用线程同步的方式实现图像帧和毫米波雷达数据的同时采集。 [45]采用基于伪逆的点对齐方法,利用最小二乘法得到坐标变换矩阵。传统的坐标变换无法生成目标的准确位置,给最终结果带来误差。在 [53] 中,Wang 等人。提出了一个标定实验,无需特殊工具和雷达反射强度,将真实坐标投影到雷达探测图中,削弱了对标定误差的依赖。

• 传感器校验法:传感器校验法是利用同一物体上不同传感器的检测信息,对多个传感器进行相互校准。 在[42]中,传感器验证包括两个步骤。 首先通过雷达生成目标列表,然后通过视觉信息对列表进行验证。 在[47]中,雷达坐标变换后,首先粗略搜索图像,然后与雷达信息进行比较。 比较的结果将目标分为两种类型:匹配目标和不匹配目标。 在 [44] 中,Streubel 等人设计了一个融合时隙来匹配雷达和视觉在同一时隙内检测到的物体。

• 基于视觉的方法:在[52]中,运动立体技术(结合车辆的运动信息,用时序上的相邻帧进行“类双目视觉“的检测,这种方法也被称为motion stereo或structure from motion)被用来实现雷达对象和图像对象的匹配。 在 [43] 中,Huang 等人。 利用自适应背景减法检测图像中的运动目标,生成候选区域,并通过判断雷达点是否位于候选区域内来验证目标。

4.2 雷达点滤除

雷达点滤波的目的是滤除噪声和无用的检测结果,避免这些雷达点造成误判。 在[45]中,郭等人 提出了一种使用帧内聚类和帧间跟踪信息进行噪声过滤和有效目标提取的方法。 在[43]中,雷达点通过毫米波雷达获得的速度和角速度信息进行过滤。 然后过滤无效的雷达点,从而减少树木和桥梁等静止目标对毫米波雷达的影响。

目前,在自动驾驶领域,研究人员大多使用开源数据集进行训练,他们想要检测的对象一般是车辆或行人。 因此,可以应用[43]的方法根据速度等信息对雷达点进行过滤,以排除非车辆和非行人目标。

4.3 误差校准

由于传感器或数学计算的错误,校准的雷达点可能存在错误。 一些文章提出了纠正这些错误的方法。 在[50]中,提出了一种基于交互式微调的方法,对投影在视觉图像上的雷达点进行最终校正。 [51] 中的作者提出了一种改进的扩展卡尔曼滤波器 (EKF) 算法来模拟不同传感器的测量误差。 在[49]中,分析和讨论了各种坐标对检测结果的影响,并提出了一种半积分笛卡尔坐标表示方法,将所有信息转换为随车辆移动的坐标系。

在当前使用开源数据集的情况下,不需要进行误差校准。 但是,如果数据集是自制的,雷达滤波和纠错是必要的技术步骤。

5 基于传感器融合的车辆检测

一般来说,毫米波雷达与视觉的融合分为三个层次,包括数据层次决策层次特征层次。 数据级融合是对毫米波雷达和摄像头检测到的数据进行融合,具有最小的数据丢失和最高的可靠性。 决策级融合是毫米波雷达和摄像头检测结果的融合。 特征级融合需要提取雷达特征信息,然后将其与图像特征融合。 表IV中提供了三种融合水平的比较。

层级 优点 缺点
数据级 最小的数据丢失和最高的可靠性 取决于雷达点的数量
决策级 充分利用传感器信息 建模传感器的联合概率密度函数很困难
特征级 充分利用特征信息,实现最佳检测性能 计算复杂,雷达信息转换的开销

5.1 数据级融合(前融合)

数据级融合是一种成熟的融合方案,目前还不是主流的研究趋势。 不过,其融合不同传感器信息的思路还是有借鉴意义的。 如表 5 所示,数据级融合首先基于雷达点 [42]、[45]、[54]、[55] 生成感兴趣区域(ROI)。 然后根据ROI提取视觉图像的对应区域。 最后,特征提取器和分类器用于对这些图像进行对象检测[45]、[47]、[53]、[55]-[61]。一些文献使用神经网络进行对象检测和分类[61]、[62]。 对于数据层面的融合,有效雷达点的数量直接影响最终的检测结果。 如果图像的某个部分没有雷达点,则忽略该部分。 该方案缩小了目标检测的搜索空间,节省了计算资源,同时也留下了安全隐患。 数据级融合流程如图4所示。
【论文解读】MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review_第2张图片

【论文解读】MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review_第3张图片
1)ROI生成:ROI是图像中的一个选定区域,是目标检测的焦点。 与纯图像处理方案相比,数据级融合方案使用雷达点生成ROI,可以显着提高ROI生成速度[42]。 初始 ROI 的大小由障碍物和毫米波雷达 [45] 之间的距离决定。 [54]提出的改进的前向车辆检测系统可以以高检测率检测超车。 该方法侧重于即将发生超车的区域。 超车是通过检查车速和运动角度这两个具体特征来确定的。 在[55]中,以雷达点为中心的边长为 3 米的正方形作为 ROI。

2)物体检测:由于图像中物体位置和大小的不确定性,基于视觉的物体检测往往采用滑动窗口和多尺度策略,产生相当多的候选框,导致检测率低 效率。 毫米波雷达与视觉融合方案可以避免滑动窗口的方法,降低了计算成本,提高了检测效率。 目标检测任务侧重于视觉图像处理,任务可以分为三个步骤:图像预处理[45]、[53]、[56]、[57]、[61]、图像特征提取[48]、[ 55]–[59]、[61]、[63]、[64] 和对象分类 [47]、[56]、[60]、[61]。

• 图像预处理
为了去除图像中的噪声,增强特征信息,以便于后续的特征提取和目标分类任务,需要对图像进行预处理。图像预处理的方法主要有直方图均衡化、灰度方差、对比度归一化和图像分割。
在 [56] 中,Bombini 等人。为了获得不同光照条件和相机下的不变性,对直方图均衡化、灰度方差和对比度归一化进行了一系列测试。他们得出结论,对比度归一化取得了更好的性能。在[45]中,利用梯度直方图方法对图像进行预处理,提出了一种改进的基于ROI的位置估计算法,可以获得更小的潜在目标区域,进一步提高检测效率。在[61]中,中值滤波、直方图均衡、小波变换和Canny算子被用于图像预处理。
在[53]、[57]、[61]中,以雷达点为参考中心对图像进行分割,然后确定目标边界以提高目标检测速度。

• 特征提取
特征提取的目的是将原始图像特征转化为一组具有明显物理或统计意义的特征,便于目标检测。在图像特征提取阶段,可用的车辆特征包括对称性和车底阴影等。
在[58]、[59]、[63]中,对称性用于ROI检测,[48]利用阴影检测来获取特征信息,而在[55]、[84]中,综合利用了垂直对称性和底部阴影特征用于车辆检测。在[55]中,利用图像的梯度信息有效地定位边界,利用基于梯度向量流(GVF)Snake的方法来描述车辆的准确轮廓。由于物体在运动过程中颜色分布稳定,直方图匹配方法对车辆跟踪是可行的。
在 [64] 中,Kadow 等人。应用 Haar-like 模型进行特征提取,这是一种经典的人脸检测特征提取算法。为了提高检测率,互信息被用于 Haar-like 特征选择 [56]。
在[57]中,提出了视觉选择性注意机制和人类驾驶过程中视觉意识的先验信息,以从分割图像中提取特征并识别物体轮廓。通过直方图和二值图像分割提取阴影,通过3×3图像腐蚀模板检测行人边缘。

• 对象分类
在物体分类阶段,使用Adaboost、支持向量机(SVM)等物体分类算法在视觉图像中选择车辆的最终框。 在 [56] 中,Adaboost 算法用于扫描投影在图像平面上的 ROI。 在 [47]、[60] 中,SVM 被用于对象识别和分类。 [85] 结合 ROI 图像和多普勒频谱信息进行对象分类。 [61]采用基于红外图像分析的对象分类。 作者根据对象面积将对象分为点对象和区域对象,并使用基于神经网络的分类器对区域目标进行分类[61]。 [62]利用多层就地学习网络(MILN)作为分类器,在两类分类任务中表现出卓越的准确性。

5.2 决策级

决策级融合是目前主流的融合方案。流程如表6所示。 雷达的优势是纵向距离,视觉传感器的优势是水平视野。 决策级融合可以兼顾两方面的优势,充分利用感知信息。 决策级融合滤波算法的挑战在于对两种检测信息的联合概率密度函数进行建模。 这是由于两种检测信息的噪声不同。 决策层融合主要包括两个步骤:感知信息处理[65]-[69]、[71]和决策融合[66]、[72]-[78]、[84]。 决策层融合过程如图 5 所示。
【论文解读】MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review_第4张图片
【论文解读】MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review_第5张图片

1)传感信息处理:传感信息的处理包括雷达信息和视觉信息。 雷达检测结果会生成一个对象列表,并包含对象的速度和距离等信息 [65]、[66]。 视觉信息处理对图像进行目标检测算法,包括传统的特征提取结合分类器[66]、[67]和卷积神经网络(CNN)[68]、[69]、[71]。

• 雷达信息
[65]中提出了一种用于自动驾驶导航和车道变换的毫米波雷达和视觉融合系统,其中雷达传感器通过快速傅里叶变换(FFT)获得目标距离,通过数字波前重建获得目标的角位置, 波束形成,然后分析目标位置。 在[66]中,毫米波雷达检测的结果是雷达视场中可能的物体列表,列表中的每个元素包括被检测物体的距离、方位角和相对速度。

• 图像对象检测
在[66]的视觉检测中,使用直方图来计算边缘信息。然后使用梯度直方图特征提取和基于 Boosting 的分类器来检测行人。 [67]提出了一种结合毫米波雷达和RGB深度传感器的辅助导航方法,并使用MeanShift算法检测深度图像中的物体。此外,ROI 的平均深度决定了检测对象的距离。
[68] 改进了 [67] 中的视觉数据处理算法,并将Mask R-CNN 应用于目标检测。在[69]中,YOLO V2用于车辆检测,输入为224×224大小的RGB图像。预处理从每个像素中减去训练集图像的平均RGB值。 [71]也将YOLO V2应用于车辆检测,证明YOLO V2在速度和准确率上都优于faster R-CNN和SSD,更适合车辆检测任务。 [70]将YOLO V3应用于障碍物检测,其权重在COCO数据集中进行了预训练。

2)决策融合:车辆检测的决策层融合融合了不同传感器的检测结果。主流滤波算法应用贝叶斯理论[72]、[73]、卡尔曼滤波框架[74]-[76]和Dempster Shafer理论[66]。在一些文献中,雷达检测目标列表用于验证视觉检测结果[77]、[78]。此外, [84]提出了运动立体算法来调整和细化最终的检测结果。
• 基于贝叶斯理论的融合方法
[72]提出了一种基于贝叶斯理论的方法,利用概率推理方法解决多传感器数据融合问题,称为贝叶斯规划。添加新传感器后,传统的多传感器融合算法不再适用。融合算法在[73]中进行了模块化和泛化,提出了一种基于贝叶斯网络的动态融合方案,以提高每种融合算法的可重用性。
• 基于卡尔曼滤波器的融合方法 基于李群的EKF 框架,在[74] 中提出了一种使用特殊欧几里得群的决策级融合滤波器。 [75] 提出了一种融合框架,可以在 3D 空间和 2D 图像平面中同时跟踪检测对象。类似于卡尔曼滤波器的不确定性驱动机制用于均衡不同质量的传感结果。在[76]中,给定的图像首先被雷达检测到以粗略搜索目标。然后使用经过训练的点检测器来获取对象的边界框。采用基于卡尔曼滤波的信息融合方法,证明了集中式和分散式信息融合方案的功能等价性。

• 基于 Dempster Shafer 理论的融合方法
[66] 基于 Dempster Shafer 理论提出了决策层融合,将多个传感器的检测列表作为输入,将其中一个作为临时证据网格并与当前证据网格融合,最后进行聚类处理。目标是在证据网格中确定的。
• 基于雷达验证的融合方法
[77]将视觉检测和雷达检测生成的目标列表重叠,生成唯一的车辆列表。雷达数据用于验证视觉检测结果。如果雷达数据中存在与视觉检测结果相匹配的目标,则会将蓝色框标记为强假设。否则,如果没有目标,它不会被丢弃:绿色框将被标记为弱假设。 [78]提出了一种多目标跟踪(MTT)算法,可以通过评估雷达散射中心的跟踪分数来实时修正跟踪目标列表。立体视觉信息用于拟合目标车辆的轮廓,与目标车辆匹配的雷达目标用于校正其位置。

5.3 特征级

特征级融合是近年来兴起的一种新方案。其流程如表7所示。 在特征级融合方法中使用额外的雷达输入分支是一种常见的方法[79]-[83]。 基于CNN的物体检测模型可以有效地学习图像特征信息。 通过将雷达检测信息转化为图像形式,检测模型可以同时学习雷达和视觉特征信息,实现特征级融合。 特征级融合过程如图 6 所示。

【论文解读】MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review_第6张图片
【论文解读】MmWave Radar and Vision Fusion for Object Detection in Autonomous Driving: A Review_第7张图片

1)目标检测框架:卷积神经网络(CNN)广泛应用于基于特征融合的目标检测。 目前,一些算法已经取得了性能优越的结果,如Faster RCNN、YOLO(V3)、SSD、RetinaNet等。
• 基于CNN的检测框架
Faster-RCNN [12] 是一种广泛使用的检测器,与 Fast-RCNN [11] 相比,它的集成度有了很大的提高。 它的主要贡献是引入了区域建议网络 (RPN),它可以实现几乎没有成本的区域建议。 RPN 可以同时预测每个位置的目标边界框和分类分数。
YOLO [7] 是第一个单级检测器,是“You Only Look Once”的缩写。 它采用了一种新的检测思路:使用单个神经网络来完成检测任务。 它将视觉图像划分为多个区域并预测每个区域的边界框。 因此,检测速度得到了显着提高。 但与二级探测器相比,其定位精度有所降低。
SSD [8] 是另一种出色的单级检测器。 它消除了边界框建议和像素或特征重采样阶段,从根本上提高了检测速度。 不同尺度的检测是由不同尺度的特征图生成的,并且检测通过纵横比明显分开,从而显着提高了准确率。 SSD作为一种检测速度快的一级探测器,也保证了接近二级探测器的探测精度。
对于 RetinaNet [9],发明人讨论了为什么一级检测器的准确率低于二级检测器的原因,并得出这种现象是由极端的前景背景类别不平衡造成的。 他们提出了一种名为 Focal loss 的新损失函数来重塑标准的交叉熵损失,旨在将更多的注意力集中在训练过程中难以分类的对象上。

• 基于CNN的融合框架
在[79]中,特征级融合首先应用于毫米波雷达和视觉融合。其检测网络在SSD[8]的基础上进行了改进。雷达分支连接在视觉分支的第二个 ResNet18 块之后。
在 [80] 中,提出了一种称为 RVNet 的新传感器融合框架,类似于 YOLO [7]。输入分支包含单独的雷达和视觉分支,输出分支分别包含小障碍物和大障碍物的独立分支。
[81] 中使用的 CNN 建立在 RetinaNet [9] 上,具有 VGG 主干 [86],名为 CameraRadarFusionNet (CRF-Net)。作者扩展了网络,使其可以处理额外的雷达输入分支。它的输入分支是雷达特征和视觉特征,输出结果是物体坐标的二维回归和物体的分类分数。
在[82]中,作者提出了一种新的检测网络,称为基于空间注意力融合的全卷积单阶段网络(SAF-FCOS),它建立在FCOS[87]之上。雷达分支由 ResNet-50 改进而来,视觉图像分支采用了类似于 ResNet-50 的两阶段操作块。为了提高检测精度,最终的目标检测综合利用了 FCOS [87] 和 RetinaNet [9]。

2)雷达特征提取:雷达特征提取的目的是将雷达信息转化为类似图像的矩阵信息,因为雷达信息不能直接与图像信息融合。 雷达特征提取大多采用将雷达点转换为像平面的方法生成雷达图像。 多通道变换后的雷达图像包含雷达检测到的所有环境特征。 每个通道代表一个物理量,例如距离、纵向速度、横向速度等。

[83] 提出了一种新的条件多生成器生成对抗网络(CMGGAN),它利用雷达传感器的测量数据生成人工的、类似相机的环境图像,包括雷达传感器检测到的所有环境特征。在[80]中提出了一种新的雷达特征描述方法,称为雷达稀疏图像。雷达稀疏图像是416×416的三通道图像,其大小直接对应于视觉图像的大小。三个通道包含雷达点速度和深度特征信息。在[82]中,Chang 等人。将雷达点的深度、水平和垂直信息转换为不同通道的真实像素值。对于没有雷达点的区域,他们将像素值设置为 0,并以雷达点为中心的圆圈渲染雷达图像。实验结果表明,PNG格式保存的雷达图像抗噪性能优于jpg格式。在[81]中,考虑到雷达检测结果中缺乏高度信息,Nobis 等人。在垂直方向拉伸投影的雷达点,以便更好地将它们与图像集成。雷达信息的特征以像素值的形式存储在增强图像中。此外,提出了一种地面实况噪声滤波器来过滤无效的雷达点。

3)特征融合:基本的特征融合方法可以分为两种:连接和元素相加。 前者将雷达特征矩阵和图像特征矩阵拼接成一个多通道矩阵,而后者将两个矩阵相加

在[79]中,设置了concatenation和element-wise add两种融合方法,实验结果表明两种融合方法都提高了检测性能。 element-wise 添加方法在手动标记的测试集上表现更好,而 concatenation 方法在生成的测试集上表现更好。 参考文献。 [80]、[81] 均采用串联方法。 在 [82] 中,提出了一种新的模块,称为空间注意融合 (SAF),用于传感器特征融合。 SAF 块用于生成注意力权重矩阵以融合雷达和视觉特征。 同时,[82] 将 SAF 方法与元素加法、乘法和连接三种方法进行了比较,结果表明 SAF 具有最佳性能。 此外,[82]对faster R-CNN进行了泛化实验,SAF模型也提高了检测性能。

7 总结

目标检测是自动驾驶最重要的任务之一。 在本文中,我们概述了用于车辆检测的毫米波雷达和视觉融合。 首先,我们介绍了自动驾驶的任务、评价标准和数据集。 其次,我们将毫米波雷达与视觉融合过程分为三个部分,将融合算法分为三个层次:数据层、决策层和特征层。 最后,对3D目标检测、激光雷达视觉融合和多模态信息融合作为未来具有发展前景的技术进行了综述。

你可能感兴趣的:(学习,目标检测,人工智能,计算机视觉)