【论文解读】CoFF: Cooperative Spatial Feature Fusion for 3D Object Detection on Autonomous Vehicles

CoFF

  • 摘要
  • 引言
  • CoFF方法
  • 实验
  • 结论

摘要

为了减少传输的数据量,最近提出了一种基于特征图的融合方法,作为自动驾驶汽车协同三维目标检测的实用解决方案。然而,物体检测的精度可能需要显著提高,尤其是对于远处或被遮挡的物体。为了解决自动驾驶汽车和人类安全的这一关键问题,我们提出了一种用于自动驾驶汽车的协作空间特征融合(CoFF)方法,以有效地融合特征图,从而实现更高的3D对象检测性能。特别地,CoFF基于接收到的特征图提供了多少新的语义信息来区分特征图之间的权重,以进行更有指导的融合。它还增强了与远处/被遮挡物体相对应的不明显特征,以提高其检测精度。实验结果表明,与以前的特征融合解决方案相比,CoFF在自动驾驶汽车的检测精度和有效检测范围方面都有了显著提高。

引言

与原始传感器数据不同,特征图难以解释,这增加了设计有效的融合机制以进行协同三维目标检测的难度。为了解决这一挑战,我们研究了接收到的特征地图的重要性如何受到生成特征地图的车辆距离的影响。我们称这种方法为“协同空间特征融合”。我们假设由远程车辆生成的特征地图可以显著提高当前车辆的目标检测,特别是在识别远程目标方面。此外,如果能够减少或去除特征映射中的噪声信号,则有望获得更好的目标检测结果。为此,我们提出了一种新的协同空间特征融合机制,用于自动驾驶汽车有效地融合特征地图,实现精确的三维目标检测。
在设计空间特征融合方法时,需要克服两大技术难题。

  • 第一个挑战是如何识别和减少由不同车辆生成的错误融合特征地图对目标检测的负面影响。这个问题在现有的工作中被忽略了[1](F-Cooper),因为它没有考虑特征映射以错误的方式融合时是如何相互影响的。前面的工作采用的底层融合函数是maxout,在融合过程中选取值较大的特征。这种方法似乎是合理的,因为它保留了最显著的特征,同时抑制了非显著的特征;然而,它可能会忽略从其他车辆接收到的重要特征,如果使用得当,这可能会大大提高当前车辆的目标检测性能。换句话说,由多辆车生成的特征地图应该被区别对待,而不是像之前的工作[1]那样平等对待。
  • 第二个挑战是难以检测到远处或遮挡的物体。这不仅是协同目标检测的问题,也是许多自动驾驶汽车3D目标检测方法的共同问题。当融合特征图并考虑更多信息时,我们可以检测到由于单个传感器数据信息不足而难以检测到的目标。这是因为不同车辆生成的特征地图是相互补充的,如果融合得当,它们可以提供更全面的对象表示。

主要贡献:

  • 我们提出了一种新的特征融合方法用于自动驾驶汽车的协同感知,旨在提高对远距离或遮挡物体的3D物体检测性能。我们的新想法是在融合来自不同车辆的特征图时考虑新的语义信息,例如,与自己的特征图相比,包含更多新语义信息的特征图被赋予更大的权重。
  • 其次,我们发现特征映射中的数值通常代表了底层特征在三维检测中的重要性。因此,扩大代表物体的特征与代表背景的特征之间的差异有助于检测物体。我们提出的特征增强方法旨在增加代表对象的特征的值,同时保持背景特征几乎不变。我们提出的方法是通用的,适用于涉及融合不同传感器/实体生成的数据/特征的其他应用。

【论文解读】CoFF: Cooperative Spatial Feature Fusion for 3D Object Detection on Autonomous Vehicles_第1张图片
强特征、弱特征和背景特征的例子分别用蓝色、红色和绿色的方框表示。

图1显示了在LiDAR数据上由VoxelNet生成的空间特征图示例。包含更多点云的体素通常会显示出突出的特征,例如图中蓝色框中描绘的体素平均值比特征图中的体素值更大。相比之下,红框内的值比蓝框内的值小,表明该区域收集的点云数据较少。

  • 对于不包含点云数据的体素,即不能为目标检测提供任何有用信息的体素,其在feature map中的对应值均为零,如图绿框所示,称为背景特征
  • 我们在特征映射中定义包含更多较大值的特征为强特征
  • 而包含较少较大值的特征为弱特征

我们将使用这些定义来比较两个特征映射的重要性,这对于在后面的讨论中设计特征融合机制至关重要。

F-Cooper的局限:
【论文解读】CoFF: Cooperative Spatial Feature Fusion for 3D Object Detection on Autonomous Vehicles_第2张图片

图2示出了一个说明性示例,其中发送方车辆以特征地图格式将其传感器数据共享给位于发送方车辆后面的接收方车辆。对于同一区域(图2(a)和(b)中蓝色框所示),由于其物理位置接近该区域,发送者更有可能产生更强的特征,如图2(b)所示。这表明发送方在该区域具有更好的目标检测性能,如图2©和(d)所示。对于同一区域,由于距离接收方相对较远,如图2(a)所示,接收方会在其特征映射上生成弱特征。然而,由于激光散射和遮挡,接收端特征图中该区域的某些值可能比发送端特征图中的值大。由于maxout函数本质上是保留较大的值,因此接收端特征图中的某些弱特征将被保留,而发送端提供的相应特征将被删除。由于maxout函数对所有的特征映射都是平等的,所以接收端特征映射中的弱特征会影响融合特征映射上的整体检测性能。

【就是说,接收端部分特征图是弱特征的区域本来应该被删除,但是由于激光散射或遮挡的原因比发送端大,于是接收端这部分特征就被保留了,产生误差,所以maxout函数仍然存在缺陷】

CoFF方法

针对上述局限性,本文提出了基于协同空间特征融合(CoFF)的自动驾驶汽车协同三维目标检测方法。CoFF有效地集成了特征映射,从而保留和增强了显著特征,同时抑制了噪声特征。本质上,CoFF使车辆(称为接收方)能够有效地利用另一车辆(称为发送方)提供的补充信息,并在其自身的特征地图难以检测到物体的区域中对发送方的特征地图进行加权。随着发送方特征图权重的增加,接收方特征图上的噪声特征被maxout函数消除,从而提高了目标检测性能。
【本质上就是去噪】
基于信息的特征融合包括以下两个步骤。

  • (1)当接收端车辆接收到发送端车辆共享的特征地图时,首先测量特征地图中包含的所有新特征,并将其与自身特征地图中的特征进行比较。
  • (2)基于测量结果,接收端对接收到的特征图施加一个权重X,然后进行融合。因此,融合抵消了接收机特征映射中弱特征带来的负面影响。为了减少接收方特征图中的噪声,我们根据发送方特征图向接收方提供的新语义信息的数量,按比例增加发送方特征图的权重

权重设置:

  • 特征映射之间的相似性可以用来量化发送者提供的新语义信息的数量
    相似度越大,接收到的特征映射提供的补充信息越少。我们使用两个特征图重叠区域中对应特征之间的L2距离(也称为欧几里得距离)来表示它们的相似度。较大的L2距离意味着发送者的特征图能够提供大量新的语义信息。另一方面,较小的L2距离表明接收方的特征图与发送方的相似,因此发送方提供的新信息将受到限制。
  • 除了相似度,权重因子X还受到重叠区域大小的影响
    重叠面积越大,权重越小,这是因为较大的重叠区域表明发送者和接收者之间的物理距离较近,因此接收到的特征图可以提供的新语义信息较少。
    【论文解读】CoFF: Cooperative Spatial Feature Fusion for 3D Object Detection on Autonomous Vehicles_第3张图片
    其中S =‖Fi1−Fi2‖/(W × H),‖Fi1−Fi2‖为两个特征映射之间的L2(或欧氏)距离,由两个向量Fi1和Fi2表示。W和H分别为两个特征图重叠区域的宽度和高度。Ao为重叠区域的大小,A为整个feature map的大小。上述方程中的常数,如0.15、0.3和1.2,是在我们的自主平台上经过大量实验得出的。

特征增强:
在融合特征映射中具有弱特征的目标很难被最先进的3D目标检测模型检测到。受到[13]中最近提出的工作的启发,其中使用二值分类器来预测物体的边界,我们发现可以通过增加与物体和背景对应的特征映射中的值之间的差来检测远处/被遮挡的物体。
设置一个因子Y,融合后的特征映射通过因子Y增强。
经过对大量特征图的仔细分析,我们发现强特征中的值通常比弱特征中的值大两倍或三倍。这一观察结果指导我们确定增强参数Y的合适值。我们发现增强参数Y = 2或Y = 3足以增强由16束激光雷达收集的点云数据生成的特征图。较大的Y值(例如,Y > 5)可能会过度增强融合的特征映射,从而导致更多的误检。

实验

【论文解读】CoFF: Cooperative Spatial Feature Fusion for 3D Object Detection on Autonomous Vehicles_第4张图片
【论文解读】CoFF: Cooperative Spatial Feature Fusion for 3D Object Detection on Autonomous Vehicles_第5张图片

【论文解读】CoFF: Cooperative Spatial Feature Fusion for 3D Object Detection on Autonomous Vehicles_第6张图片

【论文解读】CoFF: Cooperative Spatial Feature Fusion for 3D Object Detection on Autonomous Vehicles_第7张图片

结论

在本文中,我们提出了一种新的基于特征映射的融合方法CoFF,用于实现自动驾驶汽车的协同三维目标检测。CoFF包括两个部分:基于信息的融合和特征增强。前者根据接收到的特征图对融合的语义信息量分配不同的权重,后者则通过扩大特征图上目标区域和非目标区域的差异来获得更好的检测性能。实验结果表明,CoFF算法在保持相同的数据传输减少优势的同时,提供了比F-Cooper更好的协同三维目标检测性能,并且不需要高质量的三维点云数据。

你可能感兴趣的:(目标检测,自动驾驶)