20230518——文献阅读《一种基于深度学习的雷达和相机传感器融合目标检测架构》(CRF-Net)

  • 论文标题:
    A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection

  • 发表期刊/会议:
    Accepted at 2019 Sensor Data Fusion: Trends, Solutions, Applications (SDF)

  • 下载地址:
    https://arxiv.org/abs/2005.07431v1

  • 代码地址
    https://github.com/TUMFTM/CameraRadarFusionNet


目录

    • 个人理解
      • 研究目标(提出问题)
      • 研究方法的优缺点(分析解决问题)
      • 展望(存在的问题以及可能解决的思路)
      • 杂谈(瞎说八道)
        • 1
        • 2
    • 阅读前知识准备
      • 1.什么是可行驶区域?
      • 2. 什么是range rate?
      • 3. 为什么毫米波雷达无法识别静态物体?
      • 4. 什么是low-level、high-level任务
      • 5.什么是RetinaNet?
    • 正文
      • 摘要
      • 1 引言
      • 2 相关工作
      • 3 雷达数据预处理
      • 4 融合网络架构
      • 5 实验与结果
        • A 数据集
          • nuScenes数据集
          • 我们的数据集(TUM)
        • B 训练
        • C 验证
      • 6 总结与展望


个人理解

研究目标(提出问题)

还是从研究主体的角度来分析研究意义,也就是通过毫米波雷达固有的优势进行补充相机,从而实现目标检测。
但是呢?
目前在融合过程中还是存在着:

  • 融合前,毫米波雷达数据稀疏、杂波多、高度缺失的问题
  • 融合中,毫米波雷达和相机数据量差距过大的问题,在哪一层融合是最优的问题

研究方法的优缺点(分析解决问题)

  • 针对毫米波雷达数据稀疏的问题,为了增加雷达数据的密度,我们将最后13个雷达周期(大约1秒)的数据进行融合。
  • 针对毫米波雷达数据高度缺失的问题,我们假设雷达探测的高度扩展为3m,将相机像素与雷达数据关联起来。将雷达数据以1的像素宽度映射到图像平面。
  • 针对毫米波雷达的数据噪声较多的问题,在输入信号中杂波较少的情况下,提出使用注解滤波器(AF),使过滤后的ground-truth数据只包含至少一次雷达探测点云的对象。
  • 由于在那一层进行融合都没办法给出特别明确的理由,为了得到一个最优的结果,就设计了一个网络让它自己去判断去吧,提出了一个可以自动学习相机和毫米波雷达数据的融合在哪个级别对检测结果最有利的网络。
  • 针对每一帧中,毫米波雷达数据相较于图像数据稀疏的情况,受到Dropout方法启发,提出了BlackIn训练策略,专注于学习特定的传感器(毫米波雷达)数据。

展望(存在的问题以及可能解决的思路)

  • 在融合之前对雷达数据进行处理,从而滤除雷达数据中的噪声。(作者还是对于毫米波雷达的噪声滤除念念不忘,看来确实是个令人头疼的问题)关于去噪的问题,我也没有很好的思路,现在我标定毫米波雷达和相机都挺费劲。
  • 神经融合方法对传感器时空同步偏差的鲁棒性研究有待于评价,这个问题的解决思路有两个:一是提高时空标定的准确度,或是可以动态修正;二是增加融合时的鲁棒性,也就是没有那么相信数据,考虑不确定性。

杂谈(瞎说八道)

1

我很赞同原文中说的这一句话,就是同样是从环境中获取的信息,但是信息的熵是不同的。

雷达测量的物体到自我车辆的距离可以被认为比相机像素的简单颜色值更与驾驶任务相关。

2

相较于视觉,毫米波雷达更擅长检测中远程的物体,即小目标。

此外,我们在自己的数据集中,对于图像中看起来很小的对象进行了标记;而在nuScenes数据集中,距离大于80m的物体大多未标注。正如在[27]中所提出的那样,雷达可能是有益的,特别是对于距离自我车较远的物体。(作者通过将算法在自制数据集上与nusense数据集上的性能进行比较,验证或者得出了,毫米波雷达更擅长于检测有一定距离的小物体)(不过好像现在的视觉目标检测对于小目标的检测效果也是很好的,这倒是有点堵住了一条使用毫米波雷达的原因)


阅读前知识准备

1.什么是可行驶区域?

可达空间,又称可行驶区域,英文称Driveable Space (DS) 或Free Space,在自动驾驶中承担重要的兜底作用。

2. 什么是range rate?

range rate,距离的变化率,也就是毫米波雷达测出的目标相对速度。

3. 为什么毫米波雷达无法识别静态物体?

在实际使用的时候,通常将毫米波雷达检测到底额静止物体直接进行过滤,因为为了避免幽灵刹车(毫米波雷达对于目标高度信息是无法检测到的,如果出现视觉与毫米波雷达的错误匹配,例如龙门架、井盖等,就会出现刹车现象),只能降低对完全静止物体的测量精度,算是一种妥协吧。
为什么毫米波雷达无法识别静态物体?

4. 什么是low-level、high-level任务

Low-level feature: 通常是指图像中的一些小的细节信息,例如边缘(edge),角(corner),颜色(color),像素(pixeles), 梯度(gradients)等,这些信息可以通过滤波器、SIFT或HOG获取;
High-level feature:是建立在low level feature之上的,可以用于图像中目标或物体形状的识别和检测,具有更丰富的语义信息。
计算机视觉中low-level feature和high level feature的理解

什么是low-level、high-level任务

5.什么是RetinaNet?

RetinaNet是继SSD和YOLO V2公布后,YOLO V3诞生前的一款目标检测模型,出自何恺明大神的《Focal Loss for Dense Object Detection》。
20230518——文献阅读《一种基于深度学习的雷达和相机传感器融合目标检测架构》(CRF-Net)_第1张图片

上图为RetinaNet的结构图,我们可以看出,RetinaNet的特征提取网络选择了残差网络ResNet,特征融合这块选择了FPN(特征金字塔网络),以特征金字塔不同的尺寸特征图作为输入,搭建三个用于分类和框回归的子网络。
RetinaNet代码

RetinaNet 论文和代码详解


正文

摘要

在相机图像中,利用深度学习进行目标检测是近年来被证实的成功方法。不断提高的检测率和计算效率的网络结构正推动该技术在生产车辆上的应用。然而,在恶劣的天气条件下,以及在光线稀少的地区和夜间,传感器噪音增加,相机的传感器质量受到限制(研究主体就是以相机为主要传感器,雷达负责补充。从而,提高目标检测的指标)。该方法在网络层融合了相机数据和投影稀疏雷达数据,增强了现有的二维目标检测网络。本文所提出的CameraRadarFusionNet(CRF Net)自动学习传感器数据的融合在哪个级别对检测结果最有利(这个还是很有想法的)。此外,我们还介绍了BlackIn,这是一种受Dropout启发的训练策略,专注于学习特定的传感器类型。我们展示了融合网络能够在两种不同的数据集上优于先进的图像网络。

1 引言

近年来,卷积神经网络(convolutional neural networks, CNN)被认为是在相机图像[1]中进行目标检测最精确的方法。相机图像对环境的视觉表征与人类的视觉感知密切相关。由于人类主要通过视觉感知驾驶环境,因此对于自动驾驶汽车来说,依靠类似的表示是有充分动机的。然而,在大雨或大雾等不利条件下,能见度会降低,可能无法保证安全驾驶。此外,在光线稀少的情况下,相机传感器受到噪声的影响越来越大。与相机传感器相比,雷达传感器对光线变化、雨和雾[2]等环境条件更强。由于天气导致的遮挡,例如水滴粘附在摄像机镜头上,挡住了视线,会导致相机无法使用,如图1所示。
20230518——文献阅读《一种基于深度学习的雷达和相机传感器融合目标检测架构》(CRF-Net)_第2张图片

在本文中,我们研究了用神经网络融合雷达和相机传感器数据,以提高目标检测精度。雷达直接获取物体的距离和径向速度信息。它能够在与地面平行的二维平面上定位物体(只知道方位信息,没有高度信息)。与摄像机相比,雷达传感器无法获得高度信息。我们开发了一种联合处理摄像机和雷达传感器数据的网络结构。该方法在nuScenes数据集[3]和本研究创建的TUM数据集上能够更加可靠地检测出目标。并指出了融合网络的局限性和未来的发展方向(还挺良心)
第二节讨论了目标检测和传感器融合的相关方法。第三节描述了我们在将雷达数据融合到网络之前对其进行预处理的方法。我们在第四节继续描述网络架构。在第五节对该方法进行评估和讨论。最后,我们的工作结论在第六节给出。(核心章节是第三、四章,阅读小论文需要抓住重点)

2 相关工作

[4]是第一个成功实现卷积神经网络的图像分类,在ImageNet比赛中表现优于最先进的图像分类技术。这标志着人们开始使用神经网络进行图像处理。随后,对用于分类的神经网络体系结构进行了扩充,以执行额外的任务,如对象检测[5]和语义分割[6]。目前已有几种用于目标检测的网络元体系结构,它们建立在各种用于特征提取的卷积层设计之上。在实时应用程序方面, single shot已经被证明可以在保持相当低的计算时间[7]的情况下准确执行。近年来,新的特征提取体系结构被提出,在给定的元体系结构[8]-[11]中使用特征提取体系结构可以提高目标检测性能。最近,进一步的研究出现了自动微调初始神经网络设计,以提高检测性能或最小化运行时间,而不显著影响检测性能[12],[13]。
神经网络用于图像数据处理的成功导致了对附加传感器原理和传感器融合的适应。通过将多模态传感器数据融合到传感器融合中,研究人员旨在为自动驾驶汽车环境感知的不同任务获得更可靠的结果。[14]将激光雷达数据投影到2D地平面上作为鸟瞰视图,并与摄像机数据融合,进行3D目标检测。[15]将激光雷达投影到地平面和垂直图像平面上,并将这两种表示形式与摄像机图像融合到神经网络中进行目标检测。[16]将激光雷达和摄像机数据融合到神经网络中,以分割可驾驶道路(可行使区域识别)。提出了一种由激光雷达和摄像机输入两个分支组成的网络结构。这些分支之间的连接是可训练的,这样在训练过程中,网络可以学习到一个最优的网络深度来进行数据融合(看来参考文献16,就已经开始使用网络进行学习一个最优的网络深度了,不是本文首先提出来的)。[17]使用类似的融合方法,同时操作摄像机和激光雷达的鸟瞰图投影。
卷积神经网络被广泛应用于常规的二维网格(如图像)或三维网格(如体素)。上述讨论的三维激光雷达目标检测方法应用了将非结构化激光雷达点云转化为规则网格的思想,然后将其输入神经网络。我们对雷达数据采用了同样的处理方法。
[18]使用雷达探测结果在相机图像中创建感兴趣的区域(ROI),以便使用简单的神经网络对这些区域中的对象进行分类。在其他一系列的工作中[19]–[22].,也采用了类似的方法,即利用雷达引导图像空间中的目标检测。[23]融合相机和雷达的独立探测,以便将雷达的距离测量与图像空间中的物体联系起来(也就是通过雷达给图像中的目标加上距离信息)。[24]融合每个传感器的独立跟踪检测,生成一个最终的位置估计,其中包含两个传感器的读数(也就是数据)。[25]提出了一种基于生成对抗网络(GANs)的深度学习方法,将相机数据和雷达数据融合到2D鸟瞰网格地图中,以执行可行驶区域检测。
[26]概述了用于传感器融合的深度学习方法。他们的结论是,图像和雷达数据的原始级融合方法到目前为止只是被研究过,在这方面还需要进行更多的研究(也就是数据级融合的较少,或者说研究的不是很深入,还有研究的空间?)。[27]将雷达数据投影到垂直于道路的摄像机图像平面上,并提出了一种与摄像机图像融合的神经网络。他们使用雷达的距离和距离变化率(也就是速度)作为额外的图像通道。文章提出了两种融合策略,一种是串联,另一种是在初始分离层后再添加一个固定层。他们展示了融合策略对自记录数据集的优势。
在本文中,我们使用类似于[27]的投影方法,将雷达数据投影到与之融合的相机图像的垂直面上。我们提出了一种融合网络,它能够学习融合时最有利于减少网络损耗的网络深度。我们在图像空间中操作,使用2D ground-truth数据进行操作,与3D标签相比,这大大方便了训练数据的生成(图像空间内操作的好处)
由于距离率的测量,在雷达数据中可以将运动物体与其周围环境区分开来(这是雷达的固有优势,即能够测量速度,从而区分运动物体和静止物体)。在实际应用中,如自适应巡航控制(ACC),对运动目标进行滤波,以减少雷达回波中的误报数量。同时,重要的静止物体,例如停在交通灯前的汽车,也会被过滤掉(但是在实际使用的时候,通常将毫米波雷达检测到底额静止物体直接进行过滤,因为为了避免幽灵刹车,只能降低对完全静止物体的测量精度,算是一种妥协吧)。在这种方法中,没有对移动对象进行过滤,因此我们能够检测静止和移动的交通对象(毕竟本文是搞目标检测的嘛,要靠检测精度吃饭的啦,所以即使是静止目标也是不会过滤掉的)

3 雷达数据预处理

本节描述了在我们的融合方法中是如何将雷达数据投影到图像平面中的。描述了相机和雷达传感器的空间标定、如何处理雷达数据的高度信息缺失问题,如何处理雷达数据的稀疏性问题,以及ground-truth滤波的方法以减少雷达数据中的噪声或杂波。
雷达传感器输出带有相关雷达特征的稀疏2D点云。这项工作使用的数据包括方位角,距离和雷达截面(RCS)。我们将雷达数据从二维地平面转换为垂直的像平面。雷达回波特征以像素值的形式存储在增强图像中。在没有雷达返回的图像像素位置,投影雷达通道值设置为0。所述输入相机图像由三个通道(红、绿、蓝)组成;在此基础上,我们添加上述雷达通道作为神经网络的输入。在我们自己的数据集中,三部雷达的视场(FOV)与前置鱼眼相机的视场重叠。我们将三个传感器的点云连接成一个,并使用它作为投影雷达输入源(自制数据集中,是将3个雷达和1个前视鱼眼相机组成)。因为nuScenes数据集使用70°视场相机,而TUM数据集使用185°视场鱼眼相机,所以在这两种情况下处理投影的方法是不同的。在nuScenes数据集中,提供了相机内外映射矩阵来将一个点从世界坐标转换为图像坐标。鱼眼透镜的非线性不能用线性矩阵运算来映射。我们使用[28]提出的校准方法将世界坐标映射到我们自己的数据的图像坐标。
雷达探测没有给出接收到它们的高度的信息,这增加了融合数据类型的难度。假设雷达探测到的三维坐标是从车辆行驶的地面返回的。然后将投影沿垂直方向扩展到该平面,以便考虑待检测物体的垂直扩展。我们检测的交通对象可以分为汽车,卡车,摩托车,自行车和行人。为了覆盖这些对象类型的高度,我们假设雷达探测的高度扩展为3m,将相机像素与雷达数据关联起来。雷达数据以1的像素宽度映射到图像平面
nuScenes数据集中的相机数据以1600 × 900 = 144万像素的分辨率捕获,前置相机的打开角度(即,FOV)为70°。在同样的FOV下,激光雷达最多返回14000点[29]。在一小部分nuScenes数据集上(例如,nuScenes mini),我们计算出平均每个周期前毫米波雷达探测得到57个点(毫米波雷达数据量太少了吧)。与激光雷达和摄像机相比,毫米波雷达和摄像机数据的密度差距更大,这给找到一种合适的方法将数据融合到一个共享的网络结构带来了挑战。对于我们自己的数据集,我们使用大陆ARS430雷达,与nuScenes中使用的雷达相比,该雷达具有不同的输出格式,但雷达特性与nuScenes中使用的雷达相当。为了处理雷达数据的稀疏性,[25]利用概率网格图从雷达中生成连续信息。在这项工作中,为了增加雷达数据的密度,我们将最后13个雷达周期(大约1秒)的数据进行融合。并且在这种投影方法中,我们对自车运动进行了补偿。目标车辆的运动不能得到补偿。通过时间步长的融合,增加了雷达输入的信息密度。同时,也增加了噪声,因为在以前的时间步中检测到的运动对象与当前对象位置不一致。但通过后续具体实验可以得出,为了获得信息增益,可容忍此缺点。(到底有多少影响,什么叫能够容忍?)。图2a显示了示例场景中神经网络的输入数据格式。雷达通道(距离和RCS)被映射到相同的位置,因此用统一的颜色显示。
20230518——文献阅读《一种基于深度学习的雷达和相机传感器融合目标检测架构》(CRF-Net)_第3张图片
雷达返回许多与驾驶任务无关的物体探测结果,如鬼影物体、无关物体和地面探测。这些检测结果被称为当前任务的杂波或噪声。在评估中,我们比较了两种附加滤波方法对雷达原始噪声数据的融合效果。首先,在nuScenes数据集中,只有一小部分被标记的物体被雷达探测到。因此,在训练和评估中,我们采用了注解滤波器(AF),使过滤后的ground-truth数据只包含至少一次雷达探测点云的对象。这是通过关联3D bounding boxes与雷达点来完成的。该融合方法有望在两种模式下都能检测到的物体上显示出其潜力。其次,我们对雷达数据应用ground-truth滤波器,去除3D ground-truth bounding boxes外的所有雷达探测。当然,如果将此步骤应用于实际场景,则无法执行此步骤。这里使用它来展示融合概念在输入信号中杂波较少的情况下的总体可行性(也就是,实际使用的过程中,杂波太多了,这种方法可能并不适用)。应用滤波后的雷达数据如图2b所示。请注意,ground-truth雷达滤波器(GRF)并不输出完美的雷达数据,部分过滤了数据中的相关探测,原因有四:

  • 首先,当我们在输入中连接过去的雷达探测时,我们不补偿其他物体的运动。由于nuScenes数据集被标记为2hz,因此对于中级雷达探测周期来说,由于没有ground-truth可用,只出现在中级雷达探测周期的雷达目标探测可能被过滤掉。
  • 其次,雷达和相机传感器之间的轻微空间错误校准导致雷达探测位置和ground-truth bounding boxes在更大距离上的不对准。(也就是,受到雷达和相机标定结果准确性的影响很大,也就是不鲁棒)
  • 第三,雷达和相机的数据并不是同时记录的。这导致了移动物体的空间错位。当我们联合操作雷达的最后13次探测结果时,这种效果就更明显了。(也就是,受到雷达和相机时间同步精确度的影响也很大,也就是不鲁棒)
  • 第四,虽然雷达距离测量是非常可靠的,但它的测量并不完美,轻微的误差会导致探结果位于ground-truth bounding boxes之外。(也就是,受到本车或目标车的运动,导致雷达探测的目标距离可能会存在误差,而这,可能就导致无法与目标检测的候选框正确匹配了,也就是不鲁棒)
    在图2b中可以部分看到相关数据的非预期过滤。在第5章的C部分,我们比较了使用原始雷达数据和ground-truth过滤雷达数据的网络结果。在训练和评估步骤中,将3D ground-truth bounding boxes投影到二维图像平面上。

4 融合网络架构

我们的神经网络架构是建立在RetinaNet [30]上,就像在[31]中使用VGG骨干网络[11]实现的那样。该网络被扩展以处理增强图像的附加雷达通道。网络的输出是bounding box坐标的二维回归和bounding box的分类分数。正如[30]中提出的那样,使用focal loss来训练网络。我们的baseline 方法在第一卷积层使用VGG特征提取器。
一次雷达回波的信息量不同于图像单个像素的信息量。雷达测量的物体到自我车辆的距离可以被认为比相机像素的简单颜色值更与驾驶任务相关。(也就是,距离和颜色,同样是信息,价值却不相同,也就是熵不同)。如果在前融合(early fusion)中通过串联融合了两个传感器,我们应该假设不同的数据在语义上是相似的[32]。由于我们不能明确的给出这个假设的理由,网络第一层的融合可能不是最优的。在神经网络的更深层次中,输入数据被压缩成更密集的表示,理想情况下包含所有相关的输入信息。(也就是,神经网络的深层处,学习到的信息是更多的)。由于很难量化两种传感器类型中每一种提供的信息的抽象级别,我们设计网络的方式是,它可以自己学习在哪个深度级别的数据融合最有利于整体损失最小化。网络的high-level结构如图3所示。

  • 融合网络的pipeline 如图中中心分支所示,由VGG块组成。相机和雷达数据被连接起来,并输入到最上面一行的网络中。网络的这个分支是通过VGG层处理相机和雷达数据。
  • 在左分支中,通过max-pooling,将原始雷达数据以相应比例的输入大小额外馈送到网络的更深层的网络中。
  • 雷达数据连接到网络主分支的前几层融合网络的输出。
  • [33]中引入的特征金字塔网络(FPN)由P3到P7块表示;在此基础上,通过级联的方式对雷达信道进行融合。
  • 最后对FPN块的输出进行bounding box回归和分类块[30]处理。优化器通过调整权重以适应不同层的雷达特征,隐式地教导网络在哪个深度层次上雷达数据融合的影响最大。[16]也应用了类似的技术。
    20230518——文献阅读《一种基于深度学习的雷达和相机传感器融合目标检测架构》(CRF-Net)_第4张图片
    我们将一种新的训练策略引入到相机和雷达数据的多模态传感器融合中。该策略的灵感来自Dropout[34]技术(2014年的Dropout方法,在2019年依然能够发挥预热,泪目)。在随机训练步骤中,我们同时关闭所有的输入神经元,而不是单个神经元。在所有训练图像的过程中这种操作的概率设置为0.2。我们称这种技术为BlackIn。[35]引入了BlackOut,这是受到了网络最后一层的dropout的启发。相机输入数据的缺失促使网络更多地依赖雷达数据。这种操作的目标是让网络在独立于更密集的摄像机表示外,进行学习稀疏雷达数据的信息价值。我们从特征提取器的图像上预先训练的权值开始训练。针对雷达的训练重点,旨在克服这种偏见。(这种操作的目的就是,因为在每一帧中雷达数据相较于相机数据来说太少了,只能通过抑制相机数据才行,不然,稀疏的雷达数据就会被淹没了。应该是和focal loss 的正负样本有异曲同工之妙吧,虽然他们所想要解决的问题是不一样的。)

5 实验与结果

在本节中,我们在nuScenes数据集和本文工作中收集的第二个数据集上评估网络。我们将CameraRadarFusionNet (CRFNet)与baseline网络进行比较,baseline网络是我们调整后的RetinaNet[30]。

A 数据集

nuScenes数据集

nuScenes数据集在[3]中得到了广泛的描述。它在波士顿和新加坡的不同地点和条件下被记录下来。为了进行检测评估,我们将原来的23个对象类压缩到表I中所示的类中。在使用和不使用ground-truth filters的情况下,对nuScenes的结果进行了评价
20230518——文献阅读《一种基于深度学习的雷达和相机传感器融合目标检测架构》(CRF-Net)_第5张图片

我们的数据集(TUM)

我们使用与nuScenes数据集相同的类进行评估。我们的数据集使用计算机视觉标注工具(CVAT)[36]用2D bounding boxes进行标注。由于我们缺乏3D ground-truth数据,因此在训练和验证步骤中不能对该数据集应用额外的ground-truth过滤器。对于我们的数据集,我们将RetinaNet的默认anchor 大小减少了两倍,因为目标在鱼眼图像上看起来更小。

B 训练

我们从nuScenes的原始数据中创建了一个60:20:20的分割,以平衡训练、验证和测试集中白天、下雨和夜晚场景的数量。我们使用nuScenes图像的输入尺寸为360 x 640像素。我们的数据集的鱼眼图像在720 x 1280像素分辨率下处理。物体通常在鱼眼图像中显得更小,我们希望通过增强分辨率来弥补这一点。我们根据各个数据集中的出现次数对对象类进行加权,以进行平均精度(mAP)计算。
在Imagenet数据集[37]上对VGG特征提取器的权值进行预训练。在预处理过程中,相机图像通道最小-最大值缩放到间隔[127.5,127.5],雷达通道保持不缩放。我们在数据集上执行数据扩充,因为标记数据的数量相对较小。每个数据集的每个类的对象数量如表I所示。
使用Intel Xeon Silver 4112 CPU、96GB RAM和NVIDIA Titan XP GPU进行培训和评估。在nuScenes数据集上,baseline网络和CRF-Net分别在约22小时和约24小时的时间段内训练了25个epoch和batch size为1的网络。在我们的数据集上,在大约18小时的时间段内,对网络进行了50个epoch和batch size为1的训练。

C 验证

表II显示了我们所提出的网络的不同配置的平均精度(mAP)。第一个块显示了nuScenes数据集上的结果。对于原始数据输入,融合网络比图像网络实现了类似但略高的检测结果。使用BlackIn训练的CRF-Net的mAP比没有使用BlackIn训练的CRF-Net的mAP高0.35%。在下一步中,我们应用注解滤波器(AF),它只考虑被至少一个雷达点检测到的对象。当网络额外学习ground-truth过滤雷达数据(AF, GRF)时,CRF-Net的mAP优势比图像baseline (AF)上升到12.96% 点。nuScenes块体的最后一行显示了另一项比较研究。将雷达通道简化为一个通道,该通道仅表示图像平面中存在或不存在雷达探测。mAP分数的下降说明雷达元数据,如距离和RCS,对探测结果是很重要的。
表II的第二个部分显示了我们自己的数据集的结果。与baseline 相比,融合网络的性能增益(1.4% -points)在我们的数据集中比在nuScenes数据集中更大。这可能是由于在我们的数据中使用了三个部分重叠的雷达,以及由于使用了一个更先进的雷达传感器。(使用较多的毫米波雷达共同进行目标检测,竟然效果会有提高,这好像也是一种思路,不过使用过程中应该会有一些其他的问题存在)此外,我们在自己的数据集中,对于图像中看起来很小的对象进行了标记;而在nuScenes数据集中,距离大于80m的物体大多未标注。正如在[27]中所提出的那样,雷达可能是有益的,特别是对于距离自我车较远的物体。(作者通过将算法在自制数据集上与nusense数据集上的性能进行比较,验证或者得出了,毫米波雷达更擅长于检测有一定距离的小物体)(不过好像现在的视觉目标检测对于小目标的检测效果也是很好的,这倒是有点堵住了一条使用毫米波雷达的原因)由于不同的镜头特性和不同的输入分辨率,两个数据集中的相机数据是不同的,所以这里不能给出一个明确的原因。
20230518——文献阅读《一种基于深度学习的雷达和相机传感器融合目标检测架构》(CRF-Net)_第6张图片
图4定性地说明了使用CRF-Net对一个示例场景进行目标检测的优越性。
20230518——文献阅读《一种基于深度学习的雷达和相机传感器融合目标检测架构》(CRF-Net)_第7张图片
与表二中给出的baseline 相比,融合网络的总体map值更高,这显示了融合方法的潜力。这种潜力是进一步研究这种类型的融合的理想网络架构的原因。ground-truth过滤雷达数据的性能增益是促使,在预处理期间或在神经网络内部对雷达数据,开发一种基于non-ground-truth的滤波方法的原因。
在未来的工作中,我们将继续研究滤除噪声雷达探测,然后将其输入融合网络中,以提高在真实世界条件下的效果。(本文中是通过ground-truth进行滤除噪声,且滤除雷达噪声的效果很好,作者认为这种滤除噪声的想法很好,可以进行进一步的研究)
baseline 网络处理一幅大小为360 x 640像素的图像需要33ms。CRF-Net对融合后的数据进行处理需要43ms。此外,雷达投影和信道生成的数据处理需要56ms的CPU时间。处理ground-truth过滤器所需的时间可以忽略不计。在我们的TUM数据集中,我们以更高的分辨率输入数据,这导致了执行时间的增加。基线网络处理需要92ms, CRF-Net需要103ms,数据生成需要333ms。该数据集使用了更多的雷达数据,且投影采用了鱼眼投影的方法,这增加了数据生成时间。但是,数据生成并没有得到优化,给出的值只是作为参考,以呈现实现的当前状态。(像这种把每一步的处理时间都说出来的,感觉还是很实在的,不过这种写法是不是固定的要求呢?后续阅读论文的过程中继续关注吧)

6 总结与展望

本文提出了CameraRadarFusion-Net (CRF-Net)体系结构,将道路车辆的相机和雷达传感器数据进行融合。

  • 该研究借鉴了激光雷达和相机数据处理的思路,为雷达数据融合提供了一个新的方向。
  • 讨论了雷达数据处理的难点和解决方法。
  • 引入了BlackIn训练策略,实现了雷达与摄像机数据的融合。

我们证明在神经网络中雷达和相机数据的融合可以增加最先进的目标检测网络的检测分数。本文为进一步研究提供了多个领域的理由。由于雷达和相机数据的神经融合在文献中只是最近才被研究,寻找优化的网络结构需要进一步的探索。(应该算是写的比较客观的,干了三件事。并且说这是一个比较小众的研究领域,至于什么是neural fusion呢?感觉这里应该就是指融合网络)
未来,我们计划研究设计网络层,在融合之前对雷达数据进行处理,从而滤除雷达数据中的噪声。(作者还是对于毫米波雷达的噪声滤除念念不忘,看来确实是个令人头疼的问题)。与额外的传感器模式(如激光雷达数据)的融合可以进一步提高检测精度,同时增加了层数或引入新的设计概念的需求,从而增加了复杂性。神经融合方法对传感器时空同步偏差的鲁棒性研究有待于评价。(所以说在融合中,时空同步的问题就是一个大问题,起码在工程上面是)。我们看到,多模态神经融合在恶劣天气条件下驾驶的潜力越来越大。为了研究这个假设,需要创建更多的数据集来模拟这些条件。最后,因为雷达传感器将距离信息引入到检测方案中,融合概念对三维目标检测的适用性是我们想要探索的方向。
在硬件方面,高分辨率或成像雷达[38]有望增加雷达数据的信息密度,减少杂波数量。硬件的进步有望提高我们的方法的检测结果。(千呼万唤始出来,4D毫米波雷达,应该可以改变现在的自动驾驶传感器格局)
Felix Nobis首先提出了这篇论文的想法,并对其概念和内容做出了重要贡献。Maximilian Geisslinger和Markus Weber在研究项目中撰写了他们的硕士论文,并对本研究的概念、实施和实验结果做出了贡献。Johannes Betz批判性地修改了这篇论文。Markus Lienkamp对研究项目的概念做出了重要贡献。他对论文进行了批判性的修改以获取重要的知识内容。他最终批准了即将出版的版本,并同意了工作的所有方面。作为保证人,他对纸张的整体完整性承担责任。我们感谢大陆工程服务公司为基础研究项目提供资金,并为这项研究提供传感器硬件和指导。(在论文的最后进行说明本文的分工,而transformer一文是直接在第一页的作者介绍部分说明的)

你可能感兴趣的:(计算机视觉,深度学习,深度学习,目标检测,计算机视觉)