论文解读--CNN based Road User Detection using the 3D Radar Cube

摘要

本文提出了一种基于雷达的、单帧、多分类的移动道路用户(行人、自行车、汽车)检测方法,该方法利用低层级雷达立方体数据。该方法提供了雷达目标和对象级别的类信息。用三维雷达立方体的裁剪块在目标位置周围扩展目标特征后,对雷达目标进行单独分类,从而在局部速度分布中捕捉运动部件的运动。针对这一分类步骤,提出了卷积神经网络(CNN)。然后,通过聚类步骤生成目标建议,该聚类步骤不仅考虑了雷达目标的位置和速度,还考虑了它们计算出的类分数。

在现实生活数据集上的实验中,我们证明了我们的方法在目标和对象方面都优于最先进的方法,达到了平均0.70(基线:0.68)目标和0.56(基线:0.48)对象方面的F1-score。此外,我们检查了消融实验中使用的特征的重要性。

1.介绍

对于智能汽车,雷达是有吸引力的传感器,因为与相机和激光雷达传感器相比,它们对天气和照明条件(如雨、雪、黑暗)相对强大。雷达还具有良好的距离灵敏度,可以直接利用多普勒效应测量径向物体的速度。因此,它们被广泛应用于自适应巡航控制和碰撞前安全等应用。

市面上的雷达在每一帧(扫描)中输出一个被称为雷达目标的反射点云。每个雷达目标具有以下特征:距离r和方位角α,雷达截面RCS(即反射率),目标相对于自车的径向速度vr。我们将这些特性称为目标级。由于单个反射不能传递足够的信息来分割和分类整个目标,许多基于雷达的道路用户检测方法(例如[1],[2],[3])首先根据目标级特征对雷达目标进行聚类。然后根据衍生的统计特征(如所含雷达目标的r、vr、RCS的均值、方差)将聚类分类为一个整体,并为聚类中的所有雷达目标分配相同的类别标签。在这种流程中,目标分割和分类性能取决于初始聚类步骤的成功。

各种[4]、[5]、[6]方法使用从雷达早期信号处理阶段提取的低层级雷达立方体进行探索。雷达立方体是一个三维数据矩阵,其轴对应于距离、方位角和速度(也称为多普勒),单元格的值表示该距离/方位角/多普勒bin中的雷达反射率。与目标级数据相比,雷达立方体提供了多个二维距离-方位位置上的完整速度分布(即多普勒矢量)。这种分布可以捕捉物体的运动部件(如摆动的肢体或旋转的轮子)引起的主速度的调制,并被证明是对物体分类[4]、[5]的一个有价值的特征。通常,雷达立方体特征的计算方法是首先生成二维距离-方位角或距离-多普勒投影,或将投影的多普勒轴随时间的变化聚合为多普勒时间图像[6],[7]。我们将称来自3D立方体或其投影的特征为低层级的。这种低层级雷达数据的一个缺点是距离和方位角分辨率低于雷达目标,而且雷达相位模糊还没有解决,因为没有进行高级的距离插值和到达方向估计。

在本文中,我们提出了一种基于雷达的多类移动道路用户检测方法,该方法利用了目标级的专家知识(精确的二维定位、解决相位模糊),以及来自全三维雷达立方体的低层级信息,而不是二维投影。重要的是,包含低层级数据可以在任何对象聚类之前对单个雷达目标进行分类;后一步可以从获得的类分数中获益。我们的方法的核心是一个卷积神经网络(CNN),称为雷达目标分类网络,或简称RTCnet。关于我们的方法的输入(雷达目标和立方体)和输出(分类目标和目标建议)的概述,见图1。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第1张图片

 图1:我们提出的方法的输入(雷达立方体和雷达目标,上)、主处理块(RTCnet和目标聚类,左下)和输出(分类雷达目标和目标提议,右下)。分类雷达目标在传感器高度处显示为彩色球体。物体建议是可视化的凸包围绕聚集的目标在地面上2米。

该方法可以提供雷达目标级和对象级的类信息。目标级类标签对于中级操作的传感器融合很有价值,即处理每个对象[8],[9]的多个测量。我们的目标级分类比聚类分类更鲁棒,在聚类分类中,初始聚类步骤必须设法从不同的目标中分离出雷达目标,并将来自同一对象的目标保持在一起,见图2。我们的对象级类信息提供了同时进行分段和分类(对象检测)的实例,这对于高层级(即晚期)传感器融合很有价值。虽然传统的方法必须对所有类使用一组参数进行聚类,但我们的方法允许使用特定于类的聚类参数(例如,汽车的更大的对象半径)。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第2张图片图2:聚类分类方法中具有挑战性的案例。A: 对象可以聚集在一起(红色圆圈)。 B: 大型对象可以被分成几个集群。C: 只有一个反射的对象。雷达目标以点表示,用绿色/蓝色表示行人/汽车地面真实类。

 2.相关工作

以前一些关于雷达在汽车环境中的工作处理的是静态环境。[12]显示了基于神经网络的方法在静态实验设置中的初步结果,该方法从雷达立方体创建了精确的目标级信息。[13]用低层级数据创建占用网格。静态对象分类(例如停放的汽车、交通标志)已经用目标级[14]和低层级数据[15]显示。我们将只关注针对移动道路使用者的方法。

许多道路用户检测方法都是从将雷达目标聚类为一组对象建议开始的。在[1]中,雷达目标首先通过DBSCAN[16]聚类成对象。然后,提取一些聚类特征,如vr和r的方差/均值。在单类(行人)检测任务中比较各种分类器(随机森林、支持向量机(SVM)、一层神经网络等)的性能。[2]也使用DBSCAN计算的聚类作为多类(汽车、行人、行人组、骑自行车的人、卡车)检测的基础,但提取不同的特征,如α的偏差和扩散。在此基础上,比较了长短时记忆(LSTM)和随机森林分类器的分类效果。错误合并的集群(图2,A)被手动纠正,以专注于分类任务本身。同样的作者展示了一种方法[17],将数据的先验知识合并到聚类中。[18]还致力于使用多阶段方法改进聚类。[3]遵循[2]的聚类和分类工作,但在向后消除研究中进一步测试和排序聚类特征。

虽然基于聚类的方法被广泛使用,但经常注意到(例如[11],[17])聚类步骤容易出错。对象可能被错误地合并(图2,A)或分离(图2,B)。寻找合适的参数(例如半径和DBSCAN的最小点数)是具有挑战性的,因为所有类必须使用相同的参数,尽管它们具有显著不同的空间扩展和速度分布。例如,更大的半径有利于汽车,但可能错误地将行人和骑自行车的人融合在一起。基于聚类方法的另一个挑战是,小对象可能没有足够的反射(图2,C)来提取有意义的统计特征,例如方差。例如,[1]和[2]都有DBSCAN的最小点数来形成一个大于1的集群(MinPoints),这意味着单个站立点被丢弃。

为了应对这些挑战,有一种趋势是将每个目标单独分类,而不是按集群分类。受激光雷达或立体相机设置(例如pointnet++[19])上的点云语义分割网络所取得的结果的鼓舞,研究人员已尝试将相同的技术应用于雷达数据。然而,单一雷达扫描的输出过于稀疏。为了克服这个问题,他们使用了多个帧[11]或多个雷达传感器[20]。

低层级雷达数据已被用于道路使用者分类,特别是行人。例如,步行行人的多普勒时间图像包含一个步行步态特征模式[4],[5]。如果雷达传感器是静止的,这是有利的利用,例如在监视应用[21],[22],[7]。多普勒时间特征也用于汽车设置。[6]在0.5-2秒的距离-多普勒和多普勒-时间谱图上应用CNN-LSTM网络对行人、行人组、汽车和骑自行车的人进行分类。[10]指出长时间的多帧观测周期对于城市驾驶是不可行的,并提出了低层级数据的单帧使用。他们的方法仍然使用类似于[1]、[2]的DBSCAN生成目标建议,但在二维距离多普勒图像中提取每个簇对应的区域,然后使用传统的计算机视觉进行分类。在[23]中,完整的雷达立方体被用作CNN网络的多通道图像输入,以对汽车、行人和骑自行车的人进行分类。该研究仅针对单对象分类任务,即不获取位置。

综上所述,本文对基于雷达的道路用户检测问题进行了广泛的研究。表I给出了最相关的方法的概述,包括它们的分类基础(聚类或目标)、特征级别(目标或低)、分类类的数量,以及收集适当数量数据所需的时间窗口。没有一种方法能够避免易出错的聚类分类,并且在城市驾驶中具有较低的运行延迟(即一次或两次雷达扫描(75 - 150 ms))。

表1:最密切相关的方法概述。†:标记被选择为基线的方法。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第3张图片

 我们的主要贡献如下。1)提出了一种基于雷达的、单帧、多类别(行人、自行车、汽车)移动道路用户检测方法,该方法利用了特殊设计的CNN的目标级和低层级雷达数据。该方法通过类特定聚类提供分类雷达目标和目标建议。2)我们在一个大规模的现实世界数据集上表明,我们的方法能够检测道路用户,在目标(目标分类)和目标(目标检测)度量方面,仅使用一帧雷达数据,其性能都高于最先进的水平。

3.提出的方法

在本研究中,我们结合目标级(精确距离和方位角估计)和低层级数据(速度域更多信息)的优势,将雷达目标映射到雷达立方体中,并在所有三个维度(第3-A节)裁剪一个更小的块。RTCnet根据融合的低层级和目标级数据分别对每个目标进行分类。该网络由三部分组成(第3- b节)。第一种方法是在空间域(距离、子方位)对数据进行编码,掌握周围环境的多普勒分布。第二步应用于此输出,从速度分布中提取类信息。最后,第三部分通过两个完全连接层(FC)提供分类评分。输出可以是多类(每个类一个分数),也可以是二进制的。在后一种情况下,集成投票(第3-C节)步骤组合几个二进制分类器的结果,类似于[24]。特定于类的聚类步骤(即使用雷达目标的预测类信息)生成一个对象列表输出(第3-D节)。图3是我们方法的概述。我们的流程软件可以在我们的网站上找到。

A.预处理

首先,获取雷达目标的单帧和雷达立方体(低层级数据)的单帧。每个雷达目标的速度补偿自我运动类似于[2]。由于我们只处理移动的道路用户,雷达目标补偿(绝对)速度低被认为是静态的,并被过滤掉。然后,连接相应的目标级和低层级雷达数据。也就是说,我们查找每个剩余的动态雷达目标对应的距离/方位角/多普勒箱,即雷达立方体中的网格单元,基于它们报告的距离、方位角和(相对)速度(r, α, vr)。之后,雷达立方体的3D块被裁剪到每个雷达目标的网格单元周围,其半径为距离/方位角/多普勒尺寸(L, W, H)。参见图3中的“预处理”部分。

B.网络

RTCnet由三个模块组成,如图3所示。

1)下采样距离和方位角维度:第一部分的目的是将雷达目标空间邻域的多普勒分布编码为一个在距离和方位角上不扩展的张量。换句话说,它将1 × W × L × H大小的数据转换为C × 1 × 1 × H大小的张量(大小为信道×方位角×距离×多普勒),其中C被选为25。为此,它包含两个三维卷积(Conv),其内核大小为6×3×3×3和25×3×3×3(填充为1)。两个卷积层后面都有一个最大池化 (MP)层,其内核大小为6×2×2×1和25× 2×2×1,在空间维度上使用0填充向下采样。

2)过程多普勒维:网络的第二部分作用于第一部分的输出,第一部分是一个25 × 1 × 1 × H大小的张量。这个模块的目的是从目标周围的速度分布中提取类信息。为此,我们沿多普勒维度使用三个一维卷积,其核大小为7,输出通道大小为16,32,32。每个卷积之后都有一个最大池化层,其内核大小为3,步幅为2,将输入长度减半。该模块的输出是一个32 × 1 × 1 × H/8块。

3)分数计算:第二个模块的输出被压平并连接到目标级特征(r, α, vr, RCS),然后输入到第三个模块。我们使用两个完全连接的层,每个层有128个节点来提供分数。输出层有四个节点(每个类一个)用于多类分类,或两个用于二进制任务。在后一种情况下,采用集合投票,见下一小节。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第4张图片图3:我们的流程。每个雷达目标周围的块从雷达立方体中裁剪出来。RTCnet有三个部分。I.编码距离和方位角尺寸。2从速度分布中提取类信息。3提供基于II的分数。以及目标级别的特性。集成为每个雷达目标分配一个类别标签。特定于类的集群提供对象建议。

 C.集成分类

通过四个输出节点,可以训练第三个模块直接执行多类分类。我们还实现了一个二元分类器(带有两个输出节点的网络)的集成投票系统。也就是说,除了训练单一的多类网络外,我们还遵循[24],为每个类(例如car-vs-all)和对类(例如car-vs- bicycle)训练One-vs-All (一对多)和One-vs-One (一对一)二进制分类器,总共10个。最终的预测得分取决于所有二元模型的投票结果。一对一分数由相应一对多分数的总和加权,以达到更平衡的结果。尽管我们也尝试了集成基于自引导训练数据的多类分类器,但它产生了更糟糕的结果。

D.目标聚类

网络(或投票)的输出是每个目标的预测类标签。为了获得目标检测的方案,我们使用DBSCAN结合预测类别信息对分类雷达目标进行聚类,即对具有自行车/行人/汽车预测标签的雷达目标进行单独的聚类。作为度量,我们在x, y空间的欧氏距离上使用空间阈值γxy(二维笛卡尔空间位置),在速度维度上使用单独的速度阈值γv (Prophet[1],[18],[25])。单独群集每个类的优点是DBSCAN不需要通用参数集。相反,我们为每个类可以使用不同的参数,如更大的半径对汽车和小型的行人(图2,A和B)。此外,交换聚类和分类的步骤可以考虑对象和一个反射,如设置MinPoints为行人贴上一个雷达目标(图2,C)。一个可能的缺点是,如果一个对象的一个子集的倒影被误诊(如汽车与多个目标,大多数标记汽车和自行车),错误分类的目标(即骑自行车的那些)将错误地聚为一个单独的对象。为了解决这个问题,我们对生成的对象建议执行过滤,计算它们的空间、(径向)速度和类分数分布距离(分数被处理为4D向量,并在归一化后取其欧氏距离)。如果两个聚类具有不同的类别,并且在所有维度上都足够接近(参见V-B节中的参数),我们将较小的类合并到较大的类中(即行人到骑自行车者和汽车,骑自行车者到汽车),因为来自较大类别的聚类具有更多的雷达目标。

4.数据集

我们的真实世界数据集包含了在城市环境中驾驶我们的演示车[26]的约1小时。我们记录了我们的雷达的目标层级和低层级输出,一个大陆400系列安装在前保险杠后面。我们还记录了安装在挡风玻璃上的立体相机(1936 × 1216像素)的输出,以及自驾车的里程计(过滤过的位置和自驾车速度)。

使用在EuroCity Persons数据集[28]上训练的单镜头多盒探测器(SSD)[27]从相机传感器自动获取注释。通过将边界框投影到由半全局匹配算法(SGM)[29]计算的立体点云中,并取其中点的中值距离来估计距离。在第二次迭代中,我们手动更正了错误的标记,例如将骑车人注释为行人。训练集分别包含超过30/15/9 × 103个行人/自行车/汽车实例(一个对象可能出现在几帧上),见表II。图7为训练集中雷达目标的距离分布。为了进一步改进我们的训练数据集,我们通过镜像雷达帧并在归一化r和vr特征中添加一个零均值、0.05标准高斯噪声来增强数据。训练和测试集来自两次独立驾驶(33分钟和31分钟),在不同的日子和路线进行。验证集是训练数据集经过洗牌后的10%拆分。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第5张图片

表2:来自训练集中每个类的实例数。许多道路使用者只有一次雷达反射,这不足以提取有意义的统计特征。

 5.实验

在第一个实验中,我们使用目标度量来检验他们在分类任务中的表现,即true positive是一个正确的分类目标[11]。对于cluster-wise方法(基线),cluster的预测标签被分配给[11]之后的每个雷达目标。此外,我们还进行了消融研究,以了解不同的特征如何使我们的分类方法受益(括号中的适应性)。RTCnet(无集成)是一个单一的、多类的网络,用来观察集成是否有益。RTCnet(没有RCS)与RTCnet相同,但是去掉了RCS目标级特性,以检查其重要性。同样,在RTCnet(无速度)中,目标的绝对速度对网络来说是未知的,只有相对速度分布(在低级数据中)给出。最后,RTCnet(无底层)是一个经过显著修改的版本,因为它只使用目标级特性。即跳过第一和第二卷积部分,直接将雷达目标馈给第三全连通部分。注意,与RTCnet(无速度)相比,RTCnet(无低的级别)可以访问目标的绝对速度,但缺乏相对速度分布。第一个实验跳过了对象聚类。

在第二个实验中,我们比较了对象检测任务中的方法,检查了我们的整个流程,包括对象聚类步骤。通过计算目标数的交集和并集来比较预测和标注,如图4所示。一个真正的正数是一个带有注释对象的交集/并集(IoU)大于或等于0.5的预测。对同一基本真值对象的进一步检测被视为假阳性。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第6张图片

图4:我们的对象级度量的说明。十字路口和联合路口是由雷达目标的数量来定义的。IOU≥0.5视为真阳性。在这个例子中,有一个真实阳性的自行车手和一个假阳性的行人检测。

所有的结果都是在移动的雷达目标上测量的,以关注移动的道路使用者。

 A.基线

我们选择Schumann[2]作为基线,因为它是目前发现的唯一一种潜伏期小的多目标、多类检测方法,见表1。由于没有其他研究处理多类,我们选择Prophet[1]作为我们的第二个基线,这是一个单类行人检测器,但阴性训练和测试集包含汽车、狗和骑自行车的人。我们重新实现了他们的完整流程(DBSCAN聚类和聚类分类),并用我们的训练集训练他们的算法。最佳DBSCAN参数是传感器特定的(取决于密度、分辨率等),因此我们在两个基线的验证集上分别优化了空间维度γxy (0.5 m - 1.5 m,步长0.1 m)的阈值和速度γv (0.5 - 1.5 m/s,步长0.1 m/s)的阈值。我们使用与对象聚类中相同的度量。两个基线都具有描述集群中静态雷达目标数量的特征。我们还搜索了最佳速度阈值vmin(0−0.5 m/s,步长0.1 m/s),以定义这些静态雷达目标。所有报告的基线结果都是通过使用它们的最佳设置达到的,见表3。MinPoints设置为2,如Prophet[1](进一步增加将排除几乎所有行人,见表2)。在Schumann[2]中,作者使用手动校正的聚类(即分离被DBSCAN错误合并的对象)来专注于分类。我们没有纠正它们以检查现实生活中的应用可能性。我们为两个基线实现了一个随机森林分类器,其中包含50棵树,因为Prophet[1]报告说它最适合它们的特性。Schumann[2]也测试了LSTM,但使用了几个聚合帧作为输入。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第7张图片

 表3:优化了两个基线的DBSCAN参数,以及针对每个类的特定于类的集群。

B.执行

我们设置L = W = 5, H = 32作为裁剪块的大小。过滤静态物体的速度门限是一个传感器特定的参数,根据经验证据设置为0.3 m/s。表3显示了基线和特定于类的集群步骤的DBSCAN参数。在对象聚类过程中,合并集群的阈值设置为空间1米,分数0.6米,行人到自行车2米/秒,行人/自行车到汽车1.2米/秒。

我们将数据归一化为零均值,r、α、vr、RCS和整个雷达立方体的特征标准差为1。在使用从训练数据计算的推断值。我们使用PyTorch[30]进行交叉熵损失(softmax之后)的10个训练阶段的训练。在高端PC (Nvidia TITAN V GPU, Intel Xeon E5-1650 CPU, 64 GB RAM)上,包括所有移动雷达目标,10个二进制分类器和集成,推断时间为0.04 s。

C.结果

1)目标分类:我们将目标分类实验结果显示在表4中。每种方法给出了所有类的目标F1-Score及其宏观平均值。RTCnet优于两个集群基线,达到了0.70的平均F1-Score。Schumann[2]在骑行者上的结果略好于RTCnet (0.68 vs 0.67),但在行人(0.67 vs 0.71)和汽车(0.46)上的结果明显较差。vs 0.50)。消融研究表明,去除每个特征产生的结果比完整的流程更差,但没有反射率信息的管道(RTCnet(没有RCS))的平均值接近0.69。删除底层特性(RTCnet(没有底层))将性能显著降低到平均0.61。多类(单)网络RTCnet(无集成)在汽车类上优于基线,但在自行车类上表现较差。集合投票对所有职业都有显著的改善。所有道路使用者类别的正确和不正确目标分类示例见图5和图6。在图7中,我们展示了每个类别的分类性能(目标方面的F1-Score)如何随着距离(5米箱)的变化,以及训练集中雷达目标的数量。虽然大多数标注都在5 - 20米范围内,但该网络在超出这个距离的范围内表现良好,特别是对于较大的对象(自行车、汽车)。我们为每个道路用户类别训练了RTCnet和Schumann[2]的一对多分类器,并绘制了它们在接收器工作特征(ROC)曲线上的表现,如图8所示。对于Schumann[2],不同的阈值是cluster-wise的,对于RTCnet是target-wise的。我们的方法在所有类的曲线下都有更大的面积。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第8张图片

表4:每个类的目标F1-Score(最好用粗体表示)。RTCnet的平均表现优于基线。消融研究显示了集成和使用低层级数据的好处。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第9张图片

 图5:RTCnet正确分类雷达目标,投影到图像平面的实例。雷达目标上的行人/自行车/汽车标签用绿色/红色/蓝色标记。静态对象和其他类没有显示。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第10张图片

图6:RTCnet错误分类的雷达目标的例子,由:平面作为镜子和产生鬼目标(a),不寻常的车辆(b),部分错误分类的物体的反射(c),和附近的强反射(d)。 

论文解读--CNN based Road User Detection using the 3D Radar Cube_第11张图片

 图7:目标F1-Score(线)和训练集目标数量(条)与自车距离的函数关系。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第12张图片

 图8:本文方法与Schumann[2]方法得到的道路用户类别ROC曲线。每条曲线都是通过改变一对多二元分类器的决策阈值来计算的。

2)对象检测:我们第二个实验的结果如表5所示。RTCnet在骑自行车的人上的结果略差于Schumann [2] (0.59 vs 0.60),但在行人(0.61 vs 0.54)、汽车(0.47 vs 0.31)和平均(0.56 vs 0.48)上的结果显著优于它。图9显示了Schumann[2]和RTCnet如何处理图2中的两个真实案例。RTCnet的正确和错误目标检测示例如图10所示。在我们的网站上可以找到我们研究结果的视频链接。

表5:不同对象F1-Score(粗体显示的评分最好)。RTCnet的平均表现优于基线水平。 

论文解读--CNN based Road User Detection using the 3D Radar Cube_第13张图片

图9:在集群、照相机和俯视图方面都是具有挑战性的案例。DBSCAN错误地将汽车和公共汽车分开,但将行人合并成一个集群,使得Schumann[2](上)失败了。我们的方法(底部)成功地对雷达目标进行分类,并使用特定类参数正确聚类。黄色标记其他类。

 D.讨论

我们的方法在目标分类方面优于基线,主要有两个原因。首先,分类不依赖于聚类步骤。这减少了图2中所示情况的影响,并允许处理包含单个雷达目标的物体(一种常见的情况,特别是对行人,见表2)。其次,我们加入了低层级的雷达数据,它带来了雷达目标周围的速度分布信息。为了证明这种包含是有益的,我们证明了仅使用目标级数据和网络的第三个模块(RTCnet(没有低层级))会导致性能从0.70显著下降到0.61。我们也用RTCnet(无速度)研究了从数据中去除绝对速度的影响。当性能下降时,我们的网络仍然能够根据雷达目标周围的相对速度分布来对其进行分类。RTCnet(无低层级)和RTCnet(无速度)的结果证明了相对速度分布(即低层级雷达数据)确实包含有价值的类别信息。有趣的是,排除RCS值对性能没有显著影响。基于我们的实验,与使用单一的多类网络相比,一个二值分类器的集成导致了更少的类间误分类。

需要注意的是,即使是被遮挡的VRU(见图5a、5b、5g),也经常由于雷达[8]的多路径传播而被正确分类。这一点,以及它在黑暗/阴影/明亮环境中的统一性能,使雷达成为相机有用的补充传感器。典型误差如图6所示。雷达很容易被平面(如汽车的侧面)反射,就像镜子一样,产生幽灵目标。例如,在图6a中,我们的自车被反映出来,产生了几个假阳性。图6b是一个难以对道路使用者分类的例子。由于汽车和自行车的多普勒特征和反射率的相似性造成的混淆,见图6c。从图6d中可以看出,附近的强反射会误导分类器。由于我们的方法在聚类步骤中不丢弃单个目标,因此它必须比聚类的方法处理更多的噪声反射。然而,其他类的研究结果表明,它学会了忽视它们。

我们的网络和聚类步骤的结合在目标检测任务中优于基线方法。这主要是因为通过交换聚类和分类步骤,可以使用不同的参数聚类。这是我们的流程的一个显著优势,因为我们不是找到一组聚类参数来处理每个类,而是可以单独调整它们以适应每个类,见表3。这在行人和汽车类中特别有用,它们比基线中发现的最佳空间半径γxy = 1.2−1.3 m更小/更大。然而,这个半径很适合自行车,这使得Schumann[2]在目标水平和目标水平上都有良好的表现。图9显示了两个例子。DBSCAN错误地将汽车和公共汽车分成几个集群,但使用优化的参数将行人合并成一个集群,导致Schumann[2]失败。我们的方法成功地对每个雷达目标进行单独分类,并使用特定类别的聚类参数正确地聚类(即将车辆保持在一个聚类中,但将行人分开)。虽然我们在本文中使用了DBSCAN,但我们希望这种优势能够使用不同类型的聚类。在图10a中,我们显示了一个错误分类的雷达目标,可能反映在减速带上。由此产生的假阳性行人检测是将行人的M个值设置为1的权衡。如前所述,骑自行车的人和汽车经常感到困惑。如果有几个骑自行车的人并排骑车,见10a,因为他们的雷达特性(扩展、速度、反射率)是像汽车一样的。这两个错误通常只发生在一帧上,并且可以通过时间过滤和跟踪系统来减轻。

论文解读--CNN based Road User Detection using the 3D Radar Cube_第14张图片

图10:使用我们方法的正确和不正确的对象检测的例子。(a)中,一个错误分类的雷达目标,触发了行人假阳性检测;(b)中,可以检测到并排以相同速度行驶的自行车。

 6.结论和将来工作

本文提出了一种基于雷达的单帧、多类道路用户检测方法。利用雷达立方体对每个雷达目标周围的裁剪块和目标级特征,利用低层级雷达数据中的类信息。引入了一个集群步骤来创建对象建议。

在真实数据集上进行的大量实验中,我们表明,所提出的方法改进了目标分类的基线,达到平均F1-Score为0.70(相对于Schumann[2]是0.68)。此外,我们在消融研究中证明了低层级特征和集成的重要性。我们表明,所提出的方法在对象级分类中总体上优于基线,平均F1-Score为0.56(Schumann[2]是0.48)。

未来的工作可能包括一个更高级的对象聚类程序,例如,通过训练一个单独的网络头来编码DBSCAN的距离度量。对对象的时间集成和/或跟踪可以进一步提高该方法的性能和可用性。最后,扩展所提出的框架,以合并来自其他传感器模式(如照相机,激光雷达)的数据是值得的。

你可能感兴趣的:(论文解读,cnn,人工智能,深度学习)