A Multi-Stage Clustering Framework for Automotive Radar Data

摘要

雷达传感器提供了一种独特的方法来执行环境感知任务以实现自动驾驶。尤其是它们在恶劣天气条件下表现良好的能力通常使它们优于其他传感器,例如相机或激光雷达。然而,通常使用的检测数据水平的高稀疏性和低维度是后续信号处理的主要挑战。因此,通常合并数据点以形成更大的实体,从中可以收集更多信息。合并过程通常以聚类算法的形式实现。本文介绍了一种新颖的方法,该方法首先应用两阶段聚类方法先滤出静态背景数据。两阶段聚类遵循与数据关联本身的想法相同的范例:首先,将应属于低维参数空间的事物聚类,然后从新创建的聚类中提取其他特征以执行最终聚类步。参数已针对过滤和两个聚类步骤进行了优化。为了证明其有效性,对所有技术都进行了单独评估和整体评估。最终结果表明,前两种方法具有明显的好处,并且在特定情况下还可以进行群集合并过程。

一,引言

雷达感测是用于自动驾驶车辆的当前感测概念的组成部分。雷达能够在一次测量中从所有观察到的物体直接获得精确的径向(多普勒)速度的能力证明了这一点。它是唯一以单发方式提供此信息的汽车传感器,因此对于自适应巡航控制系统来说是必不可少的[1]。此外,最先进的汽车雷达传感器通常在76-81 GHz的频率范围内运行,这使其对恶劣的天气条件(如雾,雪或大雨)更加坚固。雷达的缺点是与其他传感器相比,其角分辨率较低。这导致相对稀疏的数据表示,尤其是对于远程对象。大多数感知任务的最终目标是语义实例分割,即必须如图1所示,对雷达数据中的对象实例进行标识和分类,以便确定哪些数据点组成了对象实例,静态雷达目标检测能够累积多个测量周期的数据以构建网格图,以弥补数据稀疏性[2]。识别移动道路用户的常用方法是利用聚类算法进行数据分组。一旦形成集群,可以从聚合数据点中提取的其他信息对于分类算法很有用,例如,在[3] – [7]中所示,并在图2中进行了总结。所提出的技术通常基于雷达传感器提供检测点。这些检测是恒定误报率(CFAR)检测器[8]的结果,该检测器仅返回超过自适应反射幅度阈值的那些反射点。尽管CFAR过滤无疑是一种将数据量减少到可管理水平的强大方法,但它也会返回许多与任何感兴趣的对象都不对应的反射。本文仅针对移动道路用户,因此在聚类之前过滤掉与静态对象相对应的检测是合理的。为此,本文提出了一种过滤概念,该概念依赖于检测的多普勒信息和空间密度来减少要聚类的数据点的数量。此外,详细阐述了两阶段聚类算法,包括对一些隐式决策的讨论,这些隐式决策通常在文献中被忽略。两阶段聚类由在第一阶段得到改进的普通聚类算法组成。在第二阶段中,使用领域知识合并来自阶段1的初步群集,以从包含在预群集数据点中的组合信息中提取其他功能。完整的处理链如图3所示。在广泛的汽车数据集上的两个步骤中对参数进行优化之后,可以确定检测过滤的明显优势,并且可以确定针对第一聚类步骤提出的改进措施。第二集群合并步骤仅在某些条件下是有利的,这也将被讨论。

本文的组织方式如下:在第二节中,讨论了基本的群集概念和相关工作。第三节介绍了如何设计数据过滤和聚类算法以及如何实现参数优化。在第四节中描述和评估了所有单独处理步骤的实验。第五节总结了本主题,并给出了未来工作的前景。

A Multi-Stage Clustering Framework for Automotive Radar Data_第1张图片A Multi-Stage Clustering Framework for Automotive Radar Data_第2张图片

A Multi-Stage Clustering Framework for Automotive Radar Data_第3张图片

二。相关工作

雷达数据关联是一项艰巨的任务。原因之一是雷达反射点是随机过程的产物,这使得很难定义绝对距离或密度标准。当使用聚类算法对雷达场景进行分割时,技术范围很广。该算法需要满足一定的速度标准,必须不限制生成的簇实例的最大数量,并且必须应对相关检测之间的密度变化和近距离杂波。DBSCAN算法[9]是一种快速而优雅的方法,已被从事雷达数据工作的数据科学家所广泛接受。图4给出了该算法的工作模式的简短示例。实质上,对于搜索空间中的每个点,使用适当的距离度量来确定附近邻居的数量。邻域由多维最大阈值定义。如果点的邻居数最少为Nmin,则会创建一个聚类。相应的数据样本称为核心点。属于核心点-区域内的所有点都将添加到群集中。如果将样本添加到本身不是核心点的群集中,则称为密度可达。其余样本归为噪声。

许多作者对DBSCAN算法进行了修改,以利用它对雷达数据进行聚类。在[10]中,显示了如何在DBSCAN算法中包含雷达的辐射传播和采样密度的相应变化。在[3]中提出了另一种雷达聚类方法,其中通过在x / y / vr网格中投影数据简化了问题。在该文章中,将过滤掉绝对阈值以下0.1 m的数据。在[11]中,该概念得到了进一步完善,其中将时间维添加到数据网格中,并使用不同距离-速度区域上的参数优化来生成几组聚类系数。此外,作者建议不要将其以低的径向速度滤掉,而根本不能将其作为核心点。
他们还研究了分层的DBSCAN变体[12],但发现其性能不如原始算法。与以前的作者相反,在[6]中有人认为,多普勒速度的变化通常太大,无法用作聚类标准。在[13]中提出了另一种汽车雷达聚类方法,其中信号的功率电平用于计算空间和多普勒维数上的更精确距离。由于该方法需要访问比检测更高的数据级别,因此无法在此使用此方法。

在本文中,将基于x / y / vr / t网格使用不同的距离度量来评估DBSCAN算法。假设单个固定集就足够,就可以优化各个参数维的Epsilon值。同样,现实世界中道路使用者的范围预计将保持在相似的值范围内。为了启用静态ε值,使用与范围相关的Nmin值来抵消光束扩散。将聚类过程分为两个单独的DBSCAN步骤,应放宽对聚类算法的要求,以至可以从第一个聚类结果中提取其他信息。然后,额外的信息将用于合并在单步群集中需要大量参数化的群集。此外,提出了重要的预处理步骤,用于合并来自多个传感器扫描的数据并过滤掉不必要的数据。

三,方法

如上所述,建议的框架由三个组件组成,本节分别讨论:

1)检测过滤2)点聚类3)聚类合并

聚类方法的定义以及目标(或得分)功能的定义。

A.检测过滤

在初始步骤中,将对检测进行过滤。此过程有两个目的:首先,当输入点数量减少时,可以加快后续处理步骤。在使用经济高效的过滤程序的情况下,这可以节省大量时间。过滤的第二个优点是,靠近目标对象的不良检测可能会损害聚类算法的性能。通过删除许多点,可以更自由地选择聚类参数。

所提出的滤波方法背后的主要思想如下:在运动中的道路使用者,由于其速度使其与静止物体区分开来,因此在CFAR检测器后保留多次反射的可能性很高。朝单个传感器的横向运动可能会导致微小的多普勒速度。测试车辆使用多个分布式雷达传感器,这些传感器保留了这些运动的径向分量。因此,有两个属性可以用作过滤算法的决策标准:多普勒速度和检测密度。应该注意的是,这两个标准都不足以做出关于检测到感兴趣对象的成员资格的艰难选择。因此,确定径向速度vr以及每个点周围的空间距离和时间距离dxy和∆t中的相邻点N(dxy,Δt)的数量,并将其用作组合评估因子。邻居数量越少,一个点的径向速度就需要越高。在随后的步骤中,将Δt设置为与时间窗口相对应的0.25 s固定值时,可以调整dxy以最大化滤波器的性能。当满足以下条件时,将滤除检测结果: 

\begin{aligned} N\left(d_{x y}\right)<1 \vee\left(v_{r}<\eta_{v_{r, i}} \wedge N(d)<\mathbf{N}_{i}\right) & \forall i \in\{1, \ldots, 4\} \\ \text { with } \eta_{v_{r}, 1}=5 \cdot \eta_{v_{r, 2}}=10 \cdot \eta_{v_{r, 3}}=50 \cdot \eta_{v_{r, d}} &(1) \\ \text { and } \mathbf{N}=(2,3,4,10) \end{aligned}

经验地选择了ηvr和N的阈值比率,以便将调整参数的数量减少到仅两个。在优化期间,准则是消除尽可能多的点而不删除相关的点,即属于感兴趣对象的检测。给定方程式中的固定评估指标。如图1所示,阈值ηvr,1和dxy的值可以通过允许每簇固定数量的错误去除的检测来估计。为了在行驶中的道路用户上保留大量检测,可以对参数进行调整,以在任何给定时间范围内,每个群集最多可错误删除20%的检测。这确保了在任何给定时间,后续处理步骤都具有足够的检测次数来识别道路使用者。为了确定不同时间步长的雷达检测点之间的距离,所有点都需要共享参考。融合来自不同汽车传感器的传感数据的常用方法是将所有数据转换为固定坐标系,其原点位于车辆的旋转中心(通常是后轴的中间)。相应的坐标系称为汽车坐标系(CCS)。为了将传感器数据转换为CCS,相对于CCS的相对安装位置和方向足以确定固定的转换矩阵。当使用时间数据时,变换会更加复杂,除非可以假设自我交通工具在一个时间范围内没有移动太多。如果不是这种情况,则通用坐标系需要在所考虑的帧的所有时间步中,将自我车辆的偏移量纳入空间位置和方向。从理论上讲,最终的帧坐标系(FCS)优于简单的CCS处理。为了也确保实际相关性,将在每个坐标系中检查滤波和第一步聚类步骤。

B.点聚类

实际的检测聚类过程如下。在此步骤中,通过利用DBSCAN算法的略微修改版本,可以关联过滤处理之后剩余的雷达点。与常规DBSCAN的主要区别在于形成簇核心点所需的最小点数Nmin(r)的自适应数量,其中r是范围,即检测和传感器之间的距离。这种调整是基于以下事实:由于[10]中讨论的与范围无关的角度分辨率,远程对象的最大可能反射次数较小。由于道路使用者的身体范围不会改变,因此本文仅利用最小点属性来说明远程对象:

N_{\min }(r)=N_{\min , 50 \mathrm{m}} \cdot\left(1+| \alpha_{r} \cdot\left(\frac{\operatorname{clip}(r, 25 \mathrm{m}, 125 \mathrm{m})}{50 \mathrm{m}}-1\right)\right)

等式2具有两个调谐参数:Nmin,50 m和αr,它们表示50 m处的最小点基线和倒数关系的斜率。为了避免Nmin(r)的数值过低或过高,范围r会被裁剪为25 m至125 m之间的值。

此外,根据[11],只有超过某个径向速度阈值vr> vr,min的检测才能成为核心点。

在此步骤中要解决的主要问题是距离度量或邻域标准的选择。点聚类的四个考虑变量是:多普勒速度,时间,x范围和y范围。由于振幅甚至在单个物体上也经常具有非常高的变化,因此可以忽略不计。对于本文,已检查了三个邻域标准。他们都将时间t视为一个独立变量,即始终要求∆t小于或等于其相应的阈值t。从本质上讲,这与用于实时处理的滑动窗口具有相同的效果。同样,第一个邻域准则将所有四个变量的差Δ·组合在一起:

\Delta x<\epsilon_{x} \wedge \Delta y<\epsilon_{y} \wedge \Delta v_{r}<\epsilon_{v_{r}} \wedge \Delta t<\epsilon_{t}

根据[11],空间阈值设置为相同的值x = y = xy,以提高旋转对象的稳定性。此方法用作其他变体的基准。第二种方法旨在通过利用空间分量的欧几里得距离来实现完全旋转不变性: 

\sqrt{\Delta x^{2}+\Delta y^{2}}<\epsilon_{x y} \wedge \Delta v_{r}<\epsilon_{v_{r}} \wedge \Delta t<\epsilon_{t}

原则上,允许比近距离检测更高的速度偏移用于近距离检测,反之亦然。因此,第三个标准在单个欧几里得距离中组合了空间成分和径向速度: 

\sqrt{\Delta x^{2}+\Delta y^{2}+\frac{1}{\epsilon_{v_{r}}^{\prime 2}} \cdot \Delta v_{r}^{2}}<\epsilon_{x y v_{r}} \wedge \Delta t<\epsilon_{t}

在这种情况下,0vr和xyvr与Eqs中的vr和xy具有相同的缩放效果。3和4。但是,它们不再代表绝对最大速度或空间距离阈值。与例如将所有值归一化到相同范围相比,vr的缩放可提供更好的调整能力。由于如上所述的实时处理约束,时间t不包括在欧几里得距离中。而且,t对从雷达累积的点的数量有很大的影响,即,调谐Nmin也将需要考虑传感器周期。


C.集群合并

在第二个聚类步骤中,仅考虑在上一步中已分配了聚类标签的那些点。此步骤的关键思想是,群集所包含的信息要比其自身的单独检测要多。因此,群集合并是基于与第一个群集步骤不同的DBSCAN参数。具体来说,目标是计算有关群集移动速度和方向的信息。为此,我们将简要讨论和研究两个概念: 

a)目标速度估计:根据定义,径向速度始终径向指向测量雷达传感器。实际速度矢量的长度和方向是未知的。为了估计实际物体的速度,必须使用属于同一物体的多次检测。对于刚性物体,理论上两个检测可以在不同的方位角进行,也可以由两个不同的传感器捕获。但是实际上,使用其他检测可以找到更稳定的解决方案。

在[14]中,提出了一种用于实物速度估计的系统。该系统利用异常值过滤算法来消除错误的检测。然后,解决了一个优化问题,该问题为感兴趣的对象生成了单个速度矢量。此概念适用于上一节中估计的聚类。因此,第二个聚类步骤的邻域标准公式为:

d_{\min }<\epsilon_{d} \wedge \Delta \phi<\epsilon_{\phi} \wedge \Delta v<\epsilon_{v} \wedge \Delta t<\epsilon_{t 2}

其中dmin是在观察到的时间范围内相应簇的两个最接近检测成员之间的欧几里得距离,由\epsilont2定义。∆φ和∆v分别表示速度方向和大小的差异。

b)空间聚类的延续:不用依赖于径向速度的分布,而是可以通过考虑空间检测分布的时间进程来获得附加信息。为此,基于平均x / y坐标为每个给定的时间步长计算空间聚类中心。然后,通过先对簇中心的时间分布应用移动平均滤波器来拟合平滑轨迹,然后再使用三次(如果不可能三次,则使用线性)样条插值。样条曲线用于以更高的速率对轨迹进行重采样。
然后,重新采样的轨迹的梯度用作速度近似值,用于基于连续性假设来预测未来的聚类中心。此方法的邻域标准定义为: 

d_{\text {pred, min }}<\epsilon_{d} \wedge \Delta v<\epsilon_{v} \wedge \Delta t<\epsilon_{t 2}

dpred是两个比较的群集的预测中心的欧几里得距离。该值是在时间范围t2的开始,中间和结束的三个固定时间计算的。仅使用这三个样本的最小距离。以相同的方式,估计了∆v的预测速度偏移。

D.参数优化

对于聚类步骤1和2中的所有度量变量,使用贝叶斯优化[15]优化阈值和缩放参数。贝叶斯优化是一种无导数优化策略,旨在找到使代理函数输出最大化的最佳参数集。代理的构建类似于对象功能,该功能未知且采样昂贵。优化分为两个部分:在探索阶段,对参数空间进行了有希望的区域测试。然后,在开发过程中将更仔细地检查这些区域。为了优化聚类过程,需要对结果评分使用评分功能。

需要得分函数来奖励与标记的地面真相相似的星团形成。具体而言,为每个道路用户实例形成一个显式群集很重要,该实例应包含尽可能多的相关点。但是,也有必要在对象的一端停止聚类,即不要合并来自不同道路用户的聚类,也不要将周围背景的检测结果添加到感兴趣的聚类中。雷达场景中的大多数数据点将是背景检测。对于那些检测,完全不形成簇是有益的。随着随后的分类阶段逐渐将道路使用者与无关的集群形成区分开来,以其他(更相关的)集群为代价来防止这些集群并不是至关重要的。对于本文,V度量[16]被选为合适的评分函数,因为它结合了几个已命名的要求。V量度是基于两个直观聚类标准(同质性和完整性)的综合得分。当预测聚类仅包含来自单个地面真实聚类的点时,同质性最大。与此相反,完整性旨在将来自单个地面真相群集的所有点分配到单个群集预测中。两者都基于给定地面实况集群C的预测集群K的条件熵,反之亦然:

\begin{aligned} \text { Homogeneity } &=1-\frac{H(C | K)}{H(C)} \\ \text { Completeness } &=1-\frac{H(K | C)}{H(K)} \\ \text { with } \quad H(A | B) &=-\sum_{a \in A} \sum_{b \in B} \frac{n_{a, b}}{n} \cdot \log \frac{n_{a, b}}{n_{b}} \\ \text { and } & H(A)=-\sum_{a \in A} \frac{n_{a}}{n} \cdot \log \frac{n_{a}}{n} \end{aligned}

H(A)和H(A | B)分别表示熵和条件熵。A和B可以按要求的顺序替换C和K以匹配方程式。在图8和图9中,n是样本总数,na和na,b是同时属于a的样本数,或者是a和b。V度量V1是均匀性和完整性的调和平均值:

 V_{1}=2 \cdot \frac{\text { Homogeneity } \cdot \text { Completeness }}{\text { Homogeneity }+\text { Completeness }}

为了抑制创建背景簇的惩罚,完整性分数的计算假定在地面真实情况下属于标记对象的检测结果完全匹配。通过这种调整,得分的目标与汽车雷达群集的要求十分相似。与文献中提出的其他变体相比,它具有在不同评分结果中具有更好的可比性的优势。特别是在群集中的一个或两个拆分优于大量高估的群集边界的情况下,V度量被证明是有益的。有关分数的更多详细信息,请参阅原始出版物。

每个步骤分别进行贝叶斯优化,每个实验最多进行100次迭代(探索30次,利用70次)。早期的实验表明,优化器很难同时为两个步骤找到合适的参数。由于中间结果对于组合的两步优化几乎不可重复使用,因此由于增加的计算复杂性而进一步加剧了该问题。

IV。实验与结果

在本节中,将评估各个方法并报告优化的参数设置。所有实验均基于真实世界的数据集,其中包括对1000多个运动中的道路用户的大约一百万个检测点。传感器规格可在[5]或[7]中找到。数据集分为两个几乎相等大小的不相交的部分,一个用于参数估计(训练集),另一个用于评估(测试集)。报告的分数基于测试集。对于这两个聚类步骤,最终分数被报告为V1分数。

A.过滤结果

对于滤波参数估计,对合理范围内的所有阈值组合执行完整的枚举。对于\eta _{v_r,1}搜索空间的范围从0.05 ms^{-1}到0.35 ms^{-1},对于dxy的范围从0.8 m到2.0 m。过滤的主要目的是消除尽可能多的不相关检测。但是,更重要的是不要因过滤而损害以下处理步骤的性能。因此,Tab描述了在150 ms的整个时间范围内,真实世界的对象没有保留至少75%的检测次数的次数。根据[5]中的特征提取时间范围选择时间范围。此处至少150毫秒内未出现在数据中的对象被忽略。这些对象很可能位于视野的边缘,并且即将进入或退出。尽管此标准会导致某些错误的清除,但比起基于整个对象序列的1%固定阈值,它更适合确保潜在地识别对象。

 

 


 

 

你可能感兴趣的:(论文手册学习,python,算法相关)