目录
概要
Motivation
整体架构流程
技术细节
Base Detector
Tracking
Track-Centric Learning
小结
论文地址:[2304.12315] Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection (arxiv.org)
代码地址:GitHub - tusen-ai/SST: Codes for “Fully Sparse 3D Object Detection” & “Embracing Single Stride 3D Object Detector with Sparse Transformer”
该论文旨在实现高性能的基于离线 LiDAR 的 3D 目标检测。通常经验丰富的人工注释者以轨道为中心的角度注释对象,先在轨迹中标记形状清晰的对象,然后利用时间相干性来推断模糊对象的注释。受此启发,作者提出了一种以轨道为中心的的高性能离线检测器,而不是传统的以对象为中心的视角。该方法具有双向跟踪模块和以轨道为中心的学习模块。这样的设计允许检测器在某个时刻检测到对象后推断和细化一个完整的轨道。此特征被命名为“onCe detected, neveR Lost”,将提议的系统 CTRL 命名为名称,即使检测到的物体在某些时间步骤中没有足够的点云数据,也可以利用该物体的时间序列信息来推断其位置和姿态,从而提高目标检测的准确性。
方案的关键是跟踪一个物体的时间序列,并将其表示为一个轨迹。该轨迹包含了该物体在不同时间步骤中的位置和姿态信息,可以用来提高目标检测的性能。具体来说,提出了一个高效的跟踪模块和一个跟踪特征提取模块来提高跟踪的准确性和效率。
大量的实验表明,该方法在竞争激烈的Waymo开放数据集中,在没有模型集成的情况下,超过了人类水平的注释精度和之前最先进的方法。
运动状态对所有轨迹进行分区,并分别为动态轨迹和静态轨迹设计了两种不同的管道。一方面,这样的分区减少了训练数据的多样性,从而阻碍了泛化。另一方面,一些类别可能具有不稳定的运动状态,例如行人。
在Immortal track中过早的终止tracklet是导致id switch现象的主要原因。
CTRL的整体架构。
使用FSD模型做为base detector,在其基础上做了一些改进:作为线下系统,在使用多帧策略的时候添加了未来帧的信息。为了想不增加计算复杂度的同时获取更长时间段的信息,使用了frame-skipping的策略。即隔一帧,添加一帧。为了防止过拟合,使用frame dropout strategy,有一半的frame会有20%的几率被dropout。
(PS:也可以用任何的其他检测器,或者多模型做ensemble)
Tracking 模块采用了 Immotal Tracker, 并且做了forward tracking 和 backward tracking, 然后再将正反匹配的两次轨迹去重和组合,这个地方的核心目的是尽可能得到完整的连续轨迹。
在Immortal track中发现过早的终止tracklet是早成id switch现象的主要原因,因此提出了Immortal track,即解除了tracker的生存周期的限制。即使kf连续匹配不到观测,仍然保留kf。这样可以使一些由于遮挡导致track id变化的两条或多条track重新连接成一条tracklet。对与kf的生存周期,发现延长max_age的值可以不断减少mismatch,因此可直接设置成immotal track,而且从整体实验结果来看也并没有降低mota,motp的指标。对于初始化kalman filter,论文有考虑增加一些限制,以减少fp也会生成kf的造成的影响。
Track-Centric Learning 是这篇论文的核心,和前作相比,有三个核心点:
(该内容来自:数据闭环的核心 - Auto-labeling 方案分享 V2.0 - 知乎 (zhihu.com))
这篇文章旨在验证一个人类注释行为的学科假设,即人类注释员在标注过程中通常利用对象的时间运动信息来实现精确的标注。基于人类注释者的行为,提出了一个离线检测系统 CTRL,遵循“以轨道为中心”和“一旦检测到,永远不会丢失”。CTRL 提高了自动标记的性能。单模型 CTRL 优于之前最先进的离线检测器和所有在线检测器。值得强调的是,在数百万辆车中,CTRL 只会完全遗漏 0.48% 的车辆。结果表明,在这些情况下,该方法甚至超过了Waymo人工注释者提供的真实准确性。该方法简单干净,大大简化了工作流程,减少了现有离线框架的资源需求。
这篇论文提出了一种新的离线3D目标检测系统,该系统采用了一种跟踪中心的设计,并具有一个基于跟踪的检测模块和一个跟踪中心的学习模块。该方法能够在不使用测试时增强和模型集成的情况下,轻松地超过人类标注员的性能,并在高端使用情况下甚至超过了人类标注员的准确性。此外,该方法还提出了一种新的跟踪中心的标注方法,能够有效地解决目标检测中的标注歧义问题。