77wpa

点云 3D 目标跟踪 - AB3DMOT（IROS 2020, ECCVW 2020）

摘要
1. 引言
2. 相关工作
3. 方法
- A. 3D目标检测
- B. 3D卡尔曼滤波器：状态预测
- C. 数据关联
- D. 3D卡尔曼滤波器：状态更新
- E. 出生和废弃记录
4. 新型3D MOT评估工具
5. 新的MOT评估指标
- A. CLEAR指标的限制
- B. 积分指标：AMOTA和AMOTP
- C. 缩放精度度量：sAMOTA
6. 实验
- A. 设置
- B. 实验结果
- C. 消融研究
7. 结论
REFERENCES
参考资料

声明：此翻译仅为个人学习记录

文章信息

标题1：3D Multi-Object Tracking: A Baseline and New Evaluation Metrics (IROS 2020)

链接1：https://arxiv.org/pdf/1907.03961.pdf

标题2：AB3DMOT: A Baseline for 3D Multi-Object Tracking and New Evaluation Metrics (ECCVW 2020)

链接2：https://arxiv.org/pdf/2008.08063.pdf

作者：Xinshuo Weng, Jianren Wang, David Held and Kris Kitani

文章代码：https://github.com/xinshuoweng/AB3DMOT

摘要

3D多目标跟踪（MOT）是自动驾驶和辅助机器人等许多应用的重要组成部分。最近关于3D MOT的工作侧重于开发精确的系统，而不太注重实际考虑，例如计算成本和系统复杂性。相比之下，这项工作提出了一个简单的实时3D MOT系统。我们的系统首先从LiDAR点云获得3D检测。然后，使用3D卡尔曼滤波器和匈牙利算法的直接组合进行状态估计和数据关联。此外，3D MOT数据集（如KITTI）评估2D空间中的MOT方法，标准化的3D MOT评估工具缺失，无法公平比较3D MOT方法。因此，我们提出了一种新的3D MOT评估工具以及三种新的指标，以全面评估3D MOT方法。我们表明，尽管我们的系统采用了经典MOT模块的组合，但我们在两个3D MOT基准（KITTI和nuScenes）上实现了最先进的3D MOT性能。令人惊讶的是，尽管我们的系统不使用任何2D数据作为输入，但我们在KITTI 2D MOT排行榜上取得了竞争性的表现。我们提出的系统在KITTI数据集上以207.4 FPS的速度运行，在所有现代MOT系统中实现了最快的速度。为了鼓励标准化3D MOT评估，我们的系统和评估代码在https://github.com/xinshuoweng/AB3DMOT。

1. 引言

MOT是许多实时应用的重要组件，如自动驾驶[1]、[2]和辅助机器人[3]、[4]。由于目标检测的进步[5]–[8]，MOT取得了很大进展。例如，对于KITTI[9]2D MOT基准上的汽车类别，MOTA（多目标跟踪精度）在短短两年内从57.03[10]提高到84.04[11]！虽然我们对这一进展感到鼓舞，但我们发现，我们对创新和准确性的关注是以计算效率和系统简单性等实际因素为代价的。最先进的方法通常需要大量的计算成本[12]-[15]，这使得实时性能成为一个挑战。此外，现代MOT系统通常非常复杂，并不总是清楚系统的哪个部分对性能贡献最大。例如，领先的作品[14]–[16]具有实质上不同的系统管线，但性能上只有微小的差异。在这些情况下，模块化比较分析非常具有挑战性。

为了为比较分析提供标准的3D MOT基线，我们采用了一种设计高效且简单的经典方法——卡尔曼滤波器[17]（1960年）和匈牙利方法[18]（1955年）。具体而言，我们的系统使用现成的3D目标检测器从LiDAR点云获得3D检测[6]。然后，使用3D卡尔曼滤波器（具有恒定速度模型）和匈牙利算法的组合进行状态估计和数据关联。与在2D空间[19]或鸟瞰图[20]中定义滤波器状态空间的其他基于滤波器的MOT系统不同，我们将目标的状态空间扩展到3D空间，包括3D位置、3D大小、3D速度和航向方向。

图1. KITTI 2D MOT排行榜上现代2D和3D MOT系统的MOTA。越高越右越好。我们的3D MOT系统在2D MOT评估中实现了具有竞争力的MOTA，同时速度最快。

我们的实证结果令人担忧。虽然我们系统中的模块组合很简单，但我们在标准3D MOT数据集上实现了最先进的3D MOT性能：KITTI和nuScenes。令人惊讶的是，尽管我们的系统不使用任何2D数据作为输入，但我们在KITTI 2D MOT排行榜上也取得了竞争性的表现，如图1所示。我们假设，我们的3D MOT系统的强大2D MOT性能可能是因为3D中的跟踪比2D中的跟踪能够更好地解决深度模糊，并导致更少的失配。此外，由于我们系统的高效设计，它在KITTI数据集上以207.4 FPS的速度运行，实现了现代MOT系统中最快的速度。很明显，这项工作的贡献不是创新3D MOT算法，而是与最基本但最强大的基线相比，提供了现代3D MOT系统的更清晰的画面，其结果在整个社区都很重要。

除了3D MOT系统，我们还观察到了3D MOT评估中的两个问题：（1）标准MOT基准（如KITTI数据集）仅支持2D MOT评估，即图像平面上的评估。目前还没有在三维空间中评估3D MOT系统的工具。在KITTI数据集上，评估3D MOT方法的惯例是将3D MOT结果投影到图像平面，然后使用KITTI 2D MOT评估工具。然而，我们认为，这将阻碍3D MOT系统的未来进展，因为在图像平面上的评估不能提供3D MOT方法的公平比较，例如，在3D中实现更好跟踪的系统不一定在2D MOT评估中具有更高的性能。为了克服这个问题，我们提出了一种MOT评估工具，该工具使用3D度量直接评估3D空间中的MOT系统；（2） MOTA和MOTP等常用MOT度量不考虑被跟踪目标的置信度得分。因此，用户必须手动选择阈值，并筛选出分数较低的跟踪目标。然而，选择最佳阈值需要付出不小的努力。此外，单一阈值的评估使我们无法了解MOT系统的全部精度和精度。为了解决这个问题，我们提出了三个新的积分度量来总结MOT方法在多个阈值上的性能。我们希望我们的新评估工具（包括度量）将作为未来3D MOT评估的标准。我们的贡献总结如下：

1）我们提出了一种用于在线应用的基于3D卡尔曼滤波器的精确实时3D MOT系统；

2）我们提出了一种新的3D MOT评估工具以及三种新的度量标准，以标准化3D MOT评价；

3）我们的3D MOT系统在标准3D MOT数据集上实现了S.O.T.A.性能和最快速度。

2. 相关工作

2D多目标跟踪。最近的2D MOT系统可以基于数据关联分为批处理和在线方法。批处理方法试图从整个序列中找到全局最优关联。这些方法通常创建网络流图，并可以通过最小成本流算法[21]、[22]来解决。相比之下，在线方法只需要当前帧的信息，并且适用于在线应用。在线方法通常将数据关联表述为二分图匹配问题，并使用匈牙利算法解决[18]，[19]。除了使用匈牙利算法，现代在线方法还设计了深度关联网络[15]，[23]，可以使用神经网络构建关联。我们提出的系统属于在线方法的范畴。为了简单设计和实时效率，我们不使用神经网络，只采用匈牙利算法。

为了实现数据关联，设计适当的成本函数来度量相似性对于MOT系统至关重要。早期的工作[21]，[24]采用手工制作的特征，如空间距离和颜色直方图作为成本函数。现代方法通常使用运动模型[19]、[25]、[26]和外观特征[25]、[7]、[28]。为了简化系统，我们只使用最简单的运动模型，即恒定速度，而不使用任何外观提示。

3D多目标跟踪。3D MOT系统通常与2D MOT系统共享相同的组件。区别在于输入检测在3D空间而不是图像平面中。因此，3D MOT系统可以在没有透视失真的情况下获得3D空间中的运动和外观信息。[16] 建议将目标到相机的距离及其在3D空间中的速度估计为运动线索。[20] 使用无迹卡尔曼滤波器估计地面上的线速度和角速度。[29]提出了一种2D-3D卡尔曼滤波器，以利用来自图像和3D世界的观测。除了使用手工制作的特征，[23]、[30]–[32]还使用神经网络从数据中学习3D外观和运动特征。与先前的工作使用各种3D特征和复杂的系统不同，为了简单和高效，我们仅使用3D卡尔曼滤波器来获得3D运动提示，并将滤波器的状态空间扩展到包括3D位置、3D速度、3D大小和航向方向在内的全3D域。

3. 方法

3D MOT的目标是在序列中关联3D检测。由于我们的系统是一个在线MOT系统，在每个时间戳，我们只需要在当前帧中进行检测，并从先前帧中获取相关轨迹。我们的系统管线如图2所示：（A）使用3D检测模块从LiDAR点云获得3D检测；（B） 3D卡尔曼滤波器预测从先前帧到当前帧的关联轨迹的状态；（C）数据关联模块匹配来自卡尔曼滤波器的预测轨迹和当前帧中的检测；（D） 3D卡尔曼滤波器基于匹配检测更新匹配轨迹的状态；（E）出生和废弃记忆创建新目标的轨迹，并删除消失目标的轨迹。除了预先训练的3D检测模块，我们的3D MOT系统不需要任何训练，可以直接用于推理。

A. 3D目标检测

由于3D目标检测的进步，我们可以获得高质量的检测。在这里，我们在KITTI上使用[6]、[33]和在NuScene上使用[34]进行实验。我们直接在相应的数据集上使用他们的预训练模型。在帧t中，3D检测模块的输出是一组检测 $D_t＝\{D_t^1,D_t^2,···,D_t^{nt}\}$ （nt是检测次数）。每个检测Dtj，其中j∈{1，2，··，n_t}，表示为一个元组（x，y，z，θ，l，w，h，s），包括目标中心在3D空间中的位置（x，y，z），目标的3D尺寸（l，w，h），航向角θ和置信分数s。我们将在实验中展示不同的3D检测模块如何影响我们的3D MOT系统的性能。

B. 3D卡尔曼滤波器：状态预测

为了预测从前一帧到当前帧的目标轨迹状态，我们使用与相机自我运动无关的恒定速度模型来近似目标的帧间位移。这意味着我们不明确地估计自我运动，而是依靠我们的运动模型来适应自我运动和其他目标的运动。我们将目标轨迹的状态表示为11维向量T=（x，y，z，θ，l，w，h，s，v_x，v_y，v_z），其中附加变量v_x，v_y，v_z表示三维空间中的目标速度。注意，为了简单起见，我们没有在状态空间中包括角速度v_θ，因为我们经验发现，包括角速度并不能真正提高性能。在每一帧中，前一帧 $T_{t-1}＝\{T_{t-1}^1,T_{t-1}^2,···,T_{t-1}^{m_{t-1}}\}$ （m_t−1是帧t-1中的轨迹数）的相关轨迹状态将根据恒定速度模型传播到帧t作为T_est：

结果，对于 $T_{t-1}$ 中的每个轨迹 $T_{t-1}^i$ ，其中i∈{1，2，··，m_t−1}，帧t中的预测状态为 $T_{est}^i$ =（x_est，y_est，z_est，θ，l，w，h，s，v_x，v_y，v_z）。

图2. 提议的系统管道：（A）3D检测模块从LiDAR点云获得3D检测D_t；（B） 3D卡尔曼滤波器在状态预测步骤期间预测到当前帧t的轨迹T_t−1的状态作为T_est；（C）使用匈牙利算法关联检测D_t和预测轨迹T_est；（D）基于D_match中的对应匹配检测，通过3D卡尔曼滤波器更新T_match中每个匹配轨迹的状态，以获得最终轨迹T_t；（E）出生和废弃记录将不匹配的检测D_unmatch和不匹配的轨迹T_unmatch作为输入，并创建新的轨迹T_new。

C. 数据关联

为了将预测的轨迹T_est与检测D_t相匹配，我们首先通过计算每对轨迹 $T^i_{est}$ 和检测 $D^j_t$ 之间的3D交并比（IoU）或负中心距离来构建维度为m_t−1×n_t的亲和矩阵。然后，数据关联成为一个二分图匹配问题，可以使用匈牙利算法在多项式时间内解决[18]。此外，如果3D IoU小于阈值IoU_min（或者如果使用中心距离来计算亲和矩阵，则中心距离大于阈值dist_max），我们拒绝匹配。数据关联的输出如下：

其中T_match和D_match是匹配的轨迹和检测，w_t表示匹配的数量。此外，T_unmatch和D_unmatch是不匹配的轨迹和检测。注意，T_unmatch是T_est中T_match的互补集合。类似地，D_unmatch是D_t中D_match的互补集合。

D. 3D卡尔曼滤波器：状态更新

为了解决状态预测的不确定性，我们基于D_match中的每个轨迹的相应检测来更新T_match中每个轨迹的状态。结果，我们获得了帧t中的最终关联轨迹， $T_t=\{T_t^1，T_t^2，··，T_t^{wt}\}$ 。根据贝叶斯规则，每个轨迹的更新状态 $T_t^k$ =（x’，y’，z’，θ’，l’，w’，h’，s’，v’_x，v’_y，v’_z），其中k∈{1，2，··，w_t}是 $T^k_{match}$ 和 $D^k_{match}$ 状态之间的加权平均值。权重由匹配轨迹 $T^k_{match}$ 和检测 $D^k_{match}$ 的状态不确定性确定（详情请参考卡尔曼滤波器[17]）。

此外，我们观察到，直接将贝叶斯更新规则应用于方向θ并不能很好地工作。例如，可能存在检测方向 $D^k_{match}$ 与相应轨迹 $T^k_{match}$ 的方向几乎相反的情况，即相差π。虽然我们知道这是不可能的，因为目标应该平滑移动，并且不能在一帧内改变π的方向（即，KITTI中的0.1s），但是在检测或轨迹中对方向的预测可能是错误的，这使得这种情况成为可能。因此，如果我们遵循正常状态更新规则，在这种情况下，最终轨迹 $T^k_t$ 的方向将位于 $D^k_{match}$ 和 $T^k_{match}$ 方向中间的某个位置，这将导致相关轨迹和地面真相之间的低3D IoU。为了防止这个问题，我们提出了一种定向校正技术。当 $D^k_{match}$ 和 $T^k_{match}$ 之间的方向θ_d之差大于π/2时，我们在 $T^k_{match}$ 中的方向上添加一个π，使得θ_d始终小于π/2，即 $D^k_{match}$ 和 $T^k_{match}$ 的方向大致一致，没有实质性变化。

E. 出生和废弃记录

由于被跟踪的目标可能会离开场景，新目标可能会进入场景，因此需要一个模块来管理目标的出生和废弃。一方面，我们将所有未匹配的检测 $D_{unmatch}$ 视为进入场景的潜在新目标。然而，为了避免创建假阳性轨迹，将不会为未匹配的检测 $D^p_{unmatch}$ 创建新的轨迹 $T^p_{new}$ ，直到在下一个 $Bir_{min}$ 帧中连续匹配 $D^p_{unmatch}$ ，其中p∈{1，2，··，n_t−w_t}。一旦创建了新的轨迹 $T^p_{new}$ ，我们将其状态初始化为与v_x、v_y和v_z的速度为零的最近检测 $D^p_{unmatch}$ 相同。

另一方面，我们将所有不匹配的轨迹 $T_{unmatch}$ 视为离开场景的潜在目标。然而，为了防止删除仍然存在于场景中但由于缺少检测而无法找到匹配的真实正轨迹，我们在确保 $T^q_{unmatch}$ 是消失轨迹 $T^q_{lost}$ 之前，继续跟踪 $Age_{max}$ 帧的每个不匹配轨迹 $T^q_{unmatch}$ ，其中q∈{1，2，··，m_t−1−w_t}，并将其从关联轨迹集合中删除。理想情况下，我们的3D MOT系统可以在不删除的情况下插入具有缺失检测的真实正轨迹，并且只删除离开场景的轨迹。

4. 新型3D MOT评估工具

作为开创性的3D MOT基准，KITTI[9]数据集对3D MOT系统的进展至关重要。尽管KITTI数据集提供了3D目标轨迹，但它仅支持2D MOT评估，即图像平面上的评估，并且目前还没有直接在3D空间中评估3D MOT系统的工具。在KITTI数据集上，评估3D MOT系统的当前惯例是将3D跟踪结果投影到图像平面，然后使用KITTI 2D MOT评估工具，该工具使用2D IoU作为成本函数，将投影的跟踪结果与图像平面上的真值轨迹相匹配。然而，我们认为这将阻碍3D MOT系统的未来发展，因为在图像平面上进行评估无法提供3D MOT的公平比较。例如，输出具有错误深度估计和低3D IoU以及真值的3D轨迹的系统仍然可以在2D MOT评估中获得高性能，只要3D轨迹输出在图像平面上的投影与图像平面上的真值具有高2D IoU。

为了提供3D MOT系统的公平比较，我们对KITTI 2D MOT评估工具进行了扩展，用于3D MOT评估。具体而言，我们将成本函数从2D IoU修改为3D IoU，并将3D跟踪结果与3D空间中的3D真值轨迹直接匹配。这样，我们就不再需要将3D跟踪结果投影到图像平面上进行评估。对于每个被跟踪的目标，其与真值的3D IoU必须高于阈值IoU_thres（或中心距离必须低于阈值Dist_thres），才能被视为成功匹配。虽然我们的3D MOT评估工具的扩展很简单，但我们希望它可以作为评估未来3D MOT系统的标准。

5. 新的MOT评估指标

A. CLEAR指标的限制

传统的MOT评估基于CLEAR指标[35]，如MOTA（详见第VI-A节）、MOTP、FP、FN、精度、F1得分、IDS、FRAG。然而，这些度量中没有一个明确考虑目标的置信度分数s。换句话说，CLEAR度量考虑具有相同置信度s=1的所有目标轨迹，这是一个不合理的假设，因为可能存在许多具有低置信度分数的假阳性轨迹。因此，为了减少误报的数量并实现较高的MOTA（MOTA是大多数MOT基准中排名的主要指标。），用户必须手动选择阈值，并在提交结果进行评估之前过滤掉置信分数低于阈值的跟踪目标。我们对上述评估的观察结果有两个方面：（1）为3D MOT系统选择最佳阈值需要用户付出不小的努力，如果3D MOT改变其输入检测或在不同的数据集上进行评估，则置信阈值可能会显著不同。因此，用户必须对验证集进行大量实验，以调整置信阈值；（2）使用单个置信阈值进行评估阻止了我们理解3D MOT系统的性能如何作为阈值的函数而变化。事实上，我们观察到不同的置信阈值会显著影响CLEAR度量的性能。例如，我们使用KITTI MOT数据集的汽车子集的数据，在图3中显示了我们的系统在不同阈值下的三个指标上的性能。为了生成结果，我们首先基于置信度得分s（我们将目标轨迹的置信分数定义为其在所有帧中的置信分数的平均值。）对跟踪结果进行排序。然后，我们定义了一组基于0到1之间的系统召回的置信阈值，间隔为0.025。这导致40个置信阈值，不包括对应于召回0的置信阈值。对于每个置信阈值，我们仅使用置信度高于阈值的轨迹来评估结果。我们表明，在图3（a）中，置信阈值不应该很小（召回率不是很高），因为误报的数量会急剧增加，特别是当召回率达到0.95时。此外，在图3（b）中，置信阈值不应该很大，即召回不应该很小，因为它会导致大量的假阴性。结果，在图3（c）中，我们观察到，只有当我们选择与0.9的召回相对应的置信阈值时，才能获得最高的MOTA值，该阈值平衡了假阳性和假阴性。

基于上述观察结果，我们认为，使用单一置信阈值进行评估需要用户付出不小的努力，更重要的是，这会妨碍我们理解MOT系统的全方位准确性。一个结果是，一个MOT系统在单个阈值上具有高MOTA，而在其他阈值上具有低MOTA，仍然可以在排行榜上排名靠前。但理想情况下，我们应该致力于开发在多个阈值上实现高MOTA的MOT系统，即在使用不同检测作为输入时实现高性能的3D MOT系统。先前的工作[36]与我们有着相同的精神，因为[36]也认为了解MOT系统在许多操作点的性能非常重要。具体而言，[36]在不同的召回和精度值下计算MOTA矩阵，类似于我们的MOTA-over-recall曲线。区别在于，我们还提出了积分度量（见第V-B节），将多个操作点的性能汇总为单个标量，以便于比较。

图3. （a）（b）（c）置信阈值对CLEAR度量的影响：MOTA、FN和FP。我们使用所提出的3D MOT评估工具在KITTI数据集上评估了我们的3D MOT系统。我们表明，为了实现最高的MOTA，需要选择适当的置信阈值，否则由于大量的假阳性或假阴性，MOTA的性能将显著降低。（d） MOTA中尺度调整的效果：所提出的尺度精度sMOTA在任何召回值下都具有100%的上限。

B. 积分指标：AMOTA和AMOTP

为了解决当前MOT评估指标不考虑置信度，仅在单个阈值进行评估的问题，我们提出了两个综合指标——AMOTA和AMOTP（平均MOTA和MOTP）——以总结MOTA和MOTP在多个阈值上的表现。AMOTA和AMOTP是通过在所有召回值上整合MOTA和MOTP值来计算的，例如，用于计算AMOTA的MOTA-over-recal曲线下的面积。与其他积分度量（如目标检测中使用的平均精度）类似，我们使用离散召回值集合的总和来近似积分。具体而言，给定[35]中MOTA度量的原始定义：

其中num_gt是所有帧中的真值目标的数量。AMOTA的定义如下：

其中FPr、FNr和IDSr是在特定召回值r下计算的假阳性、假阴性和身份切换的数量。此外，L是召回值的数量（积分的置信阈值的数量）。L越高，近似积分就越精确。然而，大L需要在评估期间进行大量计算。为了平衡准确度和速度，我们使用了40个召回值（即，从0%到100%，间隔为2.5%，不包括0%），即L=40。对于最大召回率小于100%的3D MOT系统，超过r_m的集成MOTA值为0。因此，我们提出的指标偏向于高召回率系统。我们认为，这种偏差是可以接受的，因为在实践中，具有高召回率对于防止自动系统的碰撞至关重要。注意，我们提出的AMOTA度量类似于独立工作[37]中提出的PR-MOTA度量。

C. 缩放精度度量：sAMOTA

传统上，诸如平均精度的积分度量是从0%到100%的百分比，因此很容易测量系统的绝对性能。为了确保积分度量的范围在0%和100%之间，在每个操作点用于计算积分度量的度量也应在0%到100%之间。然而，我们在图3（c）中观察到，在许多召回值下，MOTA可能具有低于100%的严格上限。事实上，特定召回值r下的MOTA上限如下：

第一个不等式是真的，因为假阳性FPr和身份切换IDSr总是非负的。此外，第二个不等式使用了FNr≥num_gt×（1−r）的事实，因为如果召回是r，则意味着至少（1−r）的总目标（num_gt）没有被跟踪。如果r是MOTAr上的上界，则积分度量AMOTA的上界为50%（即，上界r在MOTA vs Recall曲线中创建三角形）。

为了使积分度量AMOTA的值从0%到100%，我们需要缩放MOTAr的范围。从等式8中，我们发现MOTAr具有严格的r上界的原因是FNr≥num_gt×（1−r）。为了调整MOTAr，我们提出了两个新的度量，称为sMOTA（缩放MOTA）和sAMOTA（缩放AMOTA），其定义如下：

通过从分子中的FNr中减去目标数num_gt×（1−r），所提出的sMOTAr现在上限为100%，导致sAMOTA也上限为100%。注意，我们还在分母中添加了标量因子r，因为我们认为使用召回值为r（即，r×num_gt）时可用的真值目标的实际数量比使用目标总数num_gt更有意义，其中一些甚至在召回值为r时无法跟踪。此外，我们在等式9中添加了一个超过零的最大运算，这是将sMOTAr的下限调整为零。否则，如果存在许多误报或身份切换，sMOTAr可能接近负值。结果，如图3（d）所示，等式9中提出的sMOTAr的范围可以在0%和100%之间，这也导致相应的积分度量sAMOTA的范围在0%到100%之间。总之，我们认为，提出的新积分度量——sAMOTA、AMOTA、AMOTP——能够总结MOT系统在所有阈值上的性能。

6. 实验

A. 设置

评估指标。除了提出的sAMOTA、AMOTA和AMOTP，我们还评估了标准的CLEAR度量，如MOTA、MOTP（多目标跟踪精度）、IDS（身份切换数量）、FRAG（轨迹碎片数量）、FPS（每秒帧数）。

表I. 使用所提出的具有新指标的三维MOT评估工具，在KITTI-VAL集合上对汽车的性能进行评估。

表II. 行人和骑车人在KITTI VAL集合的性能。

表III. NUSCENES VAL集合上所有类别的性能。

数据集。我们对KITTI和nuScenes 3D MOT数据集进行了评估，这些数据集提供了LiDAR点云和3D边界框轨迹。由于KITTI测试集仅支持2D MOT评估，且其真值未向用户发布，因此我们必须使用KITTI val集进行3D MOT评估。此外，我们正在与nuTomony合作，使用我们提出的指标在nuScenes数据集上构建3D MOT评估。然而，第一个nuScenes 3D MOT挑战在本作品开发时尚未完成。因此，我们使用评估工具在nuScenes val集上评估3D MOT系统，以进行临时比较。对于nuScene数据集的未来评估，我们建议用户使用nuScene提供的评估代码，并主要评估nuScene测试集上的3D MOT系统进行比较，尽管我们在val集上开发的临时比较仍然可以用于参考。

在数据划分方面，我们在KITTI上遵循[16]，使用序列1、6、8、10、12、13、14、15、16、18、19作为val集合，使用其他序列作为train集合，通过我们的3D MOT系统不需要训练。对于nuScene，我们使用其默认数据划分。关于目标类别，我们遵循KITTI惯例，并显示每个类别（汽车、行人、骑车人）的结果。对于nuScene，我们首先获得每个类别的结果，然后通过对7个类别（汽车、卡车、拖车、行人、自行车、摩托车、公共汽车）进行平均来计算最终性能。对于匹配标准，我们遵循KITTI 3D目标检测基准中的惯例，并使用3D IoU来确定成功的匹配。具体来说，我们对行人和骑车人使用0.25，0.5的3D IoU阈值IoU_thres，对汽车使用0.25，0.5，0.7的IoU_thres。在nuScene上，我们遵循nuScene挑战中定义的标准，使用2米的中心距离Dist_thres。

基线。我们与现代开源3D MOT系统（如FANTrack[15]和mmMOT[30]）进行了比较。我们将PointRCNN[6]在KITTI上获得的3D检测和Megvii[34]在nuScenes上获得的相同3D检测用于我们提出的方法和基线[15]，[30]，这些基线需要3D检测作为输入。对于同样需要2D检测作为输入的基线[15]，我们使用3D检测的2D投影。

实施细节。对于表I、III、II和IV中的最佳结果，我们使用（x，y，z，θ，l，w，h，s，v_x，v_y，v_z）作为3D卡尔曼滤波器的状态空间，而不包括角速度v_θ。我们在出生和废弃记录模块中使用F_min=3和Age_min=2。对于数据关联模块中拒绝匹配的阈值，我们根据经验发现，使用IoU_min=0.01（汽车）、Dist_max=1（行人）、Dist_max=6（骑车人）可以在KITTI数据集上获得最佳性能。在nuScenes数据集上，我们对所有目标类别使用Dist_max=10。对于其他详细的超参数，请直接检查我们的代码。

B. 实验结果

KITTI val集上汽车的结果。我们总结了表I中的结果。当使用不同的匹配标准（例如，3D IoU_thres=0.25，0.5和0.7）时，我们提出的3D MOT系统在所有指标上均优于其他现代3D MOT。因此，我们在汽车的KITTI val集上建立了新的最先进3D MOT性能，并实现了令人印象深刻的零身份切换。

行人和骑车人的结果。除了对汽车进行评估外，我们还报告了表II中设置的KITTI val上的行人和骑车人等其他目标的3D MOT性能。尽管由于目标的尺寸较小，跟踪行人和骑车人比跟踪汽车更具挑战性，但我们展示了我们3D MOT系统的强大性能。

nuScenes val集中所有目标的结果。除了对KITTI数据集进行评估外，我们还报告了表III中nuScenes val集的3D MOT结果。我们强调，由于稀疏的LiDAR点云输入、复杂的场景和低帧率，nuScene数据集比KITTI更具挑战性。因此，nuScene上的3D检测质量显著低于KITTI上的3D检测，导致所有3D MOT系统在nuScene中的绝对性能都较低。我们的3D MOT系统在所有指标上仍优于其他3D MOT。

表IV. 使用所提出的具有新指标的3D MOT评估工具对KITTI VAL集合上的汽车进行消融研究。

图4. 在KITTI test集的序列3上，FANTrack[15]（左）和我们的系统（右）之间的定性比较。

推理时间。我们比较了表I最后一列中所有方法的推理时间。我们的3D MOT系统（不包括3D检测器部分）在KITTI val集上以207.4 FPS的速度运行，无需GPU，在表I中的其他3D MOT中实现了最快的速度。

定性比较。我们显示了我们的3D MOT系统与[15]和图4之间的定性比较。3D跟踪结果通过彩色3D边界框在图像上可视化，其中颜色表示目标身份。我们可以看到，FANTrack（左）的结果包含一些身份切换和图像最右侧目标的未命中跟踪，而我们的系统（右）在示例序列中没有这些问题。我们在演示视频中提供了3D MOT系统的更多定性结果，这表明（1）我们的系统不需要训练，在数据集上不存在过拟合问题，（2）我们的体系通常产生更稳定的结果，并且具有更少的身份切换和抖动的边界框。

C. 消融研究

我们使用提议的3D MOT评估工具以及新的指标对KITTI val集上的汽车进行了所有消融分析，总结见表IV。

3D检测质量的影响。在表IV（a）中，我们将3D检测模块从[6]切换到[33]。区别在于[6]需要LiDAR点云作为输入，而[33]只需要单个图像。结果，单目3D检测器[33]产生的3D检测质量远低于基于LiDAR的3D检测器[6]（详见[6]，[33]）。我们可以看到，（k）中的3D MOT性能也优于（a），这表明3D检测质量对3D MOT系统的性能至关重要。

3D v.s.2D卡尔曼滤波器。我们将最终模型（k）中的3D卡尔曼滤波器替换为（b）中的2D卡尔曼滤波器[19]。具体而言，我们定义了目标轨迹T的状态空间=（x，y，a，r，s，v_x，v_y，v_a），其中（x，y）是目标的2D位置，a是2D框面积，r是纵横比，（v_x，v_y，v_a）表示2D图像平面中的速度。我们观察到，在（k）中使用3D卡尔曼滤波器将IDS从7减少到0，FRAG从43减少到15，我们认为这是因为在3D空间中的跟踪可以帮助解决在2D图像平面中跟踪时存在的深度模糊。总体而言，绝对sAMOTA、AMOTA和MOTA值提高了3%至4%。

角速度v_θ的影响。我们将v_θ添加到状态空间，使得轨迹T的状态空间在表IV（c）中=（x，y，z，θ，l，w，h，s，v_x，v_y，v_z，v_θ）。我们观察到，与（k）相比，添加v_θ使sAMOTA和AMOTA提高了0.01%，AMOTP和MOTA降低了0.08%。这表明，添加角速度或不添加角速度对所有指标的性能都没有明显影响。因此，为了简单起见，我们不将角速度包含在最终系统的状态空间中。

方向修正的影响。如第III-D节所述，我们在表IV（k）中的最终系统中使用了定向校正技术。在这里，我们在不使用表IV（d）中的取向校正的情况下实验了一种变体。我们观察到，方位校正有助于提高所有度量的性能，这表明该技术对我们提出的3D MOT系统有用。

阈值IoU_min的影响。我们将IoU_min=0.01在（k）更改为IoU_min=0.1在（e）和IoU_min=0.25在（f）。我们观察到，增加IoU_min会导致所有指标的持续下降。

Bir_min的影响。我们将Bir_min=3在（k）调整为Bir_min=1在（g）和Bir_min=5在（h）。我们表明，使用Bir_min=1（即，立即为不匹配的检测创建新的轨迹）或Bir_min=5（即，在接下来的五帧中匹配不匹配的检测之后创建新轨迹）导致sAMOTA、AMOTP和MOTA的性能较差，这表明使用Bir_min=3是最好的。

Age_max的影响。我们通过在（i）中将其减小到Age_max=1并在（j）中将其增大到Age_max=3来验证Age_max的效果。我们表明，（i）和（j）都导致了sAMOTA、AMOTA和MOTA的下降，这表明在我们的最终模型（k）中Age_max=2（即在接下来的两帧中保持跟踪不匹配的轨迹T_unmatch）是最佳选择。

7. 结论

我们提出了一种精确、简单、实时的在线3D MOT系统。此外，还提出了一种新的3D MOT评估工具，以及三种新的度量标准，以标准化未来的3D MOT评估。通过在KITTI和nuScenes 3D MOT数据集上的大量实验，我们的系统建立了最先进的3D MOT性能，同时实现了最快的速度。我们希望，我们的系统将作为一个坚实的基线，其他人可以在其基础上轻松地推进3D MOT的最新技术。

ACKNOWLEDGMENT

This work was funded in part by the Department of Homeland Security award 2017-DN-077-ER0001. Also, we thank the authors of SORT [19], which inspired our work.

REFERENCES

[1] S. Wang, D. Jia, and X. Weng, “Deep Reinforcement Learning for Autonomous Driving,” arXiv:1811.11329, 2018.
[2] X. Weng, J. Wang, S. Levine, K. Kitani, and R. Nick, “Sequential Forecasting of 100,000 Points,” arXiv:2003.08376, 2020.
[3] X. Sun, X. Weng, and K. Kitani, “When We First Met: Visual-Inertial Person Localization for Co-Robot Rendezvous,” arXiv:2006.09959, 2020.
[4] A. Manglik, X. Weng, E. Ohn-bar, and K. M. Kitani, “Forecasting Time-to-Collision from Monocular Video: Feasibility, Dataset, and Challenges,” IROS, 2019.
[5] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” NIPS, 2015.
[6] S. Shi, X. Wang, and H. Li, “PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud,” CVPR, 2019.
[7] N. Lee, X. Weng, V. N. Boddeti, Y. Zhang, F. Beainy, K. Kitani, and T. Kanade, “Visual Compiler: Synthesizing a Scene-Specific Pedestrian Detector and Pose Estimator,” arXiv:1612.05234, 2016.
[8] X. Weng, S. Wu, F. Beainy, and K. Kitani, “Rotational Rectification Network: Enabling Pedestrian Detection for Mobile Vision,” WACV, 2018.
[9] A. Geiger, P. Lenz, and R. Urtasun, “Are We Ready for Autonomous Driving? the KITTI Vision Benchmark Suite,” CVPR, 2012.
[10] J. H. Yoon, C. R. Lee, M. H. Yang, and K. J. Yoon, “Online MultiObject Tracking via Structural Constraint Event Aggregation,” CVPR, 2016.
[11] H. Karunasekera, H. Wang, and H. Zhang, “Multiple Object Tracking with Attention to Appearance, Structure, Motion and Size,” IEEE Access, 2019.
[12] S. Sharma, J. A. Ansari, J. K. Murthy, and K. M. Krishna, “Beyond Pixels: Leveraging Geometry and Shape Cues for Online Multi-Object Tracking,” ICRA, 2018.
[13] W. Tian, M. Lauer, and L. Chen, “Online Multi-Object Tracking Using Joint Domain Information in Traffic Scenarios,” IEEE Transactions on Intelligent Transportation Systems, 2019.
[14] D. Frossard and R. Urtasun, “End-to-End Learning of Multi-Sensor 3D Tracking by Detection,” ICRA, 2018.
[15] E. Baser, V. Balasubramanian, P. Bhattacharyya, and K. Czarnecki, “FANTrack: 3D Multi-Object Tracking with Feature Association Network,” IV, 2020.
[16] S. Scheidegger, J. Benjaminsson, E. Rosenberg, A. Krishnan, and K. Granstr, “Mono-Camera 3D Multi-Object Tracking Using Deep Learning Detections and PMBM Filtering,” IV, 2018.
[17] R. Kalman, “A New Approach to Linear Filtering and Prediction Problems,” Journal of Basic Engineering, 1960.
[18] H. W Kuhn, “The Hungarian Method for the Assignment Problem,” Naval Research Logistics Quarterly, 1955.
[19] A. Bewley, Z. Ge, L. Ott, F. Ramos, and B. Upcroft, “Simple Online and Realtime Tracking,” ICIP, 2016.
[20] A. Patil, S. Malla, H. Gang, and Y.-T. Chen, “The H3D Dataset for Full-Surround 3D Multi-Object Detection and Tracking in Crowded Urban Scenes,” ICRA, 2019.
[21] L. Zhang, Y. Li, and R. Nevatia, “Global Data Association for MultiObject Tracking Using Network Flows,” CVPR, 2008.
[22] S. Schulter, P. Vernaza, W. Choi, and M. Chandraker, “Deep Network Flow for Multi-Object Tracking,” CVPR, 2017.
[23] X. Weng, Y. Wang, Y. Man, and K. Kitani, “GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with 2D-3D MultiFeature Learning,” CVPR, 2020.
[24] H. Pirsiavash, D. Ramanan, and C. C. Fowlkes, “Globally-Optimal Greedy Algorithms for Tracking a Variable Number of Objects,” CVPR, 2011.
[25] W. Choi, “Near-Online Multi-Target Tracking with Aggregated Local Flow Descriptor,” ICCV, 2015.
[26] C. Dicle, O. I. Camps, and M. Sznaier, “The Way They Move: Tracking Multiple Targets with Similar Appearance,” ICCV, 2013.
[27] S. H. Bae and K. J. Yoon, “Robust Online Multi-Object Tracking Based on Tracklet Confidence and Online Discriminative Appearance Learning,” CVPR, 2014.
[28] Y.-J. Li, Z. Luo, X. Weng, and K. Kitani, “Learning Shape Representations for Clothing Variations in Person Re-Identification,” arXiv:2003.07340, 2020.
[29] A. Osep, W. Mehner, M. Mathias, and B. Leibe, “Combined Imageand World-Space Tracking in Traffic Scenes,” ICRA, 2017.
[30] W. Zhang, H. Zhou, S. Sun, Z. Wang, J. Shi, and C. C. Loy, “Robust Multi-Modality Multi-Object Tracking,” ICCV, 2019.
[31] X. Weng, Y. Yuan, and K. Kitani, “Joint 3D Tracking and Forecasting with Graph Neural Network and Diversity Sampling,” arXiv:2003.07847, 2020.
[32] Y. Wang, X. Weng, and K. Kitani, “Joint Detection and Multi-Object Tracking with Graph Neural Networks,” arXiv:2006.13164, 2020.
[33] X. Weng and K. Kitani, “Monocular 3D Object Detection with PseudoLiDAR Point Cloud,” ICCVW, 2019.
[34] B. Zhu, Z. Jiang, X. Zhou, Z. Li, and G. Yu, “Class-Balanced Grouping and Sampling for Point Cloud 3D Object Detection,” CVPR, 2019.
[35] K. Bernardin and R. Stiefelhagen, “Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics,” Journal on Image and Video Processing, 2008.
[36] F. Solera, S. Calderara, and R. Cucchiara, “Towards the Evaluation of Reproducible Robustness in Tracking-by-Detection,” AVSS, 2015.
[37] L. Wen, D. Du, Z. Cai, Z. LeI, M.-C. Chang, H. Qi, J. Lim, M.-H.Yang, and S. Lyu, “UA-DETRAC: A New Benchmark and Protocol for Multi-Object Detection and Tracking,” Computer Vision and Image Understanding, 2020.

参考资料

参考文章原文和源代码，走读一遍，大概就清楚了，以下两篇参考也可以了解了解。

参考一
参考二

你可能感兴趣的:(#,点云,3D,跟踪,人工智能)

Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
NV133NV137美光固态闪存NV147NV148 18922804861 数据库
NV133NV137美光固态闪存NV147NV148美光固态闪存技术矩阵深度解析：NV133至NV148的全面较量一、性能参数：数据高速公路的“车速”比拼读写速度：从“乡间小道”到“高铁动脉”美光NV系列固态闪存的核心竞争力在于其读写速度的跃升。以NV158为例，其顺序读取速度可达数千MB/s，加载大型文件（如4K视频、3D建模文件）时，体验如同“在数据高速路上一路绿灯飞驰”。相比之下，传统机械硬
NV224NV227美光固态闪存NV256NV257 18922804861 性能优化
NV224NV227美光固态闪存NV256NV257美光NV系列固态闪存深度解析：技术、应用与未来趋势在数据存储领域，美光科技（MicronTechnology）凭借其NV系列固态闪存产品，持续引领行业创新。本文将从技术解析、产品评测、行业趋势、应用案例及购买指南五个维度，深入剖析NV224、NV227、NV256、NV257四款产品的核心竞争力与市场价值。一、技术解析：3DNAND工艺与架构创新
NV183NV185美光固态闪存NV196NV201 18922804861 服务器科技人工智能大数据
美光固态闪存技术深度解析：NV183、NV185、NV196与NV201系列一、技术架构与核心参数对比1.制程工艺与容量布局美光NV183/NV185/NV196/NV201系列采用176层3DNAND技术，通过垂直堆叠提升存储密度。其中：NV183：主打256GB容量段，适用于消费级SSDNV185：可扩展至1TB-2TB范围，面向主流PCIe4.0市场NV196：企业级规格，支持4TB-8TB
Open3D 点到面的ICP配准算法 AtlasCloud python点云数据处理算法人工智能 python 矩阵 numpy
目录一、算法原理1、算法概述2、点到平面ICP精配准3、参考文献二、主要函数三、代码实现四、结果展示1、初始位置2、配准结果一、算法原理1、算法概述点到平面度量通常使用标准非线性最小二乘法来求解，例如Levenberg-Marquardt。点到平面ICP算法的每次迭代通常比点到点算法慢，但收敛速度明显更快。两个点云之间的相对旋转小于30°，在旋转矩阵中用θ替换sinθ，用1替换cosθ实现用线
cesium-native+OpenGL开发笔记—渲染GIS球
坐标系转换OpenGL坐标系右手坐标系，X轴水平向右，Y轴竖直向上，Z轴指向屏幕外面。Y（绿色，朝上）^|||*---->X（红色，向右）//Z（蓝色，向前）（指向屏幕外）3DTiles坐标系右手坐标系，Z轴朝上Z（蓝色，朝上）^||/Y（绿色，朝屏幕内）|/*---->X（红色，朝右）glTF模型坐标系右手坐标系，Y轴朝上3DTiles和OpenGL坐标系上方向存在差异，实际绘制是在OpenGL
FastAPI如何玩转安全防护，让黑客望而却步？
url:/posts/c1314c623211c9269f36053179a53d5c/title:FastAPI如何玩转安全防护，让黑客望而却步？date:2025-07-04T18:28:43+08:00lastmod:2025-07-04T18:28:43+08:00author:cmdragonsummary:FastAPI通过内置的OAuth2和JWT支持，提供了开箱即用的安全解决方案，
20、鸿蒙学习——OAID、AAID、ODID 青春路上的小蜜蜂学习 harmonyos 华为 typescript ArkTs
1、OAID开放匿名设备标识符（（OpenAnonymousDeviceIdentifier），是一种非永久性设备标识符，基于开放匿名设备标识符，可在保护用户个人数据隐私安全的前提下，向用户提供个性化广告，同时三方检测平台也可向广告主提供转化根因分析。OAID具有以下特性：OAID是设备级标识符，同一台设备上不同的App获取到的OAID值一致OAID的获取受应用的跟踪开关影响：当应用的跟踪开关开启
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
unity3d————特殊文件夹无敌最俊朗@ Unity四部曲之基础篇 unity 游戏学习 c#游戏引擎
1.工程路径(Application.dataPath)获取方式：Application.dataPath使用场景：主要在编辑模式下使用，发布后路径不再有效。注意：发布后的游戏不会使用该路径。2.Resources资源文件夹路径获取：通常不直接获取路径，使用Resources相关API加载资源。创建：需要手动创建。作用：存放需要通过Resources相关API动态加载的资源。所有文件都会被打包，并
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
光伏发电园区管理系统 - Three.js + Django 实现方案小赖同学啊 test Technology Precious javascript django 开发语言
光伏发电园区管理系统-Three.js+Django实现方案我将设计一个基于Three.js和Django的光伏发电园区管理系统，包含3D可视化、实时监控和数据分析功能。系统架构设计API请求数据存储数据存储数据存储获取获取前端-Three.jsDjango后端数据库外部API光伏设备数据气象数据发电数据实时天气电价信息技术栈与依赖前端：Three.js(r128)-3D渲染Chart.js-数据
RICE模型或KANO模型在具体UI评审时的运用经验 Alex艾力的IT数字空间设计规范前端框架原型模式产品经理需求分析 ux 制造
模型是抽象的产物，结合场景才好说明（数据为非精确实际数据，仅供参考，勿照搬）。案例一：RICE模型解决「支付流程优化」vs「首页动效升级」优先级争议背景：APP电商模块在迭代中面临两个需求冲突——支付团队主张优化支付失败提示（减少用户流失），设计团队提议增加首页3D商品动效（提升视觉吸引力）。双方争执不下。应用过程：RICE模型量化评估（参考）：支付优化：Reach（覆盖人数）：支付流程涉及100
展锐 ISP 模块功能特点与应用场景评估：轻量化影像处理方案的实战能力分析
展锐ISP模块功能特点与应用场景评估：轻量化影像处理方案的实战能力分析关键词：展锐ISP、图像信号处理、3DNR、HDR合成、YUV输出、图像管线、降噪算法、调色引擎、应用场景评估、移动终端影像系统摘要：作为国产SoC平台中的关键影像处理核心，展锐ISP（ImageSignalProcessor）聚焦轻量化、低功耗与快速集成三大特性，广泛应用于中低端移动终端、AIoT摄像头及定制化影像设备。相较于
Xtuner：大模型微调快速上手潘达斯奈基~ AIGC AIGC
一、XTuner是什么？简单来说，XTuner是一个轻量级、易于使用的、为大语言模型（LLM）设计的微调工具库。它由上海人工智能实验室（OpenMMLab）开发，是其强大AI工具生态（MMCV,MMEngine等）的一部分。它的核心设计理念是“用一个配置文件搞定一切”，让开发者和研究人员可以极大地简化微调流程。二、为什么选择XTuner？（核心优势）轻量且用户友好：命令行驱动：你不需要编写复杂的训
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
【前端】【数字孪生】基础知识：数字孪生 3D 模型去哪里找？Three.js 辅助组件库有哪些？模型的动画是黑盒吗？怎么控制？患得患失949 数字孪生前端 3d javascript
前端数字孪生全解：Vue与Three.js的最佳实践、3D模型网站推荐、自带动画控制详解在数字孪生（DigitalTwin）和三维可视化逐渐成为前端热点的今天，很多开发者开始转向WebGL+前端框架的集成实践，最常见的组合包括：React+Three.js（通过@react-three/fiber与@react-three/drei）Vue+Three.js（本文重点）本文将从以下几个维度全面解析
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb