图波列夫

NOMT 近似在线的多目标跟踪算法

多目标跟踪算法可以分类两类：在线法和全局（批处理）方法。在线方法逐帧处理，适应大多数实际应用的需求；而全局方法考虑整个时间范围内的所有检测，具有更高的数据关联精度。在求解时，以往的工作会着眼于特征度量或关联模型。

NMOT 不片面追求高精度，而是从实际出发：

设计一种精确的亲和性度量以关联检测；
实现高效且准确的（近似）在线多目标跟踪算法。

首先，NMOT 引入了一种新颖的聚合局部流描述符（Aggregated Local Flow Descriptor, ALFD），该算法使用长期兴趣点轨迹（long term interest point trajectories, IPT）来编码两个时间帧中检测框之间的相对运动模式。尽管每个单独的 IPT 可能有错误，但它们共同提供了强大的信息来比较两个检测。通过一个学习模型，作者观察到 ALFD 提供了强大的亲和力度量，从而为关联算法提供了可靠的线索。

图 1. 边界框距离和外观相似度是多目标跟踪文献中常用的亲和性度量。但是，在拥挤的现实场景中，它们通常难以成功区分相邻或相似的目标。然而，光流轨迹提供了更可靠的方法来比较跨时间的不同检测。尽管个别轨迹可能不准确（ $\textcolor{red}{红}$ 线），但它们共同提供了强大的信息来衡量亲和性。NMOT 提出了一种新颖的聚合局部流描述符，该描述符在多目标跟踪问题中可靠地利用了光流。该图最好用彩色显示。

其次，文章提出了一种近似在线多目标跟踪（Near-Online Multi-Target Tracking, NOMT）算法。将跟踪问题描述为时间窗口中目标与检测之间的数据关联，在每一帧重复执行。NMOT 通过将 ALFD 度量、目标动力学、外观相似性和长期轨迹正则化在内的多个线索集成到模型中来实现鲁棒性。并且 NMOT 能够实时运行（ $\sim 10$ FPS ）。在每个时间帧 $t$ 中， NMOT 求解目标与大小为 $\tau$ 的时间窗口 $[t-\tau, t]$ 中的所有检测之间的全局数据关联问题（参见图 2）。该算法的关键特性是，当提供更多的检测时，能够修正以往的关联错误。为了同时达到精度和效率，该算法使用 ALFD 驱动的小轨迹生成候选假设轨迹，并使用并行联合树算法解决关联问题。

图 2. NMOT 算法使用时间窗口 $\tau$ 在每个时间帧 $t$ 处解决全局关联问题。实心圆表示关联的目标，虚线圆表示未观察到的检测，虚线表示在时间窗口之前的最终目标关联，实线表示在当前时间范围内进行的（活动）关联。由于观测量有限，跟踪算法可能会在 $t_2$ 处产生错误关联。然而一旦在 $t_3$ 处提供了更多的观察结果，算法便能够修复 $t_2$ 所产生的错误。此外，NMOT 方法能动态识别新目标（ $\textcolor{red}{红色}$ 圆圈）。

Data Association Models

给定长度为 $T$ 的视频序列 $V_1^T = \{I_1, I_2, ..., I_T\}$ 和一组检测假设 $\mathbb{D}_1^T = \{d_1, d_2, ..., d_N\}$ ，其中 $d_i$ 由帧号 $t_i$ 、边界框 $d_i[x], d_i[y], d_i[w], d_i[h])$ 以及分数 $s_i$ 参数化，多目标跟踪试图找到一个连贯的目标集合（关联） $\mathbb{A} = \{ A_1, A_2, ..., A_M\}$ ，其中每个目标 $A_m$ 由一组出现期间的检测索引表示（例如， $A_1 = \{d_1, d_{10}, d_{23}\}$ ）；即 $(V_1^T, \mathbb{D}_1^T) \rightarrow \mathbb{A}$ 。

在线算法[5, 7, 10, 20, 27]的构想是寻找现有目标与当前时间帧中检测之间的关联： $(V_t^t, \mathbb{D}_t^t, \mathbb{A}^{t-1}) \rightarrow \mathbb{A}^t$ 。
全局算法常将跟踪表述为网络流问题，以直接从检测假设中获得目标[KSP, 28, MCF]，即 $(V_1^T, \mathbb{D}_1^T) \rightarrow \mathbb{A}^T$ ；或采用迭代算法，逐步完善目标关联[2, 18, OLDAM, OM+APP]，即 $(V_1^T, \mathbb{D}_1^T, \mathbb{A}_{i}^T) \rightarrow \mathbb{A}_{i+1}^T$ ，其中 $i$ 表示一个迭代。
NMOT 提出了一个新的框架来填补在线算法和全局算法之间的空白：在每个时间帧 $t$ 中 $(V_{1}^t, \mathbb{D}_{t-\tau}^t, \mathbb{A}^{t-1}) \rightarrow \mathbb{A}^t$ ，其中 $\tau$ 是预定义的时间窗口大小。

NMOT 算法的表现与在线算法类似，因为它在每个时间帧中输出关联。关键的区别在于，一旦有了更多的观察结果，过去所做的任何决定都可能会发生变化。使用新提出的全局关联算法可以解决每个时间窗口中的关联问题。所提方法还使人联想到迭代全局算法，因为迭代地增加轨迹（每帧一次迭代）时考虑到多个帧，从而可以提高关联精度。

Aggregated Local Flow Descriptor

给定兴趣点轨迹[31]，ALFD 在时间距离（ $\Delta t=|t_i-t_j|$ ）内对两个边界框之间的相对运动模式进行编码。ALFD 的主要直觉是，如果两个框属于同一目标，那么我们将在框的相对位置观察到许多支持 IPT。为了使其对检测中的细微定位误差、目标方向变化以及 IPT 中的异常值（误差）具有鲁棒性，NMOT 使用空间直方图构建 ALFD。一旦获得了 ALFD，NMOT 将使用学习到的模型参数 $w_{\Delta t}$ 和 ALFD 的线性乘积来度量两个检测之间的亲和力，即 $a_{A}(d_i, d_j) = w_{\Delta t} \cdot \rho(d_i, d_j)$ 。

Interest Point Trajectories

NMOT 使用局部兴趣点检测器[4, FAST]和光流算法[4, 11]获得兴趣点轨迹。该算法旨在结合各种众所周知的计算机视觉技术来生成一组长而准确的点轨迹：

给定图像 $I_t$ ，NMOT 运行 FAST 兴趣点检测器[4, FAST]来识别要跟踪的“好点”。
为了避免冗余点，算法计算新检测到的兴趣点与现有 IPT 之间的距离，并使新点与现有 IPT 保持足够的距离（ $> 4$ px）。为新点分配唯一的 ID。
对于 $t$ 中的所有 IPT，使用[4, 11]计算前向（ $\rightarrow t+1$ ）和反向（ $\rightarrow t$ ）光流。反向流的起点由向前流的终点给出。终止在两者之间有较大分歧（ $> 10$ px）的 IPT。

ALFD Design

首先定义讨论 ALFD 的必要符号。 $\kappa_{id} \in \mathcal{K}$ 表示具有唯一 $i d$ 的 IPT，该 IPT 在存在期间由像素位置 $(\kappa_{id}(t)[x], \kappa_{id}(t)[y])$ 参数化。 $\kappa_{id}(t)$ 表示帧 $t$ 处的像素位置。如果 $\kappa_{id}$ 不在帧 $t$ 中（终止或未启动），则返回 $\text{\o}$ 。

首先通过汇总位于 $d_i$ 框内且在帧 $t_j$ 仍存在的 IPT 信息，来定义单向 ALFD $\rho'(d_i, d_j)$ ，即从 $d_i$ 到 $d_j$ 。形式上，将 IPT 集定义为
$\mathcal{K}(d_i, d_j) = \{\kappa_{id} | \kappa_{id}(t_i) \in d_i\ \&\ \kappa_{id}(t_j) \neq \text{\o} \}$

对于每个 $\kappa_{id} \in \mathcal{K}(d_i, d_j)$ ，通过
$\begin{aligned} r_i(\kappa_{id})[x] &= ( \kappa_{id}(t_i)[x] - d_i[x] ) / d_i[w]\\ r_i(\kappa_{id})[y] &= ( \kappa_{id}(t_i)[y] -d_i[y] ) / d_i[h] \end{aligned}$
计算每个 $\kappa_{id}$ 在 $t_i$ 的相对位置 $r_i(\kappa_{id}) = (x, y)$ 。类似地计算 $r_j(\kappa_{id})$ 。请注意， $r_i(\kappa_{id})$ 被限制在 $[0, 1]$ 之间，但是 $r_j(\kappa_{id})$ 未受限制，因为 $\kappa_{id}$ 可以位于 $d_j$ 之外。

给定 $r_i(\kappa_{id})$ 和 $r_j(\kappa_{id})$ ，计算相应的空间网格 bin 索引，如图 3所示，并累积计数构建描述符。ALFD 为 $r_i(\kappa_{id})$ 定义了 $\times 4$ 网格，为 $r_j(\kappa_{id})$ 定义了 $\times 4 + 2$ 网格，其中最后的 $2$ 区间对应检测之外的区域。第一个外区间定义检测的邻域（$ < width/4\ & < height/4$），第二个外区间表示其他更远的区域。

图 3. 单向 ALFD $\rho'(d_i, d_j)$ 的示意图。顶部图中将检测结果显示为彩色边框（ $d_{\textcolor{red}{red}}$ , $d_{\textcolor{blue}{blue}}$ 和 $d_{\textcolor{green}{green}}$ ）。一对具有连接线的圆圈表示 IPT，它们同时存在于 $t$ 和 $\triangle t$ 帧中，并且位于 $t$ 帧的 $d_{\textcolor{red}{red}}$ 内部。图中绘制了准确的（ $\textcolor{green}{green}$ ）、离群值（ $\textcolor{black}{black}$ ）和错误的（ $\textcolor{red}{red}$ ）IPT。底部图中显示了两个单向 ALFD $\rho'$ 示例，分别为 ( $d_{\textcolor{red}{red}}$ , $d_{\textcolor{blue}{blue}}$ ) 和 ( $d_{\textcolor{red}{red}}$ , $d_{\textcolor{green}{green}}$ )。 $\textcolor{red}{red}$ 网格（ $2\times2$ ）表示 IPT 在 $t$ 帧中相对于 $d_{\textcolor{red}{red}}$ 的位置。每个 $\textcolor{red}{red}$ 区域中的 $\textcolor{blue}{blue}$ 和 $\textcolor{green}{green}$ 网格显示 IPT 在 $t+\triangle t$ 帧中相对于相应框的位置（ $2\times2 + 2$ 个外部区域）。网格中 $\textcolor{red}{red}$ 盒子表示在相同的相对位置中观察到的 IPT。凭直觉，在网格中观察到的 IPT 越多，两次检测属于同一目标的可能性就越大。相反，外部区域将为错误匹配提供更多的支持。为了避免混乱，插图使用 $2\times 2$ 网格显示。在实践中使用的是 $4\times 4$ 。

通过一对单向 ALFD，将 ALFD 定义为
$\rho(d_i, d_j) = (\rho'(d_i, d_j) + \rho'(d_j, d_i))\ /\ n(d_i, d_j)$

其中 $n(d_i,d_j)$ 是正规化子。正规化子 $n$ 定义为

$n(d_i, d_j) = | \mathcal{K}(d_i, d_j) | + | \mathcal{K}(d_j, d_i) | + \lambda$
其中 $\mathcal{K}(\cdot) |$ 是 IPT 的计数，而 $\lambda$ 是常数。 $\lambda$ 确保当有更多支持 $\mathcal{K}(d_i, d_j)$ 时，ALFD 的 L1范数增加并且收敛到 $1$ 。实际中令 $\lambda=20$ 。

Learning the Model Weights

作者使用加权投票方式从训练数据集中学习模型参数 $w_{\Delta t}$ 。给定一组检测 $\mathbb{D}_1^T$ 和相应的真实（GT）目标注释，

首先将 GT 目标 id 分配给每个检测。对于每个检测 $d_i$ ，测量其与 $t_i$ 帧中所有 GT 框的重叠。如果最佳重叠 $o_i$ 大于$ 0.5 $，则分配相应的目标 i d （$ id_i$）；否则，将分配 $- 1$ 。
从所有正检测（ $id_i \geq 0$ ）的检测中收集一组检测 $\mathcal{P}_i^{\Delta t} = \{d_j \in \mathbb{D}_1^T | t_j - t_i = \Delta t\}$ 。对于每一对，按如下方式计算边距 $m_ {ij}$ ：
$m_{ij} = \begin{cases} (o_i - 0.5) \cdot (o_j - 0.5)& \text{if } id_i == id_j \\ -(o_i - 0.5) \cdot (o_j - 0.5)& \text{if } id_i \not= id_j \end{cases}$
直观地，如果两次检测均来自同一目标，则 $m_ {ij}$ 应为正值；如果 $d_i$ 和 $d_j$ 来自不同的目标，则 $m_ {ij}$ 应为负值。幅度由定位精度加权。
给定所有的对和边距，学习模型 $w_{\Delta t}$ 如下：
$w_{\Delta t} = \frac{\sum_{\{i \in \mathbb{D}_1^T | id_i \geq 0\}} \sum_{j \in \mathcal{P}_i^{\Delta t}} m_{ij} (\rho'(d_i, d_j) + \rho'(d_j, d_i))}{\sum_{\{i \in \mathbb{D}_1^T | id_i \geq 0\}} \sum_{j \in \mathcal{P}_i^{\Delta t}} |m_{ij}| (\rho'(d_i, d_j) + \rho'(d_j, d_i))}$
在所有 ALFD 模式上计算带符号的加权平均值，其中权重由目标和检测之间的重叠确定。直观地讲，检测之间的 ALFD 模式若与 GT 很好地匹配，则对模型参数的贡献更大。

加权投票方法的优点是 $w_{\Delta t}$ 中的每个元素都以 $[- 1, 1]$ 为界，从而 ALFD 度量 $a_{A}(d_i, d_j)$ 也在 $[- 1, 1]$ 区间，因为 $||\rho(d_i, d_j)||_1 \leq 1$ 。图 4显示了使用上述方法学习的两个模型。可以采用其他学习算法，例如 LIBSVM。

图 4. 两个学习到的模型权重 $w_{\Delta 1}$ 和 $w_{\Delta 20}$ 的可视化。在明亮的（白色）区域中具有较高的 $\rho$ 值会产生较高的亲和力度量值。随着时间距离的增加，模型权重倾向于扩展到相邻的目标箱中，以考虑可能的目标方位变化和更高的 IPT 误差。

Properties

本节讨论 ALFD 相似性度量 $a_{A}(d_i, d_j)$ 的性质：

首先，与外观或空间度量不同，ALFD通过 IPT 隐式利用 $t_i$ 至 $t_j$ 时段所有图像中的信息。由于使用相邻像素信息计算光流，因此 $\mathcal{K}(d_i, d_j)$ 会随着感受野的增加而对所有支持图像信息进行编码。
其次，由于 ALFD 设计的集体性，它可以在任意时间长度内提供强大的亲和力度量。与外观或空间度量相比有明显的好处，特别是在较长的时间距离上（有关分析，请参见实验5.1节）。
第三，它通常适用于任意场景（静态或移动摄像机）以及任意目标类型（人或汽车）。
ALFD 的一个缺点是当发生遮挡时会变得不可靠。当目标发生遮挡时，起始于目标的 IPT 倾向于粘附在遮挡者上。它促使作者结合在5.1节中讨论的目标动力学信息。

Near Online Multi-target Tracking (NOMT)

算法采用近似在线多目标跟踪框架，在每个时间帧中更新并输出目标 $\mathbb{A}^t$ ，同时考虑到时间窗口 $[t-\tau, t]$ 中的输入。NMOT 通过假设生成和选择方案来实现。为了便于讨论，这里定义干净目标 $\mathbb{A}^{* t - 1} = \{A_1^{* t - 1}, A_2^{* t - 1}, ...\}$ ，不包含 $-\tau, t-1]$ 中的所有相关检测。

给定 $\tau, t]$ 中的一组检测和干净目标 $\mathbb{A}^{* t - 1}$ ，为每个目标 $A_m ^ {* t-1}$ 以及新进入目标生成多个目标假设 $H_m^t = \{ H_{m, 1}^t = \text{\o}, H_{m, 2}^t, H_{m, 3}^t ... \}$ ，其中 $\text{\o}$ （空假设）表示目标的终止，每个 $H_{m, k}^t$ 表示 $\tau, t]$ 中与目标关联的一组候选检测（4.3节）。每个 $H_{m, k}^t$ 可能包含 $0$ 到 $\tau$ 个检测（每帧可能有 $0$ 或 $1$ 个检测）。

给定所有现有和新目标的假设集，该算法使用图模型（4.3节）为所有目标（每个目标一个）找到最一致的一组假设（MAP）。作为关键特性，NMOT 能够修正在先前时间帧中产生的任何关联错误（对于时间窗口 $-\tau, t]$ 内的检测）。

Model Representation

在详细介绍每个步骤之前，先讨论基础模型表示。将该模型表述为一个能量最小化框架：
$\hat{x} = \mathrm{argmin}_{x} E(\mathbb{A}^{* t - 1}, \mathbb{H}^t(x), \mathbb{D}_{t - \tau}^t, V_1^t)$
其中 $x$ 是整数状态向量，指示为相应目标选择了哪个假设， $\mathbb{H}^t$ 是所有假设的集合 ${ H_1^t, H_2^t, ... \}$ ，而 $\mathbb{H}^t(x)$ 是一组选定假设 ${H_{1, x_1}^t, H_{2, x_2}^t, ... \}$ 。解决优化问题时，可以通过使用选定的假设 $\mathbb{H}^t(\hat{x})$ 对 $\mathbb{A}^{* t - 1}$ 进行扩展来唯一标识更新的目标 $\mathbb{A}^t$ 。后文隐去 $V_1^t$ 和 $\mathbb{D}_{t - \tau}^t$ ，以避免方程式混乱。能量定义如下：
$\begin{aligned} E(\mathbb{A}^{* t - 1}, \mathbb{H}^t(x)) &= \sum_{m \in \mathbb{A}^{* t - 1}} \Psi(A_m^{* t - 1}, H_{m, x_m}^t) \\ &+ \sum_{ (m, l) \in \mathbb{A}^{* t - 1} } \Phi(H_{m, x_m}^t, H_{l, x_l}^t) \end{aligned}$
其中 $\Psi( \cdot )$ 编码单个目标的运动、外观和 ALFD 度量一致性，而 $\Phi( \cdot )$ 表示不同目标之间的排他关系（例如，没有两个目标共享同一检测）。如有新进目标的假设，则将相应目标定义为一个空集 $A_m^{* t-1} = \text{\o}$ 。

Single Target Consistency

该势函数度量假设 $H_{m, x_m}^t$ 与目标 $A_m^{* t - 1}$ 的相容性。数学上，可以将其分解为一元、成对和高阶项，如下所示：

$\begin{aligned} \Psi(A_m^{* t - 1}, H_{m, x_m}^{t}) & = \sum_{i \in H_{m, x_m}^t} \psi_u(A_m^{* t - 1}, d_i) \\ & + \sum_{(i, j) \in H_{m, x_m}^t} \psi_p(d_i, d_j) + \psi_{h}(A_m^{* t - 1}, H_{m, x_m}^t ) \end{aligned}$

$\psi_u$ 使用 ALFD 相似性度量和目标动态特性（5.1节）编码每个检测 $d_i$ 在目标假设 $H_{m, x_m}^{t}$ 中的兼容性。

$\psi_p$ 使用 ALFD 度量 $H_{m, x_m}^{t}$ （5.2节）内检测之间的成对兼容性（假设的自我一致性）。

最后， $\psi_{h}$ 实现了一个长期的平滑度约束和外观一致性（5.3节）。

Mutual Exclusion

该势函数避免选择两个在图像平面上具有较大重叠（排斥力）的目标以及检测的重复分配。
NMOT 没有像匈牙利算法中那样使用“硬”排除约束，而是使用“软”代价函数来提高灵活性并简化计算。如果单目标一致性足够强，则可以克服软惩罚成本。同样，这种表述使得有可能重新使用在第4.3节中讨论的流行图推理算法。势能可以写成如下：
$\begin{aligned} \Phi(H_{m, x_m}^t , H_{l, x_l}^t ) &= \sum_{f=t - \tau}^t \alpha \cdot o^2(d(H_{m,x_m}^t, f), d(H_{l, x_l}^t, f)) \\ & + \beta \cdot \mathbb{I}(d(H_{m,x_m}^t, f), d(H_{l, x_l}^t, f)) \end{aligned}$

其中 $d(H_{m,x_m}^t, f)$ 在时间点 $f$ 给出假设 $H_{m,x_m}^t$ 的相关检测（如果没有，返回 $\text{\o}$ ）， $o^2(d_i, d_j) = 2 * IoU(d_i, d_j)^2$ ，并且 $\mathbb{I}(d_i, d_j)$ 是一个指标函数。式中前者惩罚假设之间有太多重叠，而后者则惩罚检测的重复分配。实验中使用 $\alpha = 0.5$ 和 $\beta = 100$ （足够大以避免重复分配）。

Hypothesis Generation

在实际中 $\mathbb{H}^t$ 的空间很大，因此无法对上述目标函数进行直接优化。为了应对这一挑战，NMOT 首先针对每个目标分别提出了一组候选假设 $H_m$ （图 5 (b)），然后使用 CRF 推理算法找到一个相干解（coherent solution, MAP）。

图 5. NMOT 算法的示意图。（a）给定一组现有目标 $\mathbb{A}^{t-1}$ 和检测 $\mathbb{D}_{t - \tau}^t$ ，（b）使用小轨迹 $\mathcal{T}$ 生成一组候选假设 $\mathbb{H}^t$ 。使用假设构建 CRF 模型，（c）使用推理算法选择最一致的解 $x$ ，并且（d）通过用解 $\mathbb{H}^t(\hat{x})$ 扩展先前的目标 $\mathbb{A}^{t-1}$ 来获得输出目标 $\mathbb{A}^{t}$ 。详情见正文。

由于所有后续步骤都取决于生成的假设，因此拥有一套全面的目标假设至关重要。 NMOT 使用 tracklets 生成现有目标和新目标的假设。注意，由于独立生成每个目标的假设集，因此可以并行执行以下步骤。

Tracklet Generation

对于所有确定的检测（ $\forall d_i \in \mathbb{D}_{t - \tau}^t,\ s.t.\ s_i > 0$ ），使用 ALFD 指标 $a_{A}$ 构建一个 tracklet ：

从某个检测轨迹 $\mathcal{T}_i = \{d_i\}$ 开始，通过贪心算法添加最佳匹配检测 $d_k$ 来增加轨迹，使得 $\ T i m a x j ∈ T i a A ( d j , d k ) k = \mathrm{argmax}_{k \in \mathbb{D}_{t - \tau}^t \backslash \mathcal{T}_i} max_{j \in \mathcal{T}_i} a_{A}(d_j, d_k)$ ，其中 $\ T i \mathbb{D}_{t - \tau}^t \backslash \mathcal{T}_i$ 是 $[t-\tau, t]$ 中不包括 $\mathcal{T}_i$ 中已包含帧的检测集。
如果最佳 ALFD 度量低于 $0.4$ 或 $\mathcal{T}_i$ 已满（检测到 $\tau$ 个），则终止迭代。
此外，从 $\tau, t]$ 中的每个 $A_m^{t- 1}$ 中提取剩余检测，以获得额外的轨迹（即 $\ A m ∗ t − 1 \forall m, A_m^{t -1} \backslash A_m^{*t - 1}$ ）。
由于可以有相同的小轨迹，因此在输出集合 $\mathbb{T}$ 中仅保留唯一的小轨迹。

Hypotheses for Existing Targets

由轨迹集合 $\mathbb{T}$ 为每个现有目标 $A_m^{* t- 1}$ 生成一组目标假设 $H_m^t$ 。为了避免不必要的大量假设，这里采用门控策略：

对于每个目标 $A_m^{* t- 1}$ ，使用具有多项式函数的最小二乘算法24获得目标预测器。实验中根据数据集改变多项式的阶数（MOT 为 $1$ ，KITTI 为 $2$ ）。
如果在 $\tau, t]$ 的任意帧中，预测和 $\mathcal{T}_i$ 中的检测重叠（IoU）大于某个阈值，则将 $\mathcal{T}_i$ 设置为 $H_m^t$ 。在实践中，算法设置保守的阈值 $0.1$ 来获得丰富的假设。
忽略太旧的目标（在 $\tau -T_{active}, t]$ 中没有相关的检测）以减少不必要的计算负担。作者使用 $T_{active} = 1\ sec$ 。

New Target Hypotheses

由于新目标可以在任何时间、任何位置进入场景，因此需要自动识别新目标。可以通过将集合 $\mathbb{T}$ 中的任意小轨迹视为潜在的新目标来自然地识别新目标。我们对轨迹使用非最大抑制，以避免重复的新目标。对于每个 tracklet $\mathcal{T}_i$ ，只需添加一个空目标 $A_m^{* t- 1} = \text{\o}$ 到 $\mathbb{A}^{*T- 1}$ ，并将关联的假设设置为 $H_m^T=\{\text{\o}，\mathcal{T}_i\}$ 。

Inference with Dynamic Graphical Model

一旦有了所有新目标和现有目标的全部假设，就可以将问题表示为无向图模型的推理问题，其中一个节点代表目标，状态是假设索引，如图 5© 所示。这个问题的主要挑战是：

图模型表示可能存在循环；
图的结构取决于每种情况下的假设。

为了有效地得到精确解，NMOT 首先对图的结构进行动态分析，并在结构分析的基础上应用适当的推理算法。

在给定图模型的情况下，使用连接组件分析17找到独立的子图（在图5（c）中用虚线框显示），并对每个子图并行执行独立的推理算法：

如果一个子图由多个节点组成，则使用结点树算法[21, libDAI]来获得对应子图的解。
否则，为目标选择最优假设。

找到状态 $x$ 后，可以通过用 $\mathbb{H}^t(x)$ 扩充 $\mathbb{A}^{* t - 1}$ 来唯一地标识新的目标集： $\mathbb{A}^{* t - 1} + \mathbb{H}^t(x) \rightarrow \mathbb{A}^t$ 。此过程使我们可以调整 $\tau, t]$ 中 $\mathbb{A}^{t - 1}$ 的任何关联（即添加、删除、替换或不修改）。

Model Details

本节将讨论公式3中描述的势函数的详细信息。

Unary potential

如前几节所述，NMOT 使用 ALFD 指标作为比较检测结果的主要关联度量。假设中每次检测的一元势函数可通过以下方法测量：

$\mu_A (A_m^{* t- 1}, d_i) = -\sum_{\Delta t \in \mathcal{N}} a_A(d(A_m^{* t- 1}, t_i - \Delta t), d_i)$

其中 $\mathcal{N}$ 是一组预定义的邻帧距离，而 $d(A_m^{* t- 1}, t_i)$ 给出 $A_m^{* t - 1}$ 在 $t_i$ 帧的关联检测。尽管可以定义任意大集合 $\mathcal{N}$ ，但在建模长期亲和度量时，为了计算效率，作者选择 $\mathcal{N} = \{1, 2, 5, 10, 20\}$ 。

尽管 ALFD 度量在大多数情况下都提供了非常强大的信息，但仍有少许失败情况，包括遮挡、错误的 IPT 等。为补足此类情况，作者设计了一个附加的目标动力学（TD）特性 $\mu_T (A_m^{* t- 1}, d_i)$ 。同样使用在4.2节中讨论的多项式最小二乘预测器，作者将特征定义如下：

$\mu_T(A_m^{* t - 1}, d_i) = \left\{\begin{matrix} \infty,\ \ \ \ if\ o^2(p(A_m^{* t - 1}, t_i), d_i) < 0.5\\ -\eta^{t_i - f(A_m^{* t - 1})} o^2(p(A_m^{* t - 1}, t_i), d_i),\ \ \ \ otherwise \end{matrix}\right.$

其中 $\eta$ 是一个衰减因子（ $0.98$ ），它折算了长期预测， $f(A_m^{* t - 1})$ 表示 $A_m^{* t - 1}$ 的最后一个关联帧， $o^2$ 代表在4.1节中讨论的 $IoU^2$ ，而 $p$ 是在4.2节中描述的多项式最小二乘预测器。

使用这两个度量，NMOT 将一元势函数 $\psi_u(A_m^{* t- 1}, d_i)$ 定义为：

$\psi_u(A_m^{* t - 1}, d_i) = \min(\mu_A(A_m^{* t - 1}, d_i), \mu_T(A_m^{* t - 1}, d_i)) - s_i$

其中 $s_i$ 表示 $d_i$ 的检测分数。 $\mathrm{min}$ 运算符使算法能够在大多数情况下使用 ALFD 度量，但仅当 TD 度量非常有把握时（预测和检测之间的重叠超过 $0.5$ ）才使用它。如果 $A_m^{* t - 1}$ 为空，则势函数变为 $s_i$ 。

Pairwise potential

二元势函数 $\psi_p(\cdot)$ 仅由 ALFD 度量定义。与一元势函数相似，在 $H_{m, x_m}^t$ 中定义检测之间的成对关系，
$\psi_p (d_i, d_j) = \left\{\begin{matrix} -a_A(d_i, d_j),\ \ \ if\ |d_i-d_j| \in \mathcal{N}\\ 0,\ \ \ \ \ \ otherwise \end{matrix}\right.$

它度量假设 $H_{m, x_m}^t$ 的自洽性。

High-order potential

NMOT 采用高阶势函数来调整目标关联过程，使其具有物理可行性和外观相似性。

首先，受[2, GMCP]的启发，NMOT 通过惩罚呈现突然运动的假设来实现物理可行性。
其次，类似于[GMCP]，NMOT 编码了 $A_m^{* t- 1}$ 和 $H_{m, x_m}^t$ 中所有检测之间的长期外观相似性。

直觉由以下势函数编码：
$\begin{aligned} \psi_h (A_m^{* t- 1}, H_{m, x_m}^t) &= \gamma \cdot \sum_{i \in H_{m, x_m}^t} \xi(p(A_m^{* t- 1} \cup H_{m, x_m}^t, t_i), d_i) \\ & + \epsilon \cdot \sum_{(i, j) \in A_m^{* t- 1} \cup H_{m, x_m}^t} \theta - K(d_i, d_j) \end{aligned}$

其中 $\gamma, \epsilon, \theta$ 是标量参数， $\xi(a, b)$ 测量两个框中 $(x, y, h e i g h t)$ 的平方距离之和，且由 $p$ 在 $\tau, t]$ 期间的平均高度正则，而 $K(d_i, d_j)$ 表示关联检测的颜色直方图的交叉核。

NMOT 使用 LAB 颜色直方图的金字塔，其中第一层是整个方框，第二层是 $\times 3$ 的网格。直方图仅使用 A 通道和B 通道，每个通道具有 $4$ 个区间（结果 $\times 4 \times (1+9)$ 区间）。实际中使用 $(\gamma, \epsilon, \theta) = (20, 0.4, 0.8)$ 。

Experimental Evaluation

为了评估所提出的算法，作者使用 KITTI 目标跟踪基准和 MOTChallenge 数据集。

KITTI 跟踪基准由大约 $19000$ 帧（ $\sim32$ 分钟）组成。该数据集由 $21$ 段训练和 $29$ 段测试视频序列组成，这些视频序列是使用安装在车辆顶部的摄像头在行驶中录制的。每个视频序列的帧数从 $78$ 到 $1176$ 帧不等，其中目标对象数量不定（汽车、行人和骑自行车的人）。这些视频以 $10$ FPS录制。数据集非常具有挑战性，因为：

场景拥挤（遮挡和杂乱）
相机不稳定
目标对象出现在任意位置，大小不一

在监视摄像机的多目标跟踪中采用的许多常规假设（技术）在这种情况下不适用（例如固定的进（出）位置、背景减除等）。

MOTChallenge 共计 $11, 286$ 帧（ $\sim16.5$ 分钟），FPS 不统一。数据集由 $11$ 段训练和 $11$ 段测试视频序列组成。其中一些视频使用移动平台录制，另一些则来自监控视频。所有序列只包含行人。组成视频具有各种配置，因此针对特定场景进行了特别调整的跟踪算法通常不会很好地工作。

评估采用了 CLEAR MOT 跟踪指标。为了与其他方法进行公平比较，作者使用了两个数据集提供的参考目标检测。

ALFD Analysis

首先对所提 ALFD 相似性指标进行去除分析。从训练集中选择两个序列，即 KITTI 的0001和 MOTChallenge 的 PETS09-S2L1进行分析。给定所有检测和真实标注，首先找到检测和注释之间的标签关联。对于每个检测，如果重叠大于 $0.5$ ，则分配真实 id。作者在 $1, 2, 5, 10, 20$ 帧距离（ $\Delta t$ ）中收集所有可能的检测对，以获得正负对。以两检测平均高度归一化后的底部中心之间的L2距离（NDist2）以及两者的颜色直方图之间的交叉核（HistIK）作为亲和力度量基线。图 6 和 Table 1. 显示了每个亲和力度量的 ROC 曲线和 AUC。可以观察到，无论摄像机配置和物体类型如何，ALFD 亲和力度量在所有时间范围内均表现最佳。随着时间距离的增加，其他指标如预期的那样很快变得不可靠，而 ALFD 指标仍然可以提供强有力的线索来比较不同的检测结果。

KITTI Testing Benchmark Evaluation

Table 2. 总结了 NMOT 和其他最新算法在整个 $28$ 段测试视频序列的评估准确性（比较也可在 http://www.cvlibs.net/datasets/kitti/eval_tracking.php 中获得，其中包括其他匿名提交）。作者还使用一元匹配函数和匈牙利算法实现了在线跟踪算法（HM）。设置任何代价大于 $- 0.5$ 的匹配为无效匹配。

在随后的评估中，作者设置时间窗口 $\tau = 10$ 并过滤掉只有一个检测或检测分数中值低于 $0$ 的目标。使用卡尔曼滤波器从离散检测集 $\mathbb{A}$ 中获得连续轨迹。

由于 KITTI 评估系统未提供骑车人类别的结果（由于缺乏足够的数据），因此作者报告汽车和行人类别的准确性。作者还以更先进的检测结果（HM+ [32]和{NOMT+ [32]）进行了实验。

MOT Challenge Evaluation

Table 3. 总结了 NMOT 和其他最新算法在 MOTChallenge 测试视频序列上的评估准确性（比较也可在 http://nyx.ethz.ch/view_results.php?chl=2 中获得）。该网站提供了一组使用[9]获得的参考检测。

与 KITTI 实验相似， NMOT 比其他最新的方法有显著的优势。算法实现了最低的身份交换和碎片，同时实现了最高的检测精度（最低的误报（FP）和漏报（FN））。反过来，与其他现有技术相比，NMOT 记录的 MOTA 最高，且领先幅度较大（ $14\%$ ）。这两个实验表明，ALFD 度量和 NMOT 算法通常适用于任意应用场景。

Timing Analysis

为了解 NMOT 方法的及时性，作者通过计算检测时间（ $\mathbb{A}^T$ 中 $d_i$ 的 $t_i$ ）与最后一个关联时间之间的差来测量延迟。最后一个关联时间定义为：

如果在 $t$ 时刻检测 $d_i$ 新添加到目标 $A_m^t$ 或替换 $A_m^{t-1}$ 中的任何其他检测 $d_j$ （例如 $t_i = t_j$ ），记录 $t$ 为 $d_i$ 的最后关联时间；
如果 $d_i$ 在 $A_m^{t-1}$ 中，则对 $d_i$ 的最后关联时间不做任何更改。

最后一个关联时间告诉我们，算法在何时首次将 $d_i$ 识别为 $A_m^T$ （目标 $m$ 的最终轨迹输出）的一部分。KITTI 测试集的平均值和标准差分别为 $0.59\pm 1.75$ ，搭配[32] 为 $0.66\pm 1.87$ （没有延迟的比例为 $84.7\%$ 和 $83.9\%$ ），MOTChallenge 测试集的平均值和标准差分别为 $0.87\pm 2.04$ （没有延迟的占比为 $77.6\%$ ）。这表明 NMOT 确实是一种近乎在线的方法。

NMOT 算法不仅不仅精度高，而且非常高效。利用并行计算，在16核的2.5GHz CPU 上可以实现实时效率（ $\sim 10 FPS$ ）。Table 4. 总结了每个计算模块所花费的时间。

参考资料：

多目标跟踪方法 NOMT 学习与总结
基于层次关联的鲁棒多目标跟踪
Machine learning for high-speed corner detection
MOT 评价指标-“Evaluating Multiple Object Tracking Performance, the CLEAR MOT Metrics”
Multi-Target Multi-Camera Tracking （MTMC Tracking）评价指标
Course 8 An Introduction to theAn Introduction to theKalman FilterKalman Filter
Belief Propagation 解决计算机视觉问题
Histogram intersection(直方图交叉核,Pyramid Match Kernel)
histogram（直方图）里的bin是什么意思呢？

你可能感兴趣的:(MOT)

树莓派用c语言pwm控制电机,树莓派学习笔记之PWM控制直流电机转速简单的艾伦树莓派用c语言pwm控制电机
树莓派控制PWM控制电机转速一、硬件树莓派12V直流电机L298N电机驱动器220V转12V变压器二、连线树莓派与L298N需要共地L298N驱动模块树莓派接线三、树莓派python库配置安装GPIO库sudoapt-getinstallpython3-rpi.gpio电机控制程序importtimeimportRPi.GPIOasGPIO#定义树莓派BCM编码引脚Motor_A_EN=16Mot
mot数据集_MOT数据集转化成VOC格式脚本(mot2voc) 飞啦不休 mot数据集
使用mmdetection检测框架进行相关的训练，由于MOT的数据集标注格式和检测常用的VOC以及COCO格式有很大的差距，因此用于检测任务的时候，需要将mot格式的数据集转化成VOC格式用于检测任务的训练，评估。HUST小菜鸡：将MOT17-Det数据集转成VOC格式zhuanlan.zhihu.com之前我写过一篇将MOT17转化成VOC格式的文章，但是该方法是一个分布的步骤，而且在实际操作过
Emerging Properties in Unified Multimodal Pretraining UnknownBody LLM Daily Multimodal 人工智能
文章主要内容总结本文介绍了字节跳动开源的多模态基础模型BAGEL，其核心目标是通过大规模交错多模态数据预训练，实现统一的多模态理解与生成能力。BAGEL采用仅解码器架构和混合Transformer专家（MoT）设计，在文本、图像、视频和网页数据上进行训练，展现出复杂多模态推理的新兴能力，如自由形式图像操作、未来帧预测、3D操作和世界导航等。实验表明，BAGEL在标准基准测试中显著优于开源模型，并通
【MLLM】字节BAGEL多模态理解和生成统一模型山顶夕景 LLM大模型 #多模态大模型多模态 LLM 大模型多模态生成
Note字节跳动发布BAGEL-7B-MoT混合专家多模态模型，支持视觉理解，文本到图像生成，图像编辑，并且思考模式可以选择开启。官方说要比Qwen2.5-VL和InternVL-2.5表现好。这个模型本身是基于Qwen2.5-7B-Instruct和siglip-so400m-14-980-flash-attn2-navit模型微调的，并使用FLUX.1-schnellVAE模型。多模态模型效果
字节跳动BAGEL-7B-MoT模型开源：多模态AI技术的新范式与行业涟漪未来智慧谷字节跳动技术开源 BAGEL-7B-MoT
在人工智能领域，技术开源与商业化落地的平衡始终是核心议题。2025年5月26日，字节跳动发布开源多模态AI模型BAGEL-7B-MoT，凭借其混合架构设计与跨模态处理能力，在图像生成、视觉理解等任务中展现出与GPT-4o等闭源模型抗衡的实力。这一动作不仅标志着多模态技术进入“轻量化+高性能”的新阶段，更在产业生态中激起多重连锁反应。BAGEL-7B-MoT的核心创新在于混合Transformer专
推荐开源项目：Home Assistant Community Add-on: motionEye - 智能监控的完美伙伴孔旭澜Renata
推荐开源项目：HomeAssistantCommunityAdd-on:motionEye-智能监控的完美伙伴addon-motioneyemotionEye-HomeAssistantCommunityAdd-ons项目地址:https://gitcode.com/gh_mirrors/ad/addon-motioneye项目介绍motionEye是一款强大的开源监控软件，它是针对相机软件mot
异步之舞：FastAPI与MongoDB的深度协奏
title:异步之舞：FastAPI与MongoDB的深度协奏date:2025/05/1819:09:08updated:2025/05/1819:09:08author:cmdragonexcerpt:MongoDB与FastAPI的基础集成方法。首先，环境要求包括Python3.8+、MongoDB4.4+、FastAPI0.95+和Motor3.1+，并提供了依赖安装命令。其次，通过Mot
Windows下创建MOT15数据集的符号链接显示“设备不支持符号链接。”的问题编程绿豆侠 windows 深度学习目标跟踪
写在前面最近在做目标跟踪的项目，然后我想从最基本的SORT算法开始做起，在下载完项目代码，准备看看视频的跟踪效果时，发现需要下载MOT15数据集，按照官方的说明，需要在下载并解压MOT15数据集后创建一个符号链接，如下所示。上面这个是linux环境下的命令，我参考了这篇博文，尝试在Windows环境下创建符号链接，然后出现如下报错：原因我在上网查询资料的时候发现SORT算法的github中有人提出
deepsort训练自己的数据集 reset2021 目标追踪目标跟踪人工智能计算机视觉 DeepSORT
要训练DeepSORT在自己的数据集上，需要完成以下关键步骤。这里提供一个清晰的流程指南：一、数据集准备数据格式要求视频序列（按帧提取为图片）标注文件（MOT格式）：,,,,,,,,目录结构示例：custom_dataset/├──train/│├──seq1/││├──img1/#存放帧图片（如000001.jpg）││└──gt/gt.txt#标注文件│└──seq2/├──test/└──v
使用STM32实现简单的机器人控制 CrMylive. stm32 机器人单片机
以下是一个简单的机器人控制代码示例，使用STM32单片机和带有直流电机驱动器的机器人底盘。代码使用了STM32的HAL库来配置GPIO和定时器，并通过PWM信号控制电机的速度。#include"stm32f4xx_hal.h"//定义左右电机引脚#defineLEFT_MOTOR_A_PINGPIO_PIN_0#defineLEFT_MOTOR_A_PORTGPIOA#defineLEFT_MOT
DeepSORT 目标追踪算法详解 reset2021 目标追踪目标跟踪计算机视觉人工智能
DeepSORT（DeepSimpleOnlineandRealtimeTracking）是多目标追踪（MOT）领域的经典算法，通过结合目标检测、运动预测和外观特征匹配，实现了高效、稳定的实时追踪。其核心思想是通过检测驱动追踪（Tracking-by-Detection），在目标检测的基础上，利用卡尔曼滤波预测目标运动轨迹，并通过Re-ID特征解决遮挡和ID切换问题。一、DeepSORT核心组件1
25/2/18 ＜算法笔记＞ ByteTrack 青椒大仙KI11 笔记
ByteTrack（发表在2021年）是一种高效且精确的**多目标跟踪（Multi-ObjectTracking,MOT）**算法。它属于目标跟踪领域中基于检测的类别（trackingbydetection），核心思想是利用目标检测器的高置信度和低置信度检测结果，通过简单的后处理策略实现高效和准确的目标跟踪。多目标跟踪(MOT)的主要目的是对视频或帧序列中的多个对象进行检测和跟踪。在MOT方法中通
openGauss 扩展FDW与其他openGauss特性 openGaussMan 数据库 openGauss
扩展FDW与其他openGauss特性openGauss基于PostgreSQL，而PostgreSQL没有内置存储引擎适配器，如MySQL的handlerton。为了使MOT存储引擎能够集成到openGauss中，我们利用并扩展了现有的FDW机制。随着FDW引入PostgreSQL9.1，现在可以将这些外表和数据源呈现为统一、本地可访问的关系来访问外部管理的数据库。和PostgreSQL不同的是
Object Tracking ZoneIan 计算机视觉人工智能
目录ECCV2022ECCV2020ICCV2023CVPR2023CVPR2022ECCV20221.（MOT、指标）MOTCOM:TheMulti-ObjectTrackingDatasetComplexityMetric2.（鱼数据集、声呐视频、MOT）TheCaltechFishCountingDataset:ABenchmarkforMultiple-ObjectTrackingandC
多目标检测与跟踪技术详解小厂程序猿目标检测人工智能计算机视觉
导言在计算机视觉领域，多目标检测与跟踪（Multi-ObjectTracking,MOT）是一个至关重要的研究方向。它涉及到在视频序列中同时跟踪多个目标，如行人、车辆等。本文将深入探讨多目标检测与跟踪的核心算法和相关挑战。1.基于检测的跟踪算法这类算法首先进行目标检测，然后根据检测到的目标位置进行跟踪。代表性的方法包括JDE(JointDetectionandEmbedding)和SORT(Sim
【目标跟踪】相机运动补偿读书猿目标跟踪自动驾驶目标检测
文章目录一、前言二、简介三、改进思路3.1、状态定义3.2、相机运动补偿3.3、iou和ReID融合3.4、改进总结四、相机运动补偿一、前言目前MOT(MultipleObjectTracking)最有效的方法仍然是Tracking-by-detection。今天给大家分享一篇论文BoT-SORT。论文地址，论文声称很牛*，各种屠榜，今天我们就来一探究竟。主要是分享论文提出的改进点以及分享在自己的
[MOT Challenge]官方生成多目标跟踪算法性能评价指标结果，解决test数据集没有gt文件和官网注册问题 Bartender_Jill 目标跟踪人工智能计算机视觉
文章目录⭐⭐⭐内容修正前言一、账号注册1.不要用QQ或163或gmail邮箱2.正常注册流程二、上传测试结果的流程1.使用步骤总结⭐⭐⭐内容修正我先前于2023/4/5日的时候在文章里提到：“提交到官网的文件需要包含测试后的训练集结果和测试后的测试集结果”，该结论经过测试后发现有误。个人于2023/12/8日在评论区的提醒下对MOTChallenge的内容提交进行了重新测试，发现提交到官网的文件并
多目标跟踪MOT16数据集和评价指标 pprpp
最近要做一个有关多目标跟踪的项目，刚刚接触MOT，所以先来了解一下MOT16这个比较经典的数据集以及比较经典的评价标准。1.多目标跟踪多目标跟踪处理的对象是视频，从视频的第一帧到最后一帧，里边有多个目标在不断运动。多目标跟踪的目的就是将每个目标和其他目标进行区分开来，具体方法是给每个目标分配一个ID，并记录他们的轨迹。已开始接触，可能觉得直接将目标检测的算法应用在视频的每一帧就可以完成这个任务了。
【国产数据库】GBase学习④ - GBase 8c 介绍洁癖丶 GBase学习数据库 mysql java
【国产数据库】GBase学习④-GBase8c介绍GBase8c介绍GBase8c分布式架构介绍GBase8c介绍MOT是一种内存数据库存储引擎，其中所有表和索引完全驻留在内存中。同时，事务更改（WAL）同步到磁盘上来保证严格一致性。GTM采用基于全局事务提交时间戳的方案代替全局活跃事务列表的方案来管理全局事务。DN节点部分场景仍采用活跃事务列表的方式管理事务。分布式数据库的诞生是为了解决集中式数
基于深度学习的多目标跟踪算法 LittroInno YOLO 目标跟踪人工智能
基于深度学习的多目标跟踪（MOT，Multi-ObjectTracking）算法在近年来取得了显著的进步。这些算法主要利用深度学习模型对视频中的多个目标进行检测和跟踪。在介绍一些常见的深度学习多目标跟踪算法之前，我们首先了解一下其基本概念和挑战：目标检测：首先识别视频帧中的目标（如人、车辆等）。数据关联：将连续帧中的检测结果关联起来，形成目标的轨迹。状态估计：估计目标在视频帧中的位置和其他属性（如
哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪？ AYu~ 汽车自动驾驶 3d
原文链接：https://arxiv.org/pdf/2309.06036.pdf摘要：由于高级驾驶员辅助系统（ADAS）和自动驾驶（AD）对三维感知的需求不断扩大，在线3D多目标跟踪（MOT）最近受到了极大的研究兴趣。在现有的ADAS和AD的3DMOT框架中，使用检测跟踪（TBD：tracking-by-detection）策略的传统点目标跟踪（POT-pointobjecttracking）框
基于YOLOv8的目标跟踪技术 AI小怪兽深度学习实战教程 YOLO 目标跟踪人工智能机器学习算法计算机视觉
本文摘要：介绍了YOLOv8自带的目标跟踪技术以及评价指标，并教会你如何在YOLOv8使用1.YOLOv8自带两种跟踪方法ultralytics/cfg/trackers/文件夹下1.1ByteTrack介绍https://arxiv.org/pdf/2110.06864.pdf摘要：沿着多目标跟踪（MOT）中tracking-by-detection的范式，我们提出了一种简单高效的数据关联方法B
基于YOLOv7算法和MOT20数据集的高精度行人目标检测识别系统（PyTorch+Pyside6+YOLOv7） BestSongC YOLO 算法目标检测 pytorch 目标跟踪
摘要：基于YOLOv7算法和MOT20数据集的高精度行人目标检测系统可用于日常生活中检测与定位行人，此系统可完成对输入图片、视频、文件夹以及摄像头方式的目标检测与识别，同时本系统还支持检测结果可视化与导出。本系统采用YOLOv7目标检测算法来训练数据集，使用Pysdie6框架来搭建桌面页面系统，支持PT、ONNX等模型权重作为系统的预测模型加载。本系统实现的功能包括：模型权重的选择与初始化；检测置
多目标追踪——【两阶段】ByteTrack: Multi-Object Tracking by Associating Every Detection Box zz的大穗禾 MOT 论文阅读计算机视觉目标检测深度学习
目录文章侧重点追踪框架伪代码实验MOT17BDD100K论文链接：ByteTrack:Multi-ObjectTrackingbyAssociatingEveryDetectionBox提取码：tz60开源代码：https://github.com/ifzhang/ByteTrackMOT17数据集链接链接提取码：qqzd文章侧重点本篇文章遵信了多目标追踪（MOT）的Tracking-by-det
目标追踪：使用ByteTrack进行目标检测和跟踪小北的北目标检测人工智能计算机视觉
BYTE算法是一种简单而有效的关联方法，通过关联几乎每个检测框而不仅仅是高分的检测框来跟踪对象。这篇博客的目标是介绍ByteTrack以及多目标跟踪（MOT）的技术。我们还将介绍在样本视频上使用ByteTrack跟踪运行YOLOv8目标检测。多目标跟踪（MOT）你可能听说过目标检测，有许多算法如FasterRCNN、SSD和YOLO的各个版本，它们可以以很高的准确性检测物体。但有一个更新的问题是多
[论文阅读笔记27]Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking wjpwjpwjp0831 读文献 MOT 多目标跟踪论文阅读笔记计算机视觉人工智能目标跟踪深度学习
论文地址:论文这篇文章的写作和创新点都比较标准,且在VisDrone数据集上进行的训练,因此做一篇笔记.这篇文章主要通过数据增强的方式增加模型被实际背景遮挡的情况,并且通过硬掩码让网络在训练时更能区分前景和背景.在致力于解决遮挡问题的MOT的工作中,也是一篇比较有趣的.0.Abstract在MOT任务中,遮挡一直是一个有挑战性的问题.遮挡不仅会降低检测效果,导致轨迹碎片化,还会影响Re-ID的精度
[论文阅读笔记28] 对比学习在多目标跟踪中的应用 wjpwjpwjp0831 多目标跟踪读文献 MOT 论文阅读笔记学习人工智能目标跟踪算法
这次做一篇2D多目标跟踪中使用对比学习的一些方法.对比学习通过以最大化正负样本特征距离,最小化正样本特征距离的方式来实现半监督或无监督训练.这可以给训练MOT的外观特征网络提供一些启示.使用对比学习做MOT的鼻祖应该是QDTrack,本篇博客对QDTrack及其后续工作做一个总结.持续更新…1.QDTrack论文:QDTrack:Quasi-DenseSimilarityLearningforAp
目标跟踪 MOT数据集和可视化 AI视觉网奇自动驾驶目标跟踪人工智能计算机视觉
目录MOT15数据集格式简介gt可视化本人修改的GT可视化代码：MOT15数据集格式简介以下内容转自：【目标跟踪】MOT数据集GroundTruth可视化-腾讯云开发者社区-腾讯云MOT15数据集下载：https://pan.baidu.com/s/1foGrBXvsanW8BI4eybqfWg?pwd=8888以下为一行gt示例：1,1,1367,393,73,225,1,-1,-1,-1各列数
《峰值体验》1至8章读后感目一目
这本书的作者用缜密的框架让我们洞察MOT收益和未来发展的最主要因素，针对我们服务的对象，只有切实了解顾客的需求，’一见就进、一进就买、一买再买、一传千里’的进店、转化、复购、推荐四大维度切入，透过分析方法与技巧，找到消费者的关键时刻，然后再把这种关键时刻融入到体验设计之中打造峰值，完成商业落地。”这是一个完整而且成功的品牌营销流程，我们从而先一步一步引领他们对我们的设计的有更多的购买欲。和对已购买
关键时刻MOT132～162页阅读王玉增之成长
图片发自App沟通技巧，蕴藏着人际交往艺术！成功的领导者不能沉默寡言或者害羞^_^，沟通的目的是说服观众，明确目的！读到了拉佛曲线，给大家普及一下概念！哈哈哈图片发自App遇到不懂得问题记得去查阅文献！生活就是一种状态，忘我的投入才能活的精彩纷呈！图片发自App每个人都希望自己的贡献得到赏识，对工作的自豪感才是最高的回报！余生做一个值得被投资的人，十年之后做一个投资他人的人！加油，你可以的！如果我
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S