哈哈哈哈嘿嘿嘿

多目标跟踪综述：Multiple Object Tracking: A Literature Review

原文链接（每年都会更新，现在是v4，2017年5月）：Multiple Object Tracking: A Literature Review

摘要

多目标跟踪因其学术和商业潜力，在计算机视觉中逐渐备受关注。尽管如今已经有多种多样的方法来处理这个课题，但诸如目标重叠、外观剧变等问题仍然是它所面临的重大挑战。在本文中，我们将提供关于多目标跟踪最综合、最新的资讯，检验当下最新技术突破，并对未来研究提出几个有趣的方向。据我们所知，关于这个课题还没有被广泛调查研究过，因此我们将尽力提供近世纪以来关于多目标跟踪最全面的介绍。本文的主要贡献点如下四条：1）多目标跟踪系统的关键方向，包括公式(formulation)，分类(categorization)，关键原则(key principles)，以及测评(evaluation)；2）根据现有技术所属的不同方向来进行讨论，再将每个方向的方法划分为成组，然后对组内方法的原则、优缺点进行讨论；3）检验现有公开的实验并且总结在主流数据集上的实验结果，再进行量化地对比，与此同时指出分析中发现的几个有趣的问题；4）提供在MOT研究中会遇到的问题的讨论，以及可能在以后的工作中会出现的潜在可研究方向。

1、介绍

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个感兴趣的目标进行定位，并且维持他们的ID、记录他们的轨迹。这些目标可以是路上的行人【1~2】，路上的车辆【3~4】，操场上的运动员【5~7】，或者多组动物（鸟【8】，蝙蝠【9】，蚂蚁【10】，鱼【11~13】，细胞【14~15】，等等），甚至是一个单目标中的不同部分【16】。在本文中我们主要关注行人跟踪的研究，有如下三个原因：第一，与生活中其他物体相比，行人是典型的非刚体目标，MOT的理想例子；第二，在实际应用中存在大量的含有行人的视频，这意味着巨大的商机；第三，据数据统计，至少70%的MOT研究都是针对行人的。

作为计算机视觉中的一项中级(mid-level)任务，多目标跟踪依赖于高级(high-level)任务，如姿态估计【17】，动作识别【18】和行为分析【19】。它有许多实际应用，如视频监控【20】，人机交互【21】和虚拟现实【22】。这些实际需求引起了人们对这一话题的极大兴趣。与之相对的，单目标跟踪(Single Object Tracking, SOT)主要集中在设计复杂的外观模型和/或运动模式，解决具有挑战性的问题如尺度变化，出平面旋转和光照变化，而多目标跟踪还有额外的两个任务需要解决：确定目标的数量（通常随时间变化），和维持各自的ID。除了SOT和MOT的共同问题外，MOT还需要处理更复杂的关键问题包括：1）频繁遮挡；2）轨道初始化和终止；3）相似的外观；4）多目标间的相互影响。为了解决所有这些问题，在过去的几十年里，人们提出了广泛的解决方案。这些解决方案集中在MOT系统的不同方面，使得MOT研究人员，特别是新手，很难对这个问题有全面的了解。因此，在本文中，我们提供了关于多目标跟踪问题各个方面的详细讨论。

1.1、与其他相关综述的不同

据我们所知，关于多目标跟踪的问题还没有一个全面的文献综述。然而，也有一些与多目标跟踪有关的其他文献资料，如表1所示。我们将这些文献分为三组，然后着重指出我们之间的差异如下：

第一类【19~21】【23~24】在将跟踪作为一个单独部分来讨论的同时，还详细讨论了MOT的各个方面。例如，将目标跟踪作为高级任务的过程中的一个步骤进行讨论，如人群建模【19】【23~24】。类似地，在【20~21】中，将目标跟踪划为行为识别【21】或视频监视系统【20】的一部分。

第二类【25~28】专注于一般视觉跟踪技术【25~27】或一些特定的问题如外观模型【28】，但这类文献涉及范围更广。相反，本文更全面地关注多目标跟踪。

第三类【29~30】介绍并讨论一般视觉跟踪【29】和特定的多目标跟踪的基准(benchmark)【30】，他们更注重实验研究而不是文献综述。

1.2、贡献

1.3、本文组织结构

1.4、外延符号(Denotations)

2、MOT问题

2.1、问题公式(Formulation)

在过往研究中，MOT问题已经从不同的角度形成了不同公式，这使我们很难从高层的角度来理解这个问题。本文中，我们泛化了公式，并认为现有的研究可以由这些公式统一。据我们所知，这项尝试以前从未有过。

通常来说，多目标跟踪可以认为是多变量估计问题。给定一个图像序列，表示第t帧第i个目标的状态，表示在第t帧下所有目标的状态序列，表示第i个目标的状态序列，其中和分别表示目标i出现的第一帧和最后一帧，表示所有目标从第一帧到第t帧的状态序列。需要注意的是每一帧目标的ID都可能不同。

相应的，在最常用的tracking-by-detection，或Detection Based Tracking(DBT)结构下，表示第t帧第i个观测目标(observation)，表示在第t帧下所有目标的观测目标，表示所有目标从第一帧到第t帧的观测目标序列。

多目标跟踪的目的是找到所有目标“最好的”状态序列，在所有观测目标的状态序列上的条件分布上，可以通过使用MAP(maximal a posteriori)估计法泛化建模得到：

以往研究中提到的不同MOT算法，其目的现在可以被认为是设计不同方法来解决上述的MAP问题。它们的方法要么是基于概率预测方面的【6】【31~37】，要么是基于决策优化方面的【16】【38~48】。

基于概率预测的方法通常用两步迭代算法来解决式（1）的，其中是动态模型，是观测模型。

基于决定性优化的方法则是直接最大化概率函数，在观测集上作为代表：

或最小化能量函数：

其中Z是归一化因子，保证是一个概率分布。

2.2、MOT分类(Categorization)

由于难以使用一个通用的标准来对一个特定的MOT方法进行分类，所以我们使用多个标准来区分MOT方法。接下来将会根据三个标准划分：初始化方法、处理模式和输出类型。至于选择上述三种的原因是，这符合一个任务的自然流程。

2.2.1、初始化方法

大多数现存的MOT研究可以根据目标如何初始化分为两类：Detection-Based Tracking(DBT)和Detection-Free Tracking(DFT)。

DBT：如图1上层所示，首先检测目标，然后链接到轨迹中。这种策略也通常被称为“tracking-by-detection”。给定一个序列，在每帧中进行特定类型的目标检测或运动检测（基于背景建模）【50~51】，得到目标假设，然后进行顺序或批量跟踪，将检测假设连接到轨迹中。有两个问题值得注意：第一，由于提前训练目标检测器，DBT大部分关注特定的目标类型，如行人、车辆或人脸。第二，DBT的性能非常依赖于所采用的目标检测器的性能。

DFT：如图1下层所示，DFT【52~55】需要在第一帧手动初始化一定数量的目标，然后在后续帧定位这些物体。
相对来说，DBT更受欢迎，因为它可以自动发现新目标、自动终止消失的目标。而DFT就不能处理新目标出现的情况，但它不需要提前训练目标探测器。表3列出了DBT和DFT之间的主要差异。

2.2.2、处理模式

MOT也可以分为online跟踪核offline跟踪，其差别在于在处理当前帧时，后几帧的观测目标是否被利用到。Online，也成为causal，只依靠直到当前帧的前面的信息。相对的ffline则能使用未来帧的信息。

Online跟踪：在online跟踪【52~54】【56~57】中，图像序列是一步步处理的因此该跟踪方式也称序列跟踪。如图2上层所示，a,b,c三个圈表示三个不同的目标，绿色箭头表示过去的观测目标，其结果由目标的位置和ID表示。

Offline跟踪：Offline跟踪【1】【46~47】【51】【58~63】利用一组帧来处理数据。如图2下层所示，来自所有帧的观测目标需要提前获取，然后经分析计算组成最后的输出。注意到由于计算复杂度和内存限制，不总是一次性处理所有帧，而是考虑将数据分成几个短一点的视频，对于每组分层或顺序处理得到结果。表4列出了两类处理模式的不同。

2.2.3、输出类型

这个标准根据输出的随机性将MOT方法分成基于决策的和基于概率的。基于决策的跟踪输出是恒定的无论运行方法多少次，而基于概率的跟踪每次运行都可能产生不同输出结果。两者差异来源于2.1节提到的优化方法。

2.2.4、讨论

3、MOT组成成分

在设计MOT算法的时候有两个问题需要考虑：一个是怎样测量帧内目标的相似性，另一个是基于这个相似性怎样判断帧间目标是否相同。前者主要包括外观，运动，交叉，排斥和碰撞的建模问题，后者主要和数据关联有关。

3.1、外观模型

外观是MOT中重要的计算相似度(affinity)的途径，在单目标跟踪中，复杂的外观建模主要用于将目标和背景区分开来，而大多数MOT方法则不将其作为核心建模方法。从技术上可以将外观模型分为视觉表示和统计测量，前者基于单特征或多特征来描述一个目标，后者则是计算不同目标间的相似性。例如目标i和j间的相似性可以写成：

其中和是不同观测目标的视觉表示，F(·,·)是测量它们相似性的函数。

3.1.1、视觉表示

如图3，根据特征的不同，视觉表示也就不同。我们将特征按如下分类：

Local features：KLT善于寻找好的用于跟踪的特征，得到了这些特征之后，我们可以用来生成短轨迹(trajectories)【62】【74】、估计摄像头运动【63】【75】，运动聚类【68】等等。光流法也可以认为是local features当我们将像素单位作为最佳local范围时，许多MOT方法在进行数据关联前都会利用光流法来生成短轨迹(tracklets)【76~77】，又由于光流法与运动息息相关，它也常用来对运动信息编码【78~79】，还有一类特殊的应用是在拥挤场景中寻找人群运动规律【35】【69】，这是其他特征所不能做到的。

Region features：和local features相比，region features在更广的范围内搜索例如bounding box。我们按次序对它分类：zero-order，fist-order，up-to-second-order。在这里次序表示当计算表示时差异的次序，举例来说，zero-order表示像素值不进行比较，one-order表示像素值的差异只计算一次。

Zero-order：最常用的表示方法，经典例子是颜色直方图【34】【62】【71~72】【77】以及原始像素(raw pixel)模板【80】。
First-order：基于梯度的表示方法例如HOG【18】【32】【60】【77】【81】和水平集公式(level-set formulation)【71】经常被使用。
Up-to-second-order：区域协方差矩阵【82~83】，被用于【52】【60~61】。

Others：例如深度，常用于提炼检测假设【71】【84~87】，占有概率图(Probabilistic Occupancy Map, POM)【42】【88】，常用与估计一个目标出现在特定区域单位的概率，还有步态(gait)特征，对于每个人来说是不一样的【62】。

Discussion：颜色直方图经常使用，然而其忽略了目标区域的空间分布。Local features是高效的，但是对遮挡和平面外旋转(out-of-plane)敏感。基于梯度的特征例如HOG可以描述目标的形状并且对一定变化例如光照有适应性，但它不能很好地处理遮挡和变形。区域协方差矩阵相对来说比较鲁棒因为它们使用了较多的信息，但同时带来了较高的计算复杂度。深度特征使相似性的计算更准确，但它需要同一场景的多视角信息或者额外算法【89】来获取深度。

3.1.2、统计测量

在上一步视觉表示的基础上，统计测量计算两个观测目标间的相似度，其中又可分为单线索(single cue)和多线索(multiple cue)的方法：

Single cue:使用single cue进行外观建模的要么是将距离转换为相似性，要么直接计算相似度。例如，归一化互相关(Normalized Cross Correlation, NCC)常用来对使用原始像素模板方法的两对应区域进行计算【2】【69】【80】【90】。在颜色直方图中，巴氏(Bhattacharyya)距离常用来计算两直方图和间的距离，然后将该距离转换成相似性【31】【36】【58】【62~63】【91】，或者将距离放入高斯(Gaussian)分布中如【38】。相异性(dissimilarity)转换成概率还能用协方差矩阵来表示。除此之外，在基于点特征表示方法【33】上还能用到磁带(bag-of-words)模型【92】。

Multiple cues:不同的cues可以进行互补使外观模型更加鲁棒，我们基于5种融合策略来构建多线索外观模型如表5：

Boosting：从特征池中序列地选择一部分特征来进行基于boosting的算法，例如在【60】，【49】和【40】中，对于颜色直方图，HOG，和协方差矩阵描述子，分别采用AdaBoost，RealBoost和HybirdBoost算法来区分不同目标各自的tracklets。
Concatenation：可以将不同特征连接起来计算。在【46】中就连接了颜色，HOG和光流。
Summation：将通过不同特征得到的相似度加权求和【71】【93】【94】。
Product：跟加权求和不同的是将得到的相似度相乘【33】【51】【95】【96】，需要注意的是采用这种方法往往需要进行独立性假设。
Cascading：将使用不同方法的视觉表示级联计算，通常可以缩小搜索范围或者由粗到细地对外观建模。

多目标跟踪综述：Multiple Object Tracking: A Literature Review_第5张图片

3.2、运动模型

运动模型捕捉目标的动态行为，它估计目标在未来帧中的潜在位置，从而减少搜索空间。在大多数情况下，假设目标在现实中是平缓运动的，那么在图像空间（除了突然运动）也是如此。我们将在下面讨论线性运动模型和非线性运动模型。

3.2.1、线性运动模型

线性运动模型是目前最主流的模型【32】【97~98】，并且通常在模型中假设目标匀速运动【32】，基于这个假设，有三种不同的方法构建模型：

通过使后继帧中的目标速度变化得平稳一些来达到速度平整性(smoothness)。在【45】中由损失函数（5）实现，其中是对N帧M个trajectories或目标进行求和：

位置平整性直接影响观测位置和预测位置的差异。举【31】为例，△t是tracklet头尾间的间隔，那么其平整性就通过将预测位置代入以观测位置为中心的高斯分布中达到。在估计阶段，前向运动和后向运动都需要考虑，因此线性运动模型的相似度就有式（6），其中"F"和"B"分别表示前向(forward)和后向(backward)，同时，观测位置和预测位置之间的偏移量△p符合以0位中心的高斯分布。其他关于此类建模方法的例子还有【1】【7】【58~60】【99】。

第三种方法是加速度平整性【99】。在k时刻观测目标的tracklet的运动状态的概率分布有式（7），其中是速度，是加速度，N是均值为0的高斯分布。

3.2.2、非线性运动模型

虽然线性运动模型比较常用，但由于存在它解决不了的问题，非线性运动模型随之诞生。它可以使tracklets间运动相似度计算得更加准确，例如【47】就使用非线性运动模型处理目标自由移动的问题。如图4a，给定属于同一目标的tracklet T1，T2，线性运动模型【59】将它们连接的概率很低。但如果利用非线性运动模型，T1的尾巴和T2和头部之间的间隔可以用T0∈S模拟解释，其中S是support tracklets的集合。如图4b，T0匹配T1尾巴和T2头部，那么T1和T2之间就可以用T0联通，同时，它们的相似度可以由上一节计算得到。

3.3、交互模型(Interaction Model)

交互模型也称为相互运动模型，它捕捉目标对其他目标的影响。在拥挤场景中，目标会从其他的目标和物体中感受到“力”。例如，当一个行人在街上行走时，他会调整他的速度、方向和目的地，以避免与其他人碰撞。另一个例子是当一群人穿过街道时，他们每个人都跟着别人，同时引导其他人。事实上，这是两个典型交互模型的例子，这些模型被称为社会力模型【100】和人群运动模式模型【101】。

3.3.1、社会力模型(Social Force Models)

社会力模型也被称为群体模型。在这些模型中，每个目标都被认为依赖于其他目标和环境因素，这种信息可以缓解拥挤场景中跟踪性能的下降。在社会力模型中，目标会根据其他物体和环境的观察来确定它们自己的速度、加速度和目的地。更具体地说，在社会力模型中，目标行为可以由两方面建模而成：基于个体力和群体力。

Individual force：对于一组目标中的每个个体都有两种力需要考虑

保真度(fidelity)，表示某个体不会改变他原定目的地。
稳定性(constancy)，表示某个体不会突然改变他的动量，包括速度和方向

Group force：对于整个组需要考虑三种力：

吸引力(attraction)，表示组内个体间距离较近
排斥力(repulsion)，表示组内个体间保持一定距离
一致性(coherence)，表示组内个体有相似的速度

3.3.2、人群运动模式模型(Crowd Motion Pattern Models)

受到人群仿真技术【23】的启发，其运动模式也被用于进行人群中的目标跟踪。通常这类模型适用于目标密度非常高的超密集场景，这时目标都比较小，那些外观、个人运动模式线索就会受到极大干扰，所以人群运动模式就相对比较适合。

该类模式又分结构化模式和非结构化模式，结构化模式主要得到集体的空间结构而非结构化模式主要得到不同个体运动的模式(modalities)。通常来说，运动模式由不同方法学习得到例如ND tensor voting【74】，Hidden Markov Models【36】【104】，Correlated Topic Model【76】，甚至考虑场景结构【69】，然后运动模式可作为先验知识辅助目标跟踪。

3.4、排斥模型(Exclusion Model)

排斥是在寻找解决MOT的方法时，为了避免物理碰撞规定的约束，这种约束在现实中也是成立的比如两个不同的目标不能同时出现在同一个物理位置中。对于给定的多个检测响应(responses)和多个trajectory假设，通常存在两个约束，第一个是检测层面的排斥(detection-level exclusion)【105】，例如在同一帧中两个不同的检测响应不能被分配给同一个目标，第二个是轨迹层面的排斥(trajectory-level exclusion)，例如两条轨迹不能无限逼近彼此。

3.4.1、检测层面的排斥模型

"soft" modeling：通过最小化损失函数去惩罚违反约束的例子称为软建模：有这样一种特殊排斥图，给定所有的检测响应，这些检测响应就代表图中的结点，每个结点只和同时存在的另一些结点相连，在图构建完成后，通过排斥约束，鼓励连接结点像Tr(YLY)一样拥有不同标记值，使分配的标记值最大化。其中L代表拉普拉斯(Laplacian)矩阵，表示所有|V|个结点分配的标记值，Tr(·)表示矩阵中的轨迹范数(trace norm)。

"hard" modeling：通过在检测层面添加补充额外的约束来硬建模。...

3.4.2、轨迹层面的排斥模型

通常来说如果两靠的较近的检测假设拥有不同的轨迹，那么将受到轨迹层面排斥模型的惩罚。...

3.5、遮挡处理

遮挡是MOT最难处理的问题之一，这也是ID交换(ID switches)和轨迹分段的主要原因。

3.5.1、部分到整体(Part-to-whole)

该策略是建立在目标的一部分仍可见的假设上的，也确实在大部分情况发生。一种比较流行的方法是将全局目标（类似一个跟踪框,bounding box）分割成几个部分，然后对每个部分计算相似度，具体来说就是当发生遮挡时，被遮挡的那些部分的相似度权重降低，而提高没被遮挡部分的相似性权重。至于如何进行分割，有将目标均匀地切分成一个个格子的【52】，也有以某种形态例如人来切分目标的，比如在【49】中分成了15个不重叠的部分，还有在【77】【111】中由DPM检测器【110】得到的部分。

重构误差用于判断某个部分是否被遮挡。外观模型只根据可见部分进行更新是"hard"的方法，也存在"soft“方法在【49】中。两tracklets j和k之间的相似度可由下式计算得到，其中f是特征，i是部分的下标，权重由部分间的遮挡关系学习得到。在【77】中，通过人身体部分的连接可以得到部分的轨迹，进一步得到整个人的轨迹。

"Part-to-whole"策略也可以应用在基于点聚类特征的跟踪中，其中点聚类特征认为具有相似运动的特征点都属于相同目标，只要一个目标的一些部分仍然可见，那么这个方法就是可行的【62】【68】【112】。

3.5.2、假设与测试(Hypothesize-and-test)

该策略不直接处理这档问题，而是根据已有的观测目标，先进行假设，然后测试假设是否成立来解决问题。

Hypothesize：【38】基于距离和尺度都相近的观测目标对，来生成遮挡假设，假设被遮挡，对应的遮挡假设就是，其中，分别是的位置和时间戳，和分别是的大小和外观特征。这个方法将遮挡视为干扰，而在其他研究【113】【114】中，遮挡模式被用来辅助检测，更具体来说，不同的检测假设由融合了两种不同程度和模式的遮挡的目标综合结合而成，如图5.

Test：在【38】中，假设观测和原观测一起作为损耗流框架的输入，然后使用MAP来得到最优解。在【114】和【113】中，多行人检测器是在检测假设上进行训练的，这样就大大降低了检测碰撞的难度。

3.5.3、缓冲与恢复(Buffer-and-recover)

该策略在发生遮挡前记录目标状态并且将发生遮挡时的观测目标存入缓冲区中，当遮挡结束后，目标状态基于缓冲区的观测目标和之前记录的状态恢复出来。当发生遮挡时，【71】保持最多15帧的trajectory，然后推断发生遮挡时潜在的轨迹。当目标重新出现时，重新进行跟踪并且ID也维持不变，在【34】中使用到这种方法。当跟踪状态因为遮挡而产生歧义时观测模式就会启动【115】，只要有足够的观测目标，就会产生假设来解释观测目标。以上就是"buffer-and-recover"策略。

3.5.4、其他

除了上述方法外，还有一些其他方法例如，【116】将目标作为在图像空间中的高斯分布，然后显式地对所有目标对的遮挡率，以部分能量差函数的形式建模；还有将多种方法结合起来进行遮挡处理。

3.6、预测(Inference)

3.6.1、概率预测(Probabilistic Inference)

概率预测方法通常将目标状态作为不确定的分布，而跟踪算法的目的是基于现有的观测目标，用多种概率学方法去估计那个概率分布。这类算法通常只需要过去或现在的观测目标，所以它也特别适合online跟踪。因为只有现存的观测目标才被用于估计，所以可以很自然地在目标状态序列中使用Markov特性假设，该假设包括两方面，让我们回顾2.1节的公式。

第一，当前目标状态只依赖于之前的状态，其次，当使用一阶(first-order)Markov特性时则只依赖于最后一个状态，即。

第二，观测目标只和它的状态有关，也就是说，它是条件独立的，即。

这两方面各自和动态模型和观测模型有关，前者与跟踪策略相关，后者则提供有关目标状态的观测测量。预测(predict)一步是根据之前的观测来估计当前的状态，具体来说，当前状态的后验概率分布，是通过以动态模型来整合上一目标状态空间，从而估计得到的。更新(update)一步是根据观测模型得到的测量来更新状态的后验概率分布。

根据这些等式，目标状态可以通过迭代计算predict和update两步来得到，然而实际上，目标状态分布不能不先简化假设，因此没有能计算得到完整状态分布的解法。另外，对于多目标而言，状态集的维数是非常大的，导致整合步骤更加困难，因此需要有对应的降维方法。

多种多样的概率预测模型被用于多目标跟踪中【36】【95】【117~118】，例如卡尔曼滤波【35】【37】，扩展卡尔曼滤波【34】以及粒子滤波【32~33】【52】【93】【119~122】。

卡尔曼滤波(kalman filter)：适用于线性系统和服从高斯分布的目标状态。

扩展(Extended)卡尔曼滤波：通过泰勒展开(Taylor expansion)估计，进一步适用于非线性系统。

粒子滤波(Particle filter)：基于蒙特卡洛采样(Monte Carlo sampling)的模型在粒子滤波算法问世后风靡一时【10】【32~33】【52】【93】【119~121】。该方法用一组有权重的粒子来对分布建模，从而通过改变自己的分布可以得到任意的假设【32~33】【36】【93】。

3.6.2、确定性优化(Deterministic Optimization)

相对于概率预测，确定性优化旨在是找到MOT最大的后验解决(maximum a posteriori, MAP)办法。这种方法更适合offline跟踪，因为需要提前获得所有帧的观测目标，然后全局性地将属于同一目标的观测目标串联成一条轨迹，关键问题在于怎样找到最优的连接。

Bipartite graph matching：通过将MOT问题建模成偶图匹配，两个不相交的结点集在online跟踪中可以存在trajectories和新的检测目标，或者在offline跟踪中存在两个tracklets集，结点间的权重则代表trajectories和检测目标间的相似度，然后要么使用贪心偶匹配算法【32】【111】【123】，要么使用匈牙利(Hungarian)优化算法【31】【39】【58】【66】【124】，来决定两结点集如何进行匹配。

Dynamic Programming：扩展动态规划【125】，线性规划【126~128】，二次布尔规划(quadratic boolean programming)【129】，最短K路径(K-shortest paths)【18】【42】，集合覆盖(set cover)【130】和subgraph multicut【131】【132】，都是被用于解决检测目标和tracklets之间关联问题的方法。

Min-cost max-flow network flow：网络流是一个带有权重边的有向图。对于MOT，图中结点是检测响应或tracklets，流是连接两个结点的指示器，为了满足流平衡的需求，需要增加源(source)节点和汇聚(sink)节点，如图6。一个trajectory对应一个流边，从源节点转移到汇聚节点的总流数等于trajectories的数目，转移损耗是所有连接的假设的负对数似然(negative log-likelihood)，注意，全局最优解可以在多项式时间内得到，例如使用push-relabel算法。这类方法在【18】【38】【41】【43】【90】【133】都被使用到。

Conditional random field：在【1】【59】【105】【134】中都有使用到这种方法。定义一个图G=(V,E)，其中V是结点集，E是边集，低层(low-level) tracklets作为图的输入，每个结点表示观测目标【105】或者tracklets对【59】，每个label通过预测得到，然后用来推断都是观测目标属于哪些track跟踪目标或者来连接哪些tracklets。

MWIS(maximum-weight independent set)：它是属性图中非相邻节点的权重最大的子集。而在上述CRF模型中，属性图中的结点代表后继帧的tracklets对，结点的权重表示tracklet对间的相似度，而且tracklets对拥有相同方向的话，那么它们的边是联通的。在【46】【97】中数据关联是用MWIS建模的。

3.6.3、讨论

实际中，确定性优化或能量最小化比概率预测更常用，尽管概率预测提供更直接、完整的解决方法，但它们往往是难以推测的，而相反，能量最小化则能够在一定时间内得到“足够好”的解决办法。

4、MOT测评

对于给定的MOT方法，需要根据评分指标和数据集定量地评估其性能。这尤关重要，一方面，必须测量不同组成成分和参数对整体性能的影响，才能设计出最佳的系统。另一方面，可以与其他方法直接比较。而性能评估往往并不简单，我们将在本节中看到。

4.1、指标(Metrics)

MOT方法的评价指标是至关重要的，因为它们为公平定量的比较提供了途径。本节简要介绍不同的MOT评估指标，由于许多方法不采用跟踪检测策略，它们通常测量检测性能以及跟踪性能，因此，在MOT方法中采用了目标检测的度量标准。基于此，MOT指标大致可以分为两组，分别用于评估检测和跟踪，如表7所示。

4.1.1、检测指标

准确度(Accuracy)：常用召回率和精度指标以及每帧平均误报率(False Alarms per Frame, FAF)作为MOT指标[1]。[63]使用False Positive Per Image(FPPI)评价检测性能。多目标检测的准确性(Multiple Object Detection Accuracy, MODA)，一个全面的评估标准，将误检和漏检的相对数纳入考虑范围，由[135]提出。

精度(Precision)：多目标检测精度(Multiple Object Detection Precision, MODP)测量的是检测目标和ground truths之间的误差[135]。

4.1.2、跟踪指标

准确度(Accuracy)：它度量算法跟踪目标的准确程度。ID Switches[80]则统计MOT算法在目标之间切换的次数。多目标跟踪的准确性(MOTA)【136】将false positive率、false negative率和错配(mismatch)率结合成一个单独的数，对整体的跟踪性给出一个比较合理评估。尽管仍有一些弊端，但这是目前最普及的MOT评估方法。

精度(Precision)：三个指标，多目标跟踪精度(MOTP)，跟踪距离误差(TDE)[36]和OSPA[137]。它们描述了通过bounding box重叠和/或距离来测量目标跟踪的精确程度。具体而言，在[137]中还考虑了基数(cardinality)错误。

完整性(Completeness)：完整性度量指的是ground truth trajectories被跟踪的完整度。大多数跟踪(Mostly Tracked, MT)、部分跟踪(Partly Tracked, PT)、大部分丢失(Mostly Lost, ML)和分段(Fragmentation, FM)[40]的数量属于这一组。

鲁棒性(Robustness)：通过从遮挡中恢复出来的能力来评估MOT算法的度量标准，包括在[51]中的从短期遮挡恢复(Recopver from Short-term occlusion, RS)和长期遮挡恢复(RL)。

4.2、数据集

表8给出了当下最经常被使用的一些数据集。这些数据集在MOT中至关重要，但是仍然存在一些问题：第一，数据集的规模相对于SOT来说较小；第二，由于近几年行人检测技术取得进展，所以大部分数据集集中在行人上，然而最近关于多类目标的检测也有一定成果，因此可以考虑多将数据库放在多类目标的检测与跟踪上。

4.3、公开算法

4.4、基准结果(Benchmark Results)

(原文)由于篇幅问题，只展示了最常用的数据集PETS2009-S2L1序列的跟踪结果，如表10。需要注意的是，表中的数据可能不会特别直观，原因如下：

不同的方法，基于online和offline两种不同的框架，很难去度量它们之间的好坏，因为offline的方法需要更多的信息。
不同检测假设，同一种方法可能由于采用不同的检测方法而得到不同的结果。
视角问题，有些方法可能需要多视角信息而有些则只用单视角。
先验知识，例如场景结构和行人数目等，一些方法需要提前得到。

严格来说要想得到真正客观公平直观的测评结果，是需要非常细致的控制变量的，例如要想测试某两个数据关联方法好不好使，需要保证两组方法的其他部分一致才比较准确。尽管如此，我们还是能通过这个表得到许多有用的信息的：能通过直观的比较能得到大致比对结果，为以后的研究工作做铺垫，并且了解了MOT的发展进程。

表11是offline方法和online方法的比较，图7图8是从09年到15年各指标浮动曲线。

5、总结

本文描述了视频中多目标跟踪（MOT）任务的相关方法和问题，也是过去十年里的第一个全面的综述文献，提出了一个统一问题公式和一些现有方法的分类方式，介绍了star-of-the-art MOT算法的关键因素，并讨论了MOT算法的测评包括评价指标、公开数据集，开源代码的实现，和基准测试结果。虽然在过去几十年中已经取得了很大进展，但在当前的MOT研究中仍然存在一些问题有待研究。

5.1、存在的问题

我们已经讨论了数据集的现存问题（4.2节）和公开算法（第4.3节）。除开这些，还有一些其他问题：

MOT研究中的一个主要问题是，MOT方法的性能在很大程度上取决于目标检测器。例如，被广泛使用的tracking-by-detection模式就是建立在一个目标检测器上的，它提供检测假设来驱动跟踪过程。在固定其他部分时，给定不同的检测假设集，相同的方法将产生具有显著性能差异的跟踪结果。有时某方法中的检测模块没有任何描述，这就给对比其他方法提高了难度。KITTI和MOTChallenge就在尝试解决这个问题，也正往一个更有原则、更统一的目标检测和跟踪靠拢（参见mot17）。

另一个令人讨厌的问题是，在提出MOT解决方法时，一个算法越复杂，就有越多的参数，这就使调参非常困难。同时，其他人也很难实现这种方法并且重现结果。

某些方法在特定视频序列中表现良好，然而当在应用于其他视频下时，它们可能不会产生令人满意的结果，这可能是因为该方法所使用的目标检测器是在特定的视频中被训练的，因此不能很好地泛化使用在其他视频序列中。

所有这些问题都限制了MOT研究的进一步发展及其在实际系统中的应用。最近，人们尝试着解决这些问题，例如，MOT Benchmark[160]提供了大量的有注释的测试视频序列、统一的检测假设、标准评估工具等，这有助于推进MOT技术的进一步研究和发展。

5.2、未来的方向

即使已经研究了几十年的MOT问题，它仍然存在着许多发展的机会。在这里，我们想指出一些更普遍的问题，并提供可能的研究方向。

MOT with video adaptation：视频自适应，当前大多数MOT方法需要离线训练的目标检测器，然而这就有一个问题：对于特定视频的检测结果可能不适用于给定的视频，这常常限制了多目标跟踪的性能。所以需要重新定制目标检测器来提高性能，[166]通过逐步细化通用行人检测器，使通用行人检测器适应特定的视频。这也是改进MOT方法预处理阶段的一个重要方向。

MOT under multiple cameras：多摄像机[167]。多摄像头的配置有两类：第一个是多摄像头记录同一个场景，即多视角。然而，这个设置的关键问题是如何融合来自多个摄像机的信息。第二个是每个摄像机记录一个不同的场景，即一个不重叠的多摄像机网络。在这时，多摄像头间的数据关联就成为了一个再识别(reidentification)问题。

Multiple 3D object tracking：三维多目标跟踪，当前大多数方法都集中在2D下的多目标跟踪，即在图像平面上，包括多摄像头的情况。3D跟踪[168]，可以提供更准确的位置，大小估计和高层计算机视觉对于遮挡的有效处理。然而，3D跟踪需要相机校准，或为了摄像头姿态估计和场景布局而需要克服其他困难。同时，三维模型设计是另一个需要考虑的问题。

MOT with scene understanding：场景理解，[35]，[169]，[170]分析了拥挤场景下，例如在高峰时期的地铁车站和公共场所的游行示威。在这种情况下，大多数目标是小的和/或被大面积遮挡的，因此很难进行跟踪。场景理解的分析结果可以提供上下文信息和场景结构，如果将其更好地融入到MOT算法中，将有助于跟踪问题的解决。

MOT with deep learning：深度学习，深度学习模型已成为处理各种视觉问题的非常强大的框架，包括图像分类[171]，目标检测[163] [164] [165]，单目标跟踪[ 161 ]。对于MOT问题，深度学习模型提供的强大的目标检测模型可以显著提高跟踪性能[172]，[173]。尽管最近已经开始尝试使用连续神经网络进行在线MOT，但关于使用深度神经网络来进行目标关联问题的formulation和建模仍需要投入更多的研究。

MOT with other computer vision tasks：其他计算机视觉任务，虽然多目标跟踪是服务于其他高层次的计算机视觉任务，但也存在这样的趋势：将一些彼此能优势互补的计算机视觉任务结合起来以解决MOT问题。可能的组合包括目标分割[ 174 ]，行人再识别[ 175 ]，行人姿态估计[ 17 ]和动作识别[ 18 ]。

除了以上的未来方向外，由于目前的MOT的研究主要集中在监控场景中跟踪多个行人，所以关于其他类型的扩展也是不错的研究方向，例如目标可以是汽车、动物等，场景可以是交通场景，航拍等。因为在不同情况下的不同类型的目标跟踪问题的设置和难度有可能是完全不同的。

参考文献

Multiple Object Tracking: A Literature Review

你可能感兴趣的:(【视觉目标跟踪】)

Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
用Python和OpenCV从零搭建一个完整的双目视觉系统（三） presenttttt 双目立体视觉数码相机
本系列文章旨在系统性地阐述如何利用Python与OpenCV库，从零开始构建一个完整的双目立体视觉系统。本项目github地址：https://github.com/present-cjn/stereo-vision-python.git在上一篇文章中，我们为项目设计了清晰的架构。现在，我们将深入第一个，也是整个双目视觉系统最关键的模块——相机标定(CameraCalibration)。如果说双目
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
虚拟视频器：为QQ等通讯软件添加创意功能 TEDDYYW
本文还有配套的精品资源，点击获取简介：虚拟视频技术提供了一种模拟摄像头的新方法，使得用户能创建虚拟的视频源，用于在线视频通话中展示预定内容而非真实画面。该软件支持QQ、MSN等主流通讯工具，使用户能控制和自定义视频通话的呈现方式。通过使用虚拟视频器，用户可以在各种场景下（如在线演示、隐私保护、教育培训和艺术创作）展示静态图像、预录制视频或实时视觉效果，增强视频通信的个性化和灵活性。1.虚拟视频技术
AI技术革命：从代码生成到行业重塑的范式转移 Favor_Yang 创作活动人工智能
引言：觉醒的制造车间2023年某汽车零部件工厂，质检员王工发现异常：AI视觉系统实时标记出变速箱壳体上$0.1\text{mm}$的微裂纹，而该缺陷在传统检测中漏检率达$18%$。这背后是大模型微调技术与智能编程工具的融合应用——AI不再停留于概念，正系统性重构产业底层逻辑。一、AI编程：开发范式的颠覆性进化1.1自动化代码生成实践以GitHubCopilot为代表的智能编码工具，本质是基于Tra
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
机器视觉在OCR（字符识别）检测中的应用
目前，对印刷品的检测工作一般采用人工方法进行质量检测，然后再由工作人员将成品和次品进行分类堆放。这样一来，不仅增加了工作人员的劳动强度，而且检测质量也难以得到保障。其次，则是效率低下，浪费时间成本。印品质量自动检测系统满足印刷企业对于产品质量控制的需求。系统采用自主研发的表面缺陷检测、色彩测量、快速建模等核心算法，广泛适用于包装印刷、标签印刷、商业印刷质量在线检测和印后终检。机器视觉用于印刷、包装
OpenCV探索之旅：多尺度视觉与形状的灵魂--图像金字塔与轮廓分析
在我们学会用Canny算法勾勒处世界的轮廓之后，一个更深层次的问题摆在了面前：这些由像素组成的线条，如何才能被赋予“生命”，成为我们能够理解和分析的“形状”？如果一个物体在图像中时大时小，我们又该如何稳定地识别它？欢迎来到本次的探索之旅。我们将建造两种强大的“金字塔”，赋予我们跨越尺度的“鹰之眼”；然后，我们将不仅仅是找到轮廓，更要深入其内部，测量它的面积、周长，找到它的重心，甚至量化它的“形状”
Visual C++实现水波纹效果的DirectDraw实例 Kimgoeunlaogong
本文还有配套的精品资源，点击获取简介：本文详细介绍了在VisualC++开发环境中使用DirectDraw技术实现水波纹视觉效果的步骤。水波纹效果常用于游戏或模拟应用，增强视觉吸引力和用户交互体验。DirectDraw技术负责2D图形加速，提供高效处理图像和动画的手段。通过源代码文件和位图资源的交互，实现点击触发水波纹，并通过DirectDraw的基本用法和动态效果编程，开发者能够学习Direct
石子入水波纹效果：UV扰动着色器实现 walterCui Unity3d 游戏 uv 着色器
利用UV坐标扰动来模拟水面是一种常见且有效的技术手段，上述效果主要通过对水面纹理的UV坐标进行动态偏移或扰动，从而模拟水波的流动和波纹效果。资源下载具体实现和原理如下：基本思路：通过对水面纹理的UV坐标加上时间相关的扰动函数（如正弦波、余弦波、噪声函数等），使纹理坐标随时间变化，产生动态波动的视觉效果。这种方法不改变顶点位置，而是通过纹理的动态变化模拟水面波动实现方式：计算屏幕或模型表面的基础UV
2025秋招优秀项目推荐微凉的衣柜人工智能深度学习算法 gpt
01.多个优异的数据结构与算法项目推荐良心推荐hello-algo包含多个通用的代码框架，一个框架完成多道题目，更详细请查阅labuladong02.大模型岗位面试总结：共24家，9个offer大模型岗位面试总结：共24家，9个offer03.视觉检测分割一切源码及在线DemoGrounded-Segment-Anything项目源码
Type-C双向C转DP和C转DP带反向供电的解决方案 legendary_螺蛳粉硬件工程
LDR6500D如何通过Type-C接口实现手机到DP接口的单向视频传输在当今数字化浪潮中，投屏技术作为连接设备、共享视觉内容的桥梁，其重要性日益凸显。PD（PowerDelivery）芯片，特别是集成了Type-C接口与DisplayPort（DP）转换功能的型号，为手机至外设的单向视频传输提供了创新方案。本文将聚焦于LDR6500D如何借助Type-C接口，将手机转变为DP信号源，以连接并驱动
街道垃圾识别难？陌讯视觉算法实测准确率突破95% 2501_92487900 算法边缘计算目标检测视觉检测计算机视觉
开篇痛点：街道垃圾识别的技术挑战在智慧城市和环保监管场景中，街道垃圾的实时检测一直是个难题。传统视觉算法（如YOLOv5、FasterR-CNN）在复杂街道场景下表现不佳，主要面临以下问题：光照干扰：早晚光线变化导致误检（如阴影被识别为垃圾）小目标漏检：饮料瓶、烟头等小物体在640x640输入下仅占10x10像素遮挡问题：垃圾桶周边堆积物造成特征混淆某环保科技公司实测数据显示，开源模型在真实场景中
安防监控漏报频发？陌讯实时检测算法实测召回率98% 2501_92487721 目标跟踪计算机视觉人工智能算法
一、开篇痛点：安防监控的检测难题在夜间低光、遮挡、小目标等复杂场景下，传统YOLO系列算法常出现漏检（FN）和误检（FP）。某安防厂商测试数据显示：当目标像素<50×50时，开源模型召回率骤降至65%以下。二、技术解析：陌讯算法的三重创新陌讯视觉算法通过多尺度特征融合+自适应光照补偿提升鲁棒性：动态感受野机制在Backbone中引入可变形卷积（DeformableConv），公式表示为：y(p)=
重型机械识别漏检率高？陌讯算法实测降 35%
在重型机械作业场景中，传统视觉识别系统常面临三大痛点：大型设备遮挡严重导致漏检率超20%、金属表面反光使特征提取失效、多机型混合作业时模型泛化能力不足。某港口集团曾反馈，其基于开源YOLOv5部署的机械监控系统，在暴雨天气下误报率飙升至37%，直接影响作业调度效率[实测数据来源：某港口2024年Q1运维报告]。技术解析：陌讯算法的三重突破陌讯视觉算法针对重型机械识别的特殊性，采用了创新的"动态注意
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo