花花花卷

TraDeS：跟踪检测与分割：一种在线多目标跟踪器

论文：Track to Detect and Segment: An Online Multi-Object Tracker

TraDeS：跟踪检测与分割：一种在线多目标跟踪器

摘要

大多数在线多目标跟踪器在独立的，没有任何跟踪输入的神经目标检测网络表现优异。本篇论文中，我们提出一种新的在线检测跟踪模型，TraDeS(跟踪检测与分割)，利用跟踪信息来帮助端到端的检测。TraDeS根据代价量推测跟踪目标的偏移距离，这个代价量用于通过前向传播提取对象的特征以此来提高当前目标检测和分割。TraDeS在4个公开数据集上表现出不错的高效和优势，分别是MOT(2D 跟踪),nuScenes (3D 跟踪), MOTS and Youtube-VIS (实例分割). 项目主页: https://jialianwu.com/projects/TraDeS.html

1.介绍

优秀的在线多目标跟踪方法遵循两种主要的范式：基于检测的跟踪和联合检测跟踪。基于检测的跟踪范式将检测和跟踪作为两个独立的任务（图一(a)）。通常利用现成的目标检测器检测，接着再用其他网络进行数据关联。这种基于检测的跟踪模式通常效率不高，并且由于两步骤流程不能优化端到端。为了解决这个问题，最近的解决方案中出现了联合目标检测和跟踪范式，这种范式类似于将检测和跟踪在单个前向传播中完成。

然而，联合跟踪检测范式存在两个问题：(1)尽管大多数联合跟踪检测网络骨干网络共享，但是检测部分还是单独的，没有利用到跟踪信息。我们认为检测为稳定并且持续的跟踪提供基石，作为反馈，跟踪信息应该帮助检测，尽管场景复杂，比如存在遮挡和运动模糊。(2)通过[9]和我们实验学习(表1b)，在联合检测跟踪的主干网络中，普遍的re-id跟踪的损失函数并不与检测的损失函数兼容，这从某种程度上会影响检测结果。主要原因在于，re-id更侧重的是类内方差，而检测的目标是增加类内差异和最小类内方差。

本论文，我们提出新的在线检测和跟踪模型，称为TraDeS(TRAck to DEtect and Segment)。在TraDeS中 ,与CenNet类似，每个特征图谱中的点要么表示目标中心点要么表示背景区域。TraDeS在此之上提出两个问题，不但通过紧密地将跟踪器与检测器联合在一起，还专门设计了一个re-id学习方案。我们提出分别基于关联模型（CVA）的代价量和动态导向特征弯曲（MFW）模型。关联模型通过骨干网络逐点提取re-id嵌入特征来构造代价量，这个代价量存储了匹配两帧中相似的嵌入对（嵌入特征对）。然后，我们还根据代价量提出跟踪偏移，这是所有点在时间和空间的位移。例如，在前后两帧中，目标可能存在的中心。跟踪偏移量将所有特征整合用于进行一个简单的两轮长时间数据关联。接着，MFW将跟踪偏移量作为动态信息从前一帧将目标特征传播到当前帧。最后，这个传播了的特征和当前帧的特征合并后进行检测和分割。

在CVA模型中，这个代价量被用于监督re-id嵌入特征，这样不同目标的类别和背景区域隐式地纳入其中。这也是说，我们的re-id对象也被包含在类内方差中。这种方式不仅可以学习到一个有效的嵌入特征作为普通的re-id的损失函数，还可以兼容检测的损失函数并且不会破坏检测结果，结果展示在表1b中。此外，如图3所示，因为跟踪偏移通过外观相似特征预测出来，所以它可以匹配到高速运动或者在被慢速播放的物体，或者如图4所示那样，它甚至可以在看不见大浮动运动的不同数据集中准确地跟踪目标。因此，将一个预测后的目标跟踪偏移量可以作为有效的运动信息在MFW模型中指导我们特征传播。在当前帧中被遮挡的和模糊的物体可能在前几帧中和清晰，所以通过MFW模型，从前几帧传播的特征可能为当前帧的目标恢复已经丢失潜在信息的特征。

总的来说，我们提出一种新奇的在线多目标跟踪网络，TraDeS，在端到端的网络中通过完整的跟踪信息来指导检测，检测结果有效地反馈给跟踪器，如图1(c)所示。TraDeS是一个通用跟踪器，很容易通过增加简单的实例分割网络，扩展成实例分割跟踪器。使用4组数据集进行实验，例如，MOT，nuScenes，MOTS，和Youtube-VIS datasets，这3组任务中包括2维、3维目标跟踪，和实例分割跟踪。TraDeS在有效推理时间中表现不俗，如5.3部分所示。此外，如5.2部分描述那样，通过消融实验（即模型简化测试）有效证明我们的方法有效。

2.相关工作

基于检测的跟踪。过去几年在多目标跟踪领域中基于检测的跟踪占主导地位。在这种框架模式中，现成的目标跟踪器先为每一帧生成检测框。然后一个单独的re-id模型则被用来为这些检测框提取外观特征。为了构建跟踪器，一种简单的解决方案是使用运动模型直接计算外观和运动信息，例如卡尔曼滤波，然后通过匹配算法解决数据关联问题。其他有效数据关联的方法，像图优化问题，将每个检测结果作为图节点来跟踪。然而基于检测的跟踪方法将检测和跟踪分离，因此通常计算成本高。相反，我们的方法将完整的跟踪信息传给检测器，使得检测器和跟踪器在端到端中表现不俗。

联合检测和跟踪。最近，联合检测和跟踪范式由于它的高效和标准话的框架引起大家注意。一种普遍的方式是，在检测器上构建一个跟踪相关分支用来预测，而不是将目标跟踪偏移量或者re-id嵌入特征进行数据关联。此外，transformer已经被用来做跟踪匹配。CTracker在每两帧中通过连接成对的boxes构建跟踪轨迹。TubeTK以离线学习方式直接预测一个box tube作为跟踪轨迹。然而大多数联合检测跟踪方法中，都存在两个问题：第一，检测部分没有从跟踪部分得到任何有效帮助，依旧独立预测。第二，在联合训练中re-id损失函数与检测损失函数指标不相同。相反，在我们的TraDeS中通过将合并跟踪信息反馈给跟踪器，并且设计一个新颖的re-id嵌入学习方案来解决以上两个问题。

跟踪引导的视频目标检测。在视频目标检测中，一些工作尝试在初始化检测器时，利用跟踪结果来调整检测分数权重。尽管这些工作努力地提高基于跟踪的检测效果，但是他们存在两方面不足：第一，跟踪只有在后处理阶段(the post-processing stage)才作为杠杆帮助检测结果。检测结果依旧通过一个独立的目标检测器来预测，所以检测和跟踪还保持较高的独立性。因此最后检测得分可能极大程度上依赖于跟踪的质量。第二，手动调整权重方案需要为特殊的检测器和跟踪器进行人为调整。我们的方法不同于这些后处理方法，因为我们的检测在跟踪结果上学会自适应，没有复杂的调整权重方式。因此，检测鲁棒性高，跟踪效果好。

代价量(cost volume)。cost volume技术被成功运用于深度估计和流速估计，为的是关联两帧之间像素。这启发我们将代价量加入多目标跟踪器，在本篇论文中证明对于re-id嵌入和推测轨迹偏移是有效的。我们的方法对未来在跟踪或者re-id中使用代价量的工作有所启发。

3.准备工作

TraDeS以基于点云的目标检测网络CenterNet构建。CenterNet使用一张图 I ∈RH×WH ×3 作为输入，输出基本特征 f = φ(I)，其中，特征主干网络以 φ(·)表示，通过网络后，特征变成 f ∈ RHF ×WF ×64，HF=H/4, and WF =W/4。然后在 f 构造一组头部卷积分支用于生成类中心热图 P ∈ RHF ×WF ×Ncls 和特殊任务预测图，比如2D目标大小图和3D目标大小图，等等。Ncls是分类数字。

CenterNet 通过他们的中心点（在P点的最高峰）检测对象，并且从峰值点响应特殊任务预测。

类似于[63]，我们通过增加额外的扩展头部分支，在CenterNet基础上构建一个基础跟踪器，可以预测跟踪偏移量 OB∈ RHF ×WF ×2，该偏移量将用于数据关联。OB 计算所有在 t 时刻的点到在 t-1 时刻与该点响应的点的时空替换。

4.TraDeS 跟踪器

我们的想法：之前大多数联合检测和跟踪方法多为单独的检测，即没有从跟踪中得到清楚的输入。相反，我们的目标是端到端的将完整跟踪信息放到检测中，为的是提高复杂场景下的检测能力，并且这有利于反馈给跟踪器。为此，我们提出一个基于关联模型的代价量（CVA：4.1），用于学习re-id嵌入和得到对象运动信息，还有一个运动指导的特征整理模块（MFW：4.2），从CVA中借用跟踪信息来传播和提高目标特征。

4.1基于关联的代价量

Cost Volume。从 t 时刻和 t-1 时刻的图片中得到两组基本特征 ft 和 ft-1，我们通过嵌入网络σ(·)提取它们的re-id嵌入特征，例如et= σ(ft) ∈ RHF ×WF ×128，其中嵌入网络σ(·) 有三层卷积。我们利用提取到的特征构造cost volume，通过匹配在前后两帧中一个点与其响应点的相似度，保存在该代价量中。为了高效计算代价量，我们首先通过以2为倍数的下采样嵌入，获得e ∈ RHC×WC×128，在这里HC =HF/2 并且 WC =WF/2。我们使用C ∈ RHC×WC×HC×WC 来表示 t 和 t-1 时刻图片的 4维代价量，通过单独计算e`t 和 e` t−τ 乘法矩阵得出该结果，特别地，C的每一个元素被计算如下：

，其中 Ci,j,k,l 表示在 t 和 t-τ 时刻点p(i, j) 和点 (k, l)之间的嵌入式相似度。在这里，一个点映射的是特征图f 或者 e`。

跟踪偏移量。基于代价量C，我们计算出跟踪偏移量矩阵 O ∈ RHC×WC×2，该矩阵保存了所有点在 t 时刻到 t-τ 时刻的点及其响应点的时空替换量。为此，我们进一步说明 Oi,j ∈ R2 大概生成的过程。

如图2所示，一个目标在 t 时刻的中心点是(i, j)，我们可以从C中得到与它相关响应点的2维cost volume map Ci,j ∈ RHC×WC。Ci,j 保存了在目标x 和所有点在 t-τ 时刻匹配相似度。通过两步来估算Ci,j, Oi,j ∈ R2：第一步，首先使用HC × 1 和 1× WC的卷积核进行最大池化操作得到Ci,j，然后使用sofrmax进行标准化，最后得到的结果是，CWi,j∈ [0, 1]1×WC 和 CHi,j∈ [0, 1]HC×1。CWi,j∈ [0, 1]1×WC 和 CHi,j∈ [0, 1]HC×1 是相似度矩阵，也就是说，目标x 在 t-τ时刻特殊的水平和垂直位置。第二步，由于CWi,j∈ [0, 1]1×WC 和 CHi,j∈ [0, 1]HC×1 提供了目标x在t-τ时刻特殊位置的相似度，为了获得最后的偏移量，我们预先确定在水平和垂直方向上的两个偏移模板，当目标x出现到其他位置时标明其真实的偏移值。使用Mi,j ∈ R1×WC 和 Vi,j ∈ RHC×1 分别表示目标x在水平和垂直距离上的偏移模板，其计算如下：

其中s是输入图片e`的特征步长，在我们论文中s=8。当t-τ时刻目标x 出现在(*, l)， Mi,j,l可以推算出水平上的偏移。最后跟踪偏移量可以通过相似度与实际偏移值以点积的方式计算出来：

因为 O是通过HC × WC得到，我们以2为倍数来扩大，得到OC∈ RHF ×WF ×2，这将MFW提供运动信息，并且用于数据关联。

训练。因为在CVA模型中，σ(·) 只有单独的学习部分，CVA的跟踪目标学习一个有效的re-id嵌入e。为了监督e，我们在cost volume上进行增强监督，而不是像其他普通的re-id损失那样直接在e上。首先当前时刻t 一个目标位于(i, j)时，我们令Yijkl = 1，而在t-τ时刻的位置则为(k, l)；其他情况下 Yijkl = 0。因此，CVA计算训练损失函数通过逻辑回归以focal loss的方式表示如下：

在上个式子中，α1 = (1 − CWi,j,l)β 而 α2 = (1 − CHi,j,k)β。β是focal loss 的超参。因为CWi,j,l 和 CHi,j,k 通过softmax计算出来，他们包含的嵌入相似度不仅在点(i, j)和(k, l)之间，而且还包含了点(i, j)和之前帧的所有其他点。这也就是说，当CWi,j,l 和 CHi,j,k 被优化到接近1时，当增强一个对象时，不仅使得其接近之前帧，而且还抑制其他目标和背景区域。

CVA特征。(1)普通的re-id loss 只强调类内方差，这可能降低检测效果。相反，在等式(4)中，我们的LCVA 不仅强调类内方差，还在学习嵌入时关注类内区别。我们发现这样的方式在不损害检测效果下能更好地兼容detection loss 和 effective embedding，其证明结果在表1b中。(2)因为跟踪偏移量基于外观嵌入相似度预测，它可以在高速运动和低速帧率中追踪目标，如图3和图6所示，甚至可以准确地在不同没有预感剧烈运动的数据集中准确跟踪目标，如图4所示。因此预测的目标偏移量可以作为有用的运动信息指导特征传播，如表1c。(3)与[45, 25]和CenterTrack比较，这几款跟踪器要么只预测嵌入特征要么将跟踪偏移量作为数据关联，CVA则将两者结合，用于为长期数据关联(4.3节)，并且将运动信息传给MFW(4.2节)。

4.2运动指导的特征整理模块

MFW的目标是将预测的跟踪偏移量OC 作为运动信息整理，并且将t−τ时刻的特征f (ft−τ )传播给当前时刻，为的是补偿和增强 t时刻的特征f (ft)。为了实现这个目的，我们通过一个独立的可变卷积提出有效的由追踪跨帧的时间传播，之前的论文[4,3,13]中，这种方式曾用于跨帧调整特征。因此我们通过增加传播特征来提升ft。

由追踪跨帧的时间传播。为了传播特征图，可变形卷积使用时空偏移图和之前的特征作为输入，输出一个传播后的特征，从中我们估算出基于CVA模型中得到的OC的输入偏移值。我们将OD∈ RHF ×WF ×2K2 作为通过DCN的2维偏移，其中K=3是DCN的核宽或高。为了生成 OD，我们将OC 通过一个3× 3卷积γ(·)。接着随意地将 ft− ft−τ 的剩余特征合并作为γ(·) 的输入，以此提供更多的运动信息。因为我们的检测和分割主要基于目标中心特征，而不是直接整理ft−τ，通过之前的时刻传播中心注意力特征 ¯ft−τ∈ RHF ×WF ×64，¯ft−τ 的计算如下：

上式中，q是通道下标，◦是哈达玛积， Pt−τagn∈ RHF ×WF ×1 是从 Pt−τ(定义在第三部分)得到的无类热图。然后从得到的OD 和 ¯ft−τ，传播特征通过DCN计算方式如下：

特征增强。当出现遮挡或者运动模糊时，检测器检测不到物体。我们通过增强传播特征ft−τ来增强 ft，这样被遮挡的或者模糊的目标可能清晰易读。我们将增强特征标记为˜ft−τ，该特征量通过权重汇总得到：

wt∈ RHF ×WF ×1 调整在t时刻的权重，

T 是之前特征的数量，用来聚合。与[24]类似，w通过两层卷积后并经过softmax预测得到。在实验过程中我们发现权重求和比平均求和效果好一些。将增强的˜ft通过头部网络产生检测框，并且在当前帧生成masks。这极大概率可以恢复丢失的目标，减少漏报，能够完整地跟踪并且MOTA和IDF1结果更高，结果在表1a。

4.3轨迹生成

图2展示了TraDeS的整体架构。通过增强特征˜ft，TraDeS通过不同的三个分支头网络生成2D、3D的框和instance masks。之后生成的检测框和masks通过数据关联连接到之前的轨迹。

头部网络。每个头部网络由多个轻量级的卷积组成为了生成特定预测任务。对于2D和3D检测，我们在CenterNet中利用同一个头部网络。对于实例分割，我们在CondInst上构建头部网络，CondInst也是一种基于中心点的实例分割方法。

数据关联。在(i,j)位置上给出了增强检测和mask d，我们通过迭代2轮进行数据关联：第一轮，首先，在t-1时刻将最近没有匹配的检测以(i, j)+OCi,j 为中心，r为半径关联， r是检测框的长和宽的几何平均值。这里OCi,j只是标明在 t 和 t-1时刻跟踪目标偏移量。第二轮：如果d 在第一轮没有与任何一个目标匹配上，我们计算它的所有没有匹配的嵌入特征eti,j 或者历史跟踪嵌入特征的余弦相似度。如果它们的相似度高于阈值，d 将会分配轨迹，本文中阈值为0.3。第二轮保证长时关联。经过两轮关联，d与任何轨迹关联失败，那么就创建新的轨迹。

TraDeS Loss。TraDeS的损失函数被定义如下：L = LCVA + Ldet + Lmask,Ldet是2D和3D的检测损失函数，Lmask是实例分割的检测损失函数。

5.实验

5.1数据集和实验细节

MOT:

nuScenes:

MOTS:

YouTube-VIS:

实验细节:我们采用与CenterTrack相同的实验设置，像主干网络、图片大小、预设、分数阈值，等等。特别地，我们采用DLA-34作为φ(·)的主干网络。我们的方法是通过32 batches训练和以10倍下调学习率1.25e−4来优化。对于MOT和MOTS，TraDeS训练70个epochs，学习率在epoch 60 也就是图片大小为 544 × 960时下降。对于nuScenes，TraDeS训练35 epoches，在图片大小为448 × 800的epoch 30时学习率下降。对于YouTube-VIS, 一开始TraDeS在COCO实例分割上进行预训练，接着在静态图片上进行训练，然后在YouTube-VIS上进行微调，对于16 epochs 其学习率在 epoch 9时下降。图片大小是352 × 640。我们在2080Ti GPU测试了运行时间。在等式(6)中，我们为MOT和MOTS设置默认参数T=2。为nuScenes和YouTube-VIS设置默认参数T=1，因为如上所述它们的帧率较低。在训练过程中，我们随机在除Rt帧之外筛选T帧，对于MOT和MOTS来说Rt是10，而nuScenes 和 YouTube-VIS则是5。通过推理，只有在T前面连续几帧被用到。消融实验在数据集MOT17上证实了这一点。在消融实验中，像基础跟踪器那样，所有的变量并没有在CVA模型中通过预测跟踪偏移量OB进行第一轮数据关联。

5.2消融实验

5.3基准评价

6.结论

本次工作提出了一种新颖的在线检测跟踪模型，TraDeS，其重点在于利用跟踪信息帮助检测并将检测结果反馈给跟踪。TraDeS主要由两个模型构成，CVA和MFW，其中CVA学习专门设计re-id嵌入特征和通过4维的cost volume构建目标运动信息。而MFW从CVA中获得运动信息，并作为cues传播到之前的目标特征来增强当前检测或分割。通过进行2D、3D跟踪和实例分割的详尽实验和消融实验，有效地证明了我们的方法的高效和优越性。

李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
条件概率：不确定性决策的基石大千AI助手人工智能 Python #OTHER 决策树算法机器学习人工智能条件概率概率论
条件概率是概率论中的核心概念，用于描述在已知某一事件发生的条件下，另一事件发生的概率。它量化了事件之间的关联性，是贝叶斯推理、统计建模和机器学习的基础。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、定义与公式设(A)和(B)是两个随机事件，且(P(B)>0)：条件概率(P(A\midB))表示
用PyTorch实现MNIST手写数字识别
MNIST包含70,000张手写数字图像:60,000张用于培训，10,000张用于测试。图像是灰度的，28x28像素的，并且居中的，以减少预处理和加快运行。1、导入相关库importtorchimporttorchvisionfromtorch.utils.dataimportDataLoaderimporttorch.nnasnnimporttorch.nn.functionalasFimpo
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
一文详解显卡（GPU）驱动（Driver）CUDA、PyTorch 四者之间的关系、依赖性、版本兼容性，以及如何通过命令查询各自版本等方面进行系统性总结番知了 pytorch 人工智能 python
目录一、四者的依赖关系概览简单理解：二、依赖链详细解释1.显卡（GPU）2.NVIDIA显卡驱动3.CUDAToolkit4.PyTorch三、版本兼容查询PyTorch与CUDA的兼容表四、版本查询命令（Linux/Windows）五、安装建议（实用路线）一、四者的依赖关系概览组件作用与其它组件的关系GPU(显卡)提供物理硬件（如NVIDIARTX4060）驱动必须支持你的显卡型号驱动Drive
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
机器学习20-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释1-核心知识点1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量之间存在线性关系。线性模型家族中的两个最常见模型是线性回归和逻辑回归。线性回归（LinearRegression）:线性回归是一种用于预测连续因变量的模型。它假设因变量yy
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
机器学习19-Transformer和AlexNet思考坐吃山猪机器学习机器学习 transformer 人工智能
Transformer和AlexNet思考关于Transformer和AlexNet发展的一些思考1-核心知识点Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？AlexNet的主要核心思路是什么，为什么表现那么好？现在有什么比AlexNet更优秀的算法2-思路整理1-Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？Word2Vec的作用Word2
机器学习21-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习21-线性网络思考针对线性网络的发展问题，进行补充学习1-核心知识点1-传统机器学习针对线性分类算法求解的方式有哪些？请详细列举不同的算法对应的损失函数和计算思路在传统机器学习中，线性分类算法是一种非常重要的方法，用于将数据划分为不同的类别。以下是几种常见的线性分类算法，包括它们的损失函数和计算思路：1.感知机（Perceptron）损失函数感知机的损失函数是基于误分类点的，其目标是最小化
PyTorch torchtune.modules.peft.lora Yongqiang Cheng PyTorch PyTorch torchtune peft.lora
PyTorchtorchtune.modules.peft.lora1.Sourcecodefor`torchtune.modules.peft.lora`2.`LoRALinear`2.1.`defadapter_params(self)->list[str]`2.2.`defforward(self,x:torch.Tensor)->torch.Tensor`2.3.`defto_empty(
【雕爷学编程】MicroPython手册之 ESP32-CAM 机器人目标跟踪驴友花雕机器人目标跟踪人工智能嵌入式硬件 python MicroPython ESP32-CAM
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Spring AI 第二讲之 Chat Model API 第五节HuggingFace Chat
HuggingFaceInferenceEndpoints允许您在云中部署和提供机器学习模型，并通过API对其进行访问。开始使用有关HuggingFaceInferenceEndpoints的更多详细信息，请访问此处。前提条件添加spring-ai-huggingface依赖关系：org.springframework.aispring-ai-huggingface获取HuggingFaceAPI
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！十小大超分辨率重建（理论+实战科研+应用）pytorch 深度学习超分辨率重建图像处理计算机视觉 python transformer
请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
结构型智能科技的关键可行性——信息型智能向结构型智能的转变（修改提纲）刘海东刘海东人工智能机器学习算法
结构型智能科技的关键可行性——信息型智能向结构型智能的转变1.信息型智能科技概述1.1传统计算机科技的信息型继承者1.2信息型智能环境1.3信息型智能主体1.4机器学习创造的智能1.5信息型智能科技的缺陷2.结构型智能科技概述2.1传统计算机科技向生命结构的发展2.2结构型智能科技的环境2.3结构型智能科技创造的机器生命2.4结构型智能科技的科学性3.结构型智能科技的关键可行性——信息型智能向结构
【Torch】nn.Embedding算法详解油泼辣子多加深度学习 embedding 算法
1.定义nn.Embedding是PyTorch中的查表式嵌入层（lookup‐table），用于将离散的整数索引（如词ID、实体ID、离散特征类别等）映射到一个连续的、可训练的低维向量空间。它通过维护一个形状为(num_embeddings,embedding_dim)的权重矩阵，实现高效的“索引→向量”转换。2.输入与输出输入类型：整型张量（torch.long或torch.int64），必须
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
【机器学习|学习笔记】组合特征（Feature Combinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络深度学习
【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。文章目录【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
【pytorch】——Could not export Python function call ‘Scatter‘
pytorch用pytorch的trace导出模型的时候，报错errorRuntimeError:CouldnotexportPythonfunctioncall'Scatter'.RemovecallstoPythonfunctionsbeforeexport.Didyouforgettoadd@scriptor@script_methodannotation?Ifthisisann.Modul
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
PHP接单涨薪系列（九）之计算机视觉实战：PHP+Stable Diffusion接单指南（2025高溢价秘籍）攻城狮凌霄 PHP PHP接单涨薪 AI php 计算机视觉 stable diffusion
案例场景某电商公司使用本方案后，产品图制作成本降低90%，广告转化率提升35%，单月节省设计费用超¥80,000。本文将彻底解密如何用PHP+AI视觉技术接取高单价设计外包，让你在竞争激烈的市场中脱颖而出！一、视觉设计市场的AI革命1.1传统设计vsAI设计设计任务传统流程AI流程需求沟通初稿设计反复修改最终交付AI生成微调即时交付2025年设计市场数据对比：指标传统设计AI设计提升幅度单图制作时
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

TraDeS：跟踪检测与分割：一种在线多目标跟踪器

论文：Track to Detect and Segment: An Online Multi-Object Tracker

TraDeS：跟踪检测与分割：一种在线多目标跟踪器

摘要

1.介绍

2.相关工作

3.准备工作

4.TraDeS 跟踪器

4.1基于关联的代价量

4.2运动指导的特征整理模块

4.3轨迹生成

5.实验

5.1数据集和实验细节

5.2消融实验

5.3基准评价

6.结论

你可能感兴趣的:(pytorch,机器学习,计算机视觉,目标跟踪)