不会算法的数学小白

ICCV2021 Learning Spatio-Temporal Transformer for Visual Tracking

论文实现：学习用于视觉跟踪的时空转换器

摘要

在本文中，我们提出了一种以编码器-解码器转换器为关键组件的新跟踪架构。编码器对目标对象和搜索区域之间的全局时空特征依赖性进行建模，而解码器学习查询嵌入来预测目标对象的空间位置。我们的方法将对象跟踪作为一个直接的边界框预测问题，而不使用任何提议或预定义的锚点。使用编码器-解码器转换器，对象的预测仅使用简单的全卷积网络，该网络直接估计对象的角点。整个方法是端到端的，不需要任何后处理步骤，例如余弦窗口和边界框平滑，从而大大简化了现有的跟踪管道。拟议的跟踪器在五个具有挑战性的短期和长期基准测试中实现了最先进的性能，同时以实时速度运行，比 Siam R-CNN 快 6 倍

介绍

视觉对象跟踪是计算机视觉中一个基本但具有挑战性的研究课题。过去几年，基于卷积神经网络的目标跟踪取得了显着进展。然而，卷积核不擅长对图像内容和特征的长期依赖进行建模，因为它们只处理空间或时间上的局部邻域。当前流行的跟踪器，包括离线 Siamese 跟踪器和在线学习模型，几乎都建立在卷积运算的基础上。因此，这些方法仅在对图像内容的局部关系建模方面表现良好，但仅限于捕获远程全局交互。这种缺陷可能会降低模型处理全局上下文信息对于定位目标对象很重要的场景的能力，例如对象经历大规模变化或频繁进出视图。长程相互作用的问题已通过使用变压器在序列建模中得到解决。 Transformer 在自然语言建模和语音识别等任务中取得了巨大的成功。最近，transformer 已被用于判别计算机视觉模型并引起了极大的关注。受最近的检测转换器 (DETR) 的启发，我们提出了一种新的端到端跟踪架构，带有编码器-解码器转换器，以提高传统卷积模型的性能。空间和时间信息对于对象跟踪都很重要。前者包含用于目标定位的对象外观信息，而后者包含对象跨帧的状态变化。以前的 Siamese 跟踪器仅利用空间信息进行跟踪，而在线方法使用历史预测进行模型更新。尽管取得了成功，但这些方法并没有明确地模拟空间和时间之间的关系。在这项工作中，考虑到建模全局依赖性的优越能力，我们采用Transformer来整合空间和时间信息进行跟踪，生成用于对象定位的判别性时空特征。更具体地说，我们提出了一种基于用于视觉跟踪的编码器-解码器转换器的新时空架构。新架构包含三个关键组件：编码器、解码器和预测头。编码器接受初始目标对象、当前图像和动态更新模板的输入。编码器中的自注意力模块通过输入的特征依赖来学习输入之间的关系。由于模板图像在整个视频序列中都会更新，因此编码器可以捕获目标的空间和时间信息。解码器学习查询嵌入来预测目标对象的空间位置。基于角点的预测头用于估计当前帧中目标对象的边界框。同时，学习score head来控制动态模板图像的更新。大量实验表明，我们的方法在短期和长期跟踪基准上都建立了新的最先进的性能。例如，我们的时空转换器跟踪器在 GOT-10K 和 LaSOT 上分别超过 Siam R-CNN 3.9%（AO 分数）和 2.3%（成功）。还值得注意的是，与之前的长期跟踪器相比，我们方法的框架要简单得多。具体来说，以前的方法通常由多个组件组成，例如基本跟踪器 [9,50]、目标验证模块和全局检测器。相比之下，我们的方法只有一个以端到端方式学习的网络。此外，我们的跟踪器可以实时运行，在 Tesla V100 GPU 上比 Siam R-CNN (30 v.s. 5fps) 快 6 倍，如下图所示：

与LaSOT的现状比较。通过帧/秒(fps)跟踪速度来可视化成功的性能。Ours-ST101和Ours-ST50分别表示提出的以ResNet-101和ResNet-50为骨干的跟踪器。彩色效果更好。

本文的三大贡献：

1：提出了一个新的变压器架构，专门用于视觉跟踪。它能够捕获视频序列中空间和时间信息的全局特征相关性
2：整个方法是端到端的，不需要任何后处理步骤，如余弦窗和边界盒平滑，从而大大简化了现有的跟踪管道
3：该跟踪器在5个具有挑战性的短期和长期基准上实现了最先进的性能，同时以实时速度运行

方法

在本节中，我们提出了用于视觉跟踪的时空变换器网络，称为 STARK。为清楚起见，我们首先介绍一种简单的基线方法，该方法直接应用原始编码器-解码器转换器进行跟踪。基线方法只考虑空间信息并取得了令人印象深刻的性能。之后，我们扩展基线以学习目标定位的空间和时间表示。我们引入了一个动态模板和一个更新控制器来捕捉目标对象的外观变化。

基于Transformer的简单基线

我们提出了一个基于视觉变换器的简单基线框架，用于对象跟踪。网络架构如下图所示。它主要由三个部分组成：卷积主干、编码器-解码器转换器和边界框预测头。

Backbone：该方法可以利用任意卷积网络作为特征提取的骨干。在不丧失通用性的情况下，我们采用普通的ResNet作为主干。更具体地说，除了删除了最后一个阶段和全连接层，对原来的ResNet没有其他变化。主干的输入是一对图像:初始目标对象的模板图像和当前的搜索区域。模板z和搜索图像x经过主干后被映射为两个特征映射
Encoder：从主干输出的特征图在输入编码器之前需要预处理。具体来说，首先使用瓶颈层将通道数从 C 减少到 d。然后将特征图沿空间维数进行平面拼接，得到长度为维数为d的特征序列作为transformer编码器的输入。编码器由 Nencoder 层组成，每一层由一个多头自注意力模块和一个前馈网络组成。由于原始transformer的置换不变性，我们向输入序列添加了正弦位置嵌入。编码器捕获序列中所有元素之间的特征依赖关系，并用全局上下文信息强化原始特征，从而使模型能够学习用于对象定位的判别特征。
Decoder：解码器将目标查询和来自编码器的增强特征序列作为输入。与 DETR 采用 100 个对象查询不同，我们只向解码器输入一个查询来预测目标对象的一个边界框。此外，由于只有一个预测，我们删除了 DETR 中用于预测关联的匈牙利算法。与编码器类似，解码器堆叠了 M 个解码器层，每个解码器层由一个自注意力、一个编码器-解码器注意力和一个前馈网络组成。在编码器-解码器注意力模块中，目标查询可以关注模板上的所有位置和搜索区域特征，从而为最终的边界框预测学习鲁棒的表示。
Head：DETR 采用三层感知器来预测对象框坐标。然而，正如 GFLoss 所指出的，直接回归坐标相当于拟合狄拉克 delta 分布，它没有考虑数据集中的模糊性和不确定性。这种表示不灵活，对对象跟踪中的遮挡和杂乱背景等挑战不具有鲁棒性。为了提高框估计质量，我们通过估计框角的概率分布设计了一个新的预测头。如下图所示，我们首先从编码器的输出序列中提取搜索区域特征，然后计算搜索区域特征与解码器输出嵌入的相似度。接下来，相似性分数与搜索区域的特征相乘，以增强重要的区域，削弱不那么有区别的区域。新的特征序列被重塑为特征图，然后馈入一个简单的全卷积网络（FCN）.FCN 由 L 个堆叠的 Conv-BN-ReLU 层组成，并分别为对象边界框的左上角和右下角输出两个概率图 Ptl(x, y) 和 Pbr(x, y)。最后，通过计算角点概率分布的期望值，得到预测的框坐标，如式（1）所示。与 DETR 相比，我们的方法明确地对坐标估计中的不确定性进行建模，从而为对象跟踪生成更准确和稳健的预测。
具体预测头结构为：
Training and Inference：我们的基线跟踪器以端到端的方式训练，结合了 L1 损失和 DETR 中的广义 IoU 损失。损失函数可以写成：其中bi和ˆbi分别代表groundtruth和predicted box，λiou, λL1∈R是超参数。但与 DETR 不同的是，我们不使用分类损失和匈牙利算法，从而进一步简化了训练过程。在推理过程中，模板图像及其来自主干的特征由第一帧初始化并在后续帧中固定。在跟踪过程中，在每一帧中，网络从当前帧中取一个搜索区域作为输入，并返回预测框作为最终结果，不使用任何后处理，如余弦窗口或边界框平滑。

Spatio-Temporal Transformer Tracking

由于目标对象的外观可能会随着时间的推移发生显着变化，因此捕获目标的最新状态以进行跟踪非常重要。在本节中，我们将演示如何基于之前介绍的基线同时利用空间和时间信息。进行了三个关键差异，包括网络输入、额外的分数头以及训练和推理策略。我们将一一阐述如下。时空架构如下图所示。
Input：与只使用第一帧和当前帧的基线方法不同，时空方法引入了一个从中间帧采样的动态更新模板作为附加输入，如上图所示。除了来自初始模板的空间信息之外，动态模板还可以捕捉目标外观随时间的变化，提供额外的时间信息。与前文中的基线架构类似，三元组的特征图被展平并连接，然后发送到编码器。编码器通过在空间和时间维度上对所有元素之间的全局关系进行建模来提取有区别的时空特征。
Head：在跟踪过程中，有些情况下不应更新动态模板。例如，当目标被完全遮挡或移出视野，或者跟踪器发生漂移时，裁剪模板是不可靠的。为简单起见，我们认为只要搜索区域包含目标，就可以更新动态模板。为了自动确定当前状态是否可靠，我们添加了一个简单的分数预测头，它是一个三层感知器，然后是一个 sigmoid 激活。如果分数高于阈值 τ，则当前状态被认为是可靠的。
Training and Inference：正如最近的工作所指出的，定位和分类的联合学习可能会导致两个任务的次优解决方案，并且有助于定位和分类的解耦。因此，我们将训练过程分为两个阶段，将定位作为首要任务，将分类作为次要任务。具体来说，在第一阶段，除了分数头之外，整个网络仅使用等式 2 中与定位相关的损失进行端到端训练。在这个阶段，我们确保所有搜索图像都包含目标对象，并让模型学习定位能力。在第二阶段，只对分数头进行优化，定义二元交叉熵损失为:其中 yi 是真实标签，Pi 是预测置信度，所有其他参数都被冻结以避免影响定位能力。这样，最终的模型在经过两阶段训练后同时学习定位和分类能力。在推理过程中，在第一帧中初始化了两个模板和相应的特征。然后裁剪一个搜索区域并输入网络，生成一个边界框和一个置信度分数。只有在达到更新间隔且置信度得分高于阈值 τ 时才更新动态模板。为了效率，我们将更新间隔设置为 Tu 帧。新模板是从原始图像中裁剪出来的，然后输入到主干中进行特征提取。

实验

首先介绍我们的 STARK 跟踪器在多个基准上的实现细节和结果，并与最先进的方法进行比较。然后，提出消融研究以分析所提出网络中关键组件的影响。我们还报告了其他候选框架的结果，并将它们与我们的方法进行比较以证明其优越性。最后，提供了可视化的注意力图软编码器和解码器，以了解转换器的工作原理

实验细节

我们的跟踪器是使用Python 3.6和PyTorch 1.5.1实现的。实验在一台安装了8块16GB Tesla V100 gpu的服务器上进行。我们报告了 STARK 的三个变体的结果：STARK-S50、STARK-ST50 和 STARK-ST101。 STARK-S50 仅利用空间信息并以 ResNet-50 作为主干，即前文中介绍的基线跟踪器。 STARK-ST50 和 STARK-ST101 分别以 ResNet-50 和 ResNet-101 作为主干，利用空间和时间信息，即上文中介绍的时空跟踪器。主干使用在 ImageNet 上预训练的参数进行初始化。 BatchNorm 层在训练期间被冻结。 Backbone 特征从第四阶段开始，步幅为 16。transformer 架构类似于 DETR 中的架构，具有 6 个编码器层和 6 个解码器层，由多头注意力层 (MHA) 和前馈网络 (FFN) 组成）。 MHA 有 8 个头，宽度为 256，而 FFN 有 2048 个隐藏单元。使用 0.1 的丢弃率。边界框预测头是一个轻量级 FCN，由 5 个堆叠的 Conv-BN-ReLU 层组成。分类头是一个三层感知器，每层有 256 个隐藏单元。
Training：训练数据由 LaSOT、GOT-10K、COCO2017 和 TrackingNet 的 train-splits 组成。根据 VOT2019 挑战的要求，我们从 GOT-10K 训练集中删除了 1k 个禁止序列。搜索图像和模板的大小分别为320×320像素和128×128像素，分别对应目标框区域的52倍和22倍。使用了数据增强，包括水平翻转和亮度抖动。 STARK-ST 的最小训练数据单元是一个三元组，由两个模板和一个搜索图像组成。 STARK-ST 的整个训练过程包括两个阶段，分别需要 500 个 epoch 进行定位和 50 个 epoch 进行分类。每个 epoch 使用 60000个三元组。网络使用 AdamW 优化器和权重衰减 10-4 进行优化。损失权重 λL1 和 λiou 分别设置为 5 和 2。每个 GPU 承载 16 个三元组。因此小批量大小是每次迭代 128 个三元组。主干和其余部分的初始学习率分别为 10-5 和 10-4。在第一阶段的 400 个 epoch 和第二阶段的 40 个 epoch 之后，学习率下降了 10 倍。 STARK-S 的训练设置与 STARK-ST 几乎相同，除了（1）STARK-S 的最小训练数据单元是模板-搜索对； (2)训练过程只有第一阶段。
Inference：动态模板更新间隔Tu和置信阈值τ分别默认设置为200帧和0.5。推理管道只包含前向传递和从搜索区域到原始图像的坐标变换，没有任何额外的后处理

结果对比

我们在三个短期基准（GOT-10K、TrackingNet 和 VOT2020）和两个长期基准（LaSOT 和 VOT2020-LT）上将我们的 STARK 与现有最先进的对象跟踪器进行了比较
GOT-10K：GOT-10K 是一个大规模基准测试，涵盖了对象跟踪中的各种常见挑战。 GOT-10K 要求跟踪器仅使用 GOT-10k 的训练集进行模型学习。我们遵循此政策并仅使用 GOT-10K 训练集重新训练我们的模型。如表 1 所示，在 ResNet-50 主干相同的情况下，STARK-S50 和 STARK-ST50 的 AO 分数分别优于 PrDiMP50 3.8% 和 4.6%。此外，STARK-ST101 获得了 68.8% 的最新 AO 分数，在相同的 ResNet-101 主干网络上超过 Siam R-CNN 3.9%。
TrackingNet：TrackingNet 是一个大规模的短期跟踪基准测试集，包含 511 个视频序列。表 2 显示 STARK-S50 和 STARKST50 在 AUC 上分别超过 PrDiMP50 4.5% 和 5.5%。借助更强大的 ResNet-101 主干，STARK-ST101 实现了 82.0% 的最佳 AUC，优于 Siam R-CNN 0.8%。

VOT2020与之前基于重置的评估不同，VOT2020 [22] 提出了一种新的基于锚点的评估协议，并使用二进制分割掩码作为基础。排名的最终指标是预期平均重叠 (EAO)。表 3 显示 STARKS50 取得了有竞争力的结果，优于 DiMP 和 UPDT。引入时间信息后，STARK-ST50 获得了 0.308 的 EAO，优于之前的边界框跟踪器。受到 VOT2020 实时挑战赛获胜者 AlphaRef 的启发，我们为 STARK 配备了 AlphaRef 提出的细化模块来生成分割掩码。新的跟踪器“STARK-ST50+AR”超越了之前的 SOTA 跟踪器，如 AlphaRefandOceanPlus，获得了 0.505 的 EAO。

LaSOT：LaSOT是一个大型的长期跟踪基准，测试集中包含280个视频，平均长度为2448帧。STARK-S50和STARKST50使用相同的ResNet-50骨干，比PrDiMP分别实现6.0%和6.6%的增益。STARK-ST101的成功率为67.1%，比Siam R-CNN高2.3%，如图5所示。
VOT2020-LT：VOT2020-LT由50个长视频组成，目标物体经常消失和重现。此外，跟踪器需要报告目标存在的置信度。在一系列置信阈值下计算精度(Pr)和召回率(Re)。Fscore定义为，用于对不同的跟踪器进行排序。由于STARK-S不能预测这个分数，我们不报告VOT2020-LT的结果。从表4可以看出，STARK-ST50和STARK-ST101的F-score分别为70.2%和70.1%，优于之前的所有方法。另外值得注意的是，STARK 的框架比 VOT2020-LT Challenge 的获胜者 LTMUB 的框架要简单得多。具体来说，LTMUB 以 A TOM 和 SiamMask 的组合作为短期跟踪器，MDNet 作为验证器，GlobalTrack 作为全局检测器。而 STARK 中只有一个网络，并且结果是在前向传递中获得的，无需后处理。
Speed Flops and Params：如表 5 所示，STARK-S50 可以以超过 40fps 的速度实时运行。此外，STARK-S50的FLOPs和Params比SiamRPN++少4倍和2倍。虽然STARKST50以动态模板作为额外输入，并引入了额外的score head，但FLOPs和Params的增加是一点点，甚至可以忽略不计。这表明我们的方法可以以几乎免费的方式利用时间信息。当使用 ResNet-101 作为主干时，FLOPs 和 Params 都显着增加，但 STARKST101 仍然可以实时运行，比 Siam R-CNN（5fps）快 6 倍，如图 1 所示。

特定组件的分析

我们选择 STARK-ST50 作为基础模型，并评估其中不同组件对 LaSOT 的影响。为简单起见，编码器、解码器、位置编码、角点预测和分数头分别缩写为enc、dec、pos、corner和score。如表6#1所示，去掉编码器后，成功率明显下降5.3%。这说明模板和搜索区域的特征之间的深度交互起着关键作用。如#2 所示，移除解码器后，性能下降 1.9%。这个下降小于去掉encoder，说明decoder的重要性不及encoder。当去除位置编码时，性能仅下降 0.2%，如#3 所示。因此我们得出结论，位置编码不是我们方法中的关键组成部分。我们还尝试用 DETR [5] 中的三层感知器替换角头。表4 显示以 MLP 作为盒头的 STARK 的性能比提出的角头低 2.7%。它表明角头预测的框更准确。如#5所示，去掉score head后，性能下降到64.5%，低于不使用时间信息的STARK-S50。这表明时间信息的不当使用可能会损害性能，过滤掉不可靠的模板很重要。

与其他框架的比较

在本节中，我们选择 STARK-ST50 作为我们的基础模型，并将其与其他可能的候选框架进行比较。这些框架包括从模板生成查询、使用匈牙利算法、更新 TrackFormer 中的查询以及联合学习本地化和分类。

模板图像用作查询：查询和模板在变压器跟踪中具有相似的功能。例如，他们都希望对有关目标对象的信息进行编码。从这个角度来看，一个自然的想法是使用模板图像作为解码器的查询。具体来说，首先将模板和搜索区域特征分别馈送到权重共享编码器，然后使用从模板特征生成的查询与解码器中的搜索区域特征进行交互。如表 7 所示，该框架的性能为 61.2%，比我们的设计低 5.2%。我们推测，根本原因是与我们的方法相比，这种设计缺乏从模板到搜索区域的信息流，从而削弱了搜索区域特征的判别力。

使用匈牙利算法：我们还尝试使用K个查询，预测有信心分数的K个方框。K在实验中等于10。groundtruth在使用匈牙利算法的训练期间与这些查询动态匹配。我们观察到这种训练策略导致了“马太效应”。具体来说，在培训开始时，有些问题比其他问题预测的框要稍微准确一些。然后由匈牙利算法选择它们与groundtruth匹配，这进一步扩大了已选查询和未选查询之间的差距。最后，只有一两个查询能够预测高质量的框。如果在推断过程中没有选择它们，预测框可能会变得不可靠。如表7所示，该策略的性能不如我们的方法，差距为2.7%。
更新查询嵌入：与 STARK 通过引入额外的动态模板来利用时间信息不同，TrackFormer通过更新查询嵌入来对时间信息进行编码。遵循这个想法，我们通过更新目标查询将 STARK-S50 扩展到一个新的时间跟踪器。表7显示该设计实现了64.8%的成功率，比STARK-ST50低1.6%。潜在的原因可能是可更新查询嵌入带来的额外信息远少于额外模板带来的额外信息。
联合学习定位与分类：如前文中所述，定位被视为首要任务，并在第一阶段进行训练。而分类在第二阶段作为次要任务进行训练。我们还做了一个实验，在一个阶段联合学习定位和分类。如表 7 所示，该策略导致次优结果，比 STARK 低 3.9%。两个潜在的原因是：

(1）score head的优化干扰了box head的训练，导致box预测不准确。

(2) 这两个任务的训练需要不同的数据。具体来说，定位任务期望所有搜索区域都包含跟踪目标以提供强大的监督。相比之下，分类任务期望均衡分布，一半的搜索区域包含目标，而剩下的一半不包含。

Visualization

Encoder Attention:图6的上半部分显示了来自Cat-20的模板-搜索三元组，以及来自最后一个编码器层的注意图。以初始模板的中心像素为查询，以三元组中的所有像素为关键和值，计算出可视化的注意力。可以看出，注意力集中在跟踪的目标上，并大致将其与背景分离。此外，编码器所产生的特征对目标和干扰物也有很强的分辨能力。

Decoder Attention:图6的下半部分展示了来自于cow -13的一个模板-搜索三元组，以及来自于最后一个解码器层的注意力地图。由此可见，解码器对模板和搜索区域的关注是不同的。具体来说，对模板的关注主要集中在目标的左上角区域，而对搜索区域的关注往往集中在目标的边界上。此外，习得的注意力对干扰物也很强大。

结论

本文提出了一种新的基于Transformer的跟踪框架，该框架可以在空间和时间维度上捕捉长期依赖关系。此外，STARK跟踪器避免了超参数敏感的后处理，形成了简单的推理管道。大量的实验表明，STARK跟踪器在5个短期和长期基准上的实时运行性能要比以前的方法好得多。我们希望这项工作能引起更多的关注变压器架构的视觉跟踪。

欢乐的时光总是短暂的，让我们下一次再见！！！

good good study,day day up! (study hard, improve every day)

预知后事，请听下回分解！！！！

Python预训练模型实现俄语音频转文字啥都鼓捣的小yao 人工智能 python 音视频人工智能
Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调。使用此模型时，请确保您的语音输入以16kHz采样。我们只需要装好三个功能包，写好你的文件路径即可使用！importtorchimportlibrosafromtransformersimport
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读 Laughing-q 论文阅读深度学习人工智能目标检测实例分割 transformer
CBNetV2:ACompositeBackboneNetworkArchitectureforObjectDetection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在SwinTransformer上的模型适用性消融实验paper：https://arxi
Springboot使用itext及documents4j操作pdf（word转pdf、pdf加水印（文字或图片，可指定位置）、pdf加密（打开密码，编辑密码））爱编程的小飞哥 SpringBoot java itext
pom.xml引入com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3com.itextpdfitextpdf5.5.11com.itextpdfitext-asian5.2.0创建PDF操作工具类PdfUtilspackagecom.ruoyi.common.u
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
【面经&八股】搜广推方向：面试记录（十三）秋冬无暖阳° 搜广推等—算法面经面试职场和发展
【面经&八股】搜广推方向：面试记录（十三）文章目录【面经&八股】搜广推方向：面试记录（十三）1.自我介绍2.实习经历问答3.八股之类的问题4.编程题5.反问6.可以1.自我介绍。。。。。。2.实习经历问答挑最熟的一个跟他讲就好了。一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个
【论文解读】DSVP：通过动态扩展实现快速探索的双阶段视点规划器 Travis.X 论文解读自动驾驶动态规划人工智能
标题：DSVP:Dual-StageViewpointPlannerforRapidExplorationbyDynamicExpansion作者：HongbiaoZhu,ChaoCao,YukunXia,SebastianScherer,JiZhang,andWeidongWang来源：https://frc.ri.cmu.edu/~zhangji/publications/IROS_2021.
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

ICCV2021 Learning Spatio-Temporal Transformer for Visual Tracking

ICCV2021 Learning Spatio-Temporal Transformer for Visual Tracking

论文实现：学习用于视觉跟踪的时空转换器

摘要

介绍

相关工作

语言与视觉的变换器

时空信息开发

跟踪管道和后处理

方法

基于Transformer的简单基线

Spatio-Temporal Transformer Tracking

实验

实验细节

结果对比

特定组件的分析

与其他框架的比较

Visualization

结论

欢乐的时光总是短暂的，让我们下一次再见！！！

good good study,day day up! (study hard, improve every day)

预知后事，请听下回分解！！！！

你可能感兴趣的:(论文解读,深度学习,计算机视觉,transformer,深度学习,目标跟踪)