Thomas_Cai

多标签分类论文笔记 | Combining Metric Learning and Attention Heads...（MLD-TResNet-L-AAM/GAT+AAM）

个人论文精读笔记，主要是翻译+心得，欢迎旁观，如果有兴趣可以在评论区留言，我们一起探讨。
Paper: https://arxiv.org/pdf/2209.06585v2.pdf
Code: https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel

文章目录

0. 摘要
1. 介绍
2. 相关工作
3. 方法
- 3.1 模型架构
- 3.2 Transformer多标签分类头
- 3.3 图注意力多标签分支（GAT）
- 3.4 角边缘二值分类（AAM，结合了ASL和度量学习的一种loss）
- 3.5 训练策略的细节
4. 实验
5. 结论

0. 摘要

多标签图像分类允许从给定图像中预测一组标签。与每个图像只分配一个标签的多类分类不同，这种设置适用于更广泛的应用程序。在这项工作中，我们回顾了两种流行的多标签分类方法:基于transformer的分类头和标签关系信息图处理分支。尽管基于transformer的分类头被认为比基于图的分支获得更好的结果，但我们认为，通过适当的训练策略，基于图的方法可以显示出很小的精度下降，同时在推理上花费更少的计算资源。在我们的训练策略中，我们引入了度量学习修正，而不是非对称损失(ASL)，这是多标签分类的公认标准。在每个二元分类子问题中，它使用来自主干的L2归一化特征向量进行操作，并强制正负样本的归一化表示之间的角度尽可能大。这提供了比二元交叉熵损失对非归一化特征更好的识别能力。利用所提出的损失和训练策略，我们在MS-COCO、PASCAL-VOC、NUS-Wide和Visual Genome 500等广泛的多标签分类基准上获得了单模态方法的SOTA结果。我们的方法的源代码可作为OpenVINO™培训扩展的一部分。

1. 介绍

尽管在一个图像上存在多个标签比只有一个硬标签更自然，但多标签分类的发展并不那么深入。由于缺乏专门的多标签数据集，研究人员将MS-COCO (Lin等人，2014年)和PASCAL VOC (Everingham等人，2009年)等一般目标检测数据集转变为具有挑战性的多标签分类基准，通过移除来自数据注释的边界框并只利用它们的类标签。

尽管最近在解决上述基准方面取得了进展，但最新的工作主要集中在得到的模型准确性上，而没有考虑计算复杂性(Liu et al .， 2021)或使用过时的训练技术(Chen et al .， 2019)，同时引入了有前途的模型架构。

在这项工作中，我们正在重新审视最新的多标签分类方法，提出适合实时应用的轻量级解决方案，并改进现有模型的性能-准确性权衡。

本文的主要贡献如下:

我们提出了对ML-GCN的修改(Chen等人，2019)，增加了图注意力机制(Velickovi等人，2018)，并以更传统的方式执行图和CNN特征融合，而不是在图分支中生成一组二分类器。
我们证明了用合适的训练策略，可以通过图注意机制来减少基于transformer分类头和标签共现建模之间的性能差距。
我们首先将度量学习范式应用于多标签分类任务，并提出了一个修改版本的角边缘二值损失(Wen et al .， 2021)，其中添加了一个ASL机制 (Baruch et al .， 2021)。
我们通过广泛的多标签分类基准的综合实验验证了我们的损失和整体训练策略的有效性：PASCAL VOC, MS-COCO, Visual Genome (Krishna等人，2016)和NUS-WIDE (Chua等人，2009)。

2. 相关工作

从历史上看，多标签分类受到的关注不如多类别场景，但尽管如此，该领域仍有很大进展。通过开发高级损失函数(Baruch等人，2021)、标签共现模型(Chen等人，2019;Yuan et al .， 2022)，设计高级分类头(Liu et al .， 2021;Ridnik等，2021b;Zhu and Wu, 2021)，并通过探索注意力区域来发现考虑物体空间分布的架构(Wang et al .， 2017;高、周，2021)。

传统的方法是将一个多标签分类任务转化为一组二值分类任务，通过优化二值交叉熵损失函数来求解。每个单类分类子任务都存在严重的正负不平衡。训练数据集包含的类越多，我们在每个单类子任务中得到的负面信息就越多，因为图像通常只包含大量类的一小部分。改进的非对称损失(Baruch等人，2021)，降低了权重和硬阈值，容易获得负样本，显示了令人印象深刻的结果，在多个流行的多标签数据集上达到了最先进的结果，而无需任何复杂的架构技巧。这些结果表明，正确选择损失函数对多标签分类性能至关重要。

另一个有希望的方向是设计特定于类别的分类器，而不是在主干网产生的单个特征向量上使用完全连接的层。这种方法也不会引入额外的训练步骤，只会略微增加模型的复杂性。(Zhu和Wu, 2021)的作者提出了一种替代全局平均池化层的方法，该层对于每个类别生成特定类特征。利用紧凑的Transformer分类头来产生这些特征(Liu et al .， 2021;Ridnik et al .， 2021b)被证明更有效。这种方法通过使用可学习的嵌入查询来假定池化特定于类的特性。

考虑对象位置的分布，或统计标签关系需要数据预处理和额外的假设(Chen等人，2019;Yuan et al, 2022)或复杂的模型架构(Wang et al, 2017;高、周，2021)。例如，(Chen et al .， 2019;Yuan et al .， 2022)通过词嵌入表示标签;然后在这些标签表示上构建一个有向图，其中每个节点表示一个标签。然后在此图上学习堆叠GCNs以获得一组对象分类器。该方法依赖于将标签表示为单词的能力，这并不总是可能的。空间分布建模需要在模型中放置一个类似rcnn的模块(Girshick et al, 2014) (Wang et al, 2017;Gao和Zhou, 2021)，这大大增加了训练链条的复杂性。

3. 方法

在本节中，我们将描述整个训练链条和我们的方法的细节。我们的目标不仅是获得有竞争力的结果，而且要使训练对最终用户更友好，更适应数据。因此，遵循(Prokofiev和Sovrasov, 2022)中描述的原则，我们使用轻量级模型架构、超参数优化和早期停止。

3.1 模型架构

我们选择了EfficientNetV2 (Tan and Le, 2021)和TResNet (Ridnik et al, 2021a)作为执行多标签图像分类的基础架构。也就是说，我们在TResNet-L、EfficientNetV2、小型和大型上进行了所有的实验。在这些主干之上，我们使用了两种不同的特征聚合方法，并比较了它们的有效性和性能。

3.2 Transformer多标签分类头

作为基于transformer的特征聚合方法的代表，我们使用ML-Decoder (Ridnik et al, 2021b)分类头。它提供多达K个特征向量(其中K是类的数量)作为模型输出，而不是在使用标准全局平均池化(GAP)分类头时使用单个类无关向量。我们将x（维度为C × H × W）作为模型输入，那么带参数W的模型F产生一个降尺度多通道特征图F = FW (x) （维度为S x H/d × W/d），其中S为输出通道数，d为空间降尺度因子。然后将该特征映射传递给ML-Decoder头部:v = MLD(f) （维度为M × L），其中M为嵌入维数，L≤K为解码器中的组数。最后，向量v通过(Ridnik et al, 2021b)中描述的全连通投影(如果L = K)或组全连通投影(如果L < K)投影到K类对数。在我们的实验中，我们设置L = min(100，K)。此外，我们L2规范化了投影中所有点积的参数，以防我们需要将度量学习损失附加到MLDecoder分类头。

3.3 图注意力多标签分支（GAT）

(Chen et al .， 2019)的图处理分支的原始结构假设在该分支中生成分类器，然后将其直接应用于由主干生成的特征。这种方法与基于transformer的分类头或任何其他原始空间特征的处理不兼容，如CSRA (Zhu和Wu, 2021)。为了减轻这种限制，我们建议采用图1所示的体系结构。
图1:提出的基于GAT(graph attention)的特征重加权方法的总体示意图。使用GAT从标签关系图中获得的特征对CNN空间特征中的通道进行重加权。然后，对重新加权的特征进行池化操作以获得向量表示。最后，将得到的向量输入到二元分类器Wj中，并使用本文介绍的AAM损失进行优化。

我们使用条件概率的估计来构建Z（标签相关性矩阵），而不是完全依赖于GLOVE和计算余弦相似度。

我们用图注意层处理输入，得到输出h（维度为S×K）。然后，我们通过最大池化操作得到最具影响力的特征，并得到权重R的S次方，用于CNN空间特征的进一步加权得到 $\widetilde{f}$ 。接下来，我们将全局平均池化和最大池化操作并行应用于 $\widetilde{f}$ ，并将结果求和，得到最终的潜在嵌入 $\widetilde{v}$ 。嵌入的 $\widetilde{v}$ 最后被传递给二值分类器。我们可以将加权特征传递给ML-Decoder或任何其他特征处理模块，而不是应用简单的空间池。

使用图注意力(GAT)分支对transformer头的特征重新加权的主要优点是在推理阶段的计算和模型复杂性开销很小。由于GAT分支对任何图像都具有相同的输入，因此在开始对结果模型进行推理之前，我们可以只计算一次其执行的结果。同时，GAT需要标签的向量表示。如果我们对所有标签(甚至单个单词)都有有意义的描述，则可以通过文本到向量模型生成这种表示。这个条件并不总是成立:一些数据集可能有未命名的标签。在这种情况下，如何为标签生成表示仍然是一个悬而未决的问题。

这里作者描述了他的GAT方法以及端到端的解决方案，至于后面的GAP结构，作者提出也可以换成ML-Decoder检测头，而不是说一定要换，这里我开始看的时候还以为换成MLD才是最终形态，但从后面的实验看来应该不是，这篇重磅的创新点还是图1的GAT结构以及后面的AAM。

3.4 角边缘二值分类（AAM，结合了ASL和度量学习的一种loss）

最近，非对称损失(Baruch等人，2021)已成为执行多标签分类的标准损失选项。根据设计，它会用改进的二值交叉熵损失惩罚每个logit。正负样本的不对称处理允许ASL减少负样本的损失权重，以解决正负不平衡问题。但从模型的辨别能力角度来看，这种方法还有改进的余地。

角边缘损失比交叉熵损失产生更多的判别分类特征，这是识别任务必须具备的特性(Deng等人，2018;Wen等，2021;Sovrasov and Sidnev, 2021)。

我们建议将(Baruch等人，2021)和(Wen等人，2021)的范例结合起来，为多标签分类构建更强的损失。表示ML-Decoder生成的归一化类嵌入vj的点积结果(用骨干或接GAT-based分类头)，第j个二值分类器Wj为cos。然后，对于训练样本x和相应的嵌入集v，我们将不对称角边缘损失(AAM)表示为:

公式中，s为尺度参数，m为角余量，k为正负加权系数，r+、r−为来自ASL的加权参数。尽管有大量的超参数，但其中一些可以安全地固定(如来自ASL的r+和r−)。变化s的影响在增加s时达到饱和(见图2b)，如果这个参数的合适值足够大，我们不需要精确地调整它。另外，m的值应该接近于0，因为它在一定程度上复制了s和r的效果，甚至会带来AAM负部分的不希望的增加(见图2a)。第4.5节提供了对超参数的详细分析。

这里主要就是讲这个loss–AAM，结合了ASL和度量学习，这两者我之前都没学过所以看的云里雾里的，这个需要先验知识，看后面有时间补上，先看个大概。

3.5 训练策略的细节

与我们之前的工作一样(Prokofiev和Sovrasov, 2022)，我们的目标是使多标签分类的训练链路可靠、快速和自适应数据集，因此我们使用以下组件:

SAM (forest et al ., 2020)无偏置衰减的优化器(He et al ., 2019b)是默认优化器;
EMA加权平均，防止过度拟合;
来自(Prokofiev和Sovrasov, 2022)的初始学习率估计过程;
OneCycle (Smith, 2018)学习率调度器;
提前停止启发式:如果验证子集上的最佳结果在5个epoch内没有得到改善，并且评估结果低于之前最佳结果的EMA平均序列，则训练过程停止;
随机翻转，预定义的Randaugment (Cubuk等人，2020)策略和Cutout (Devries和Taylor, 2017)数据增强。

4. 实验

评判标准
我们采用常用的指标来评价多标签分类模型：所有类别的平均精度(mAP)，总体精度(OP)，召回率(OR)，F1-measure(OF1)和每个类别的精度(CP)，召回率(CR)，F1-measure(CF1)。我们使用mAP作为主要度量标准;在对各种方法进行高级比较时提供其他方法。在每个需要置信度阈值的操作中，阈值0.5被替换。上述指标的确切公式可以在(Liu et al .， 2021)中找到。
各个数据集的特点
MS-COCO数据集上的测试
表2给出了MS-COCO的结果。对于这个数据集，我们设置s = 23, lr = 0:007, r−= 1,r+=0。在AAM损失的情况下，我们可以使用TResNet-L作为主干来获得最先进的结果。同时，结合ML-Decoder和AAM损耗的efficientnetv2优于带ASL的TResNet-L，同时消耗的FLOPS减少3.5倍。GCN/GAT分支的性能比ML-Decoder稍差，但在推理的边际计算成本上仍然优于EfficientNetV2-s + ASL。
Pascal-VOC数据集上的测试

Pascal-VOC测试结果见表3。我们设置s = 17, lr = 0:005, r−= 2,r+ = 1在这个数据集上训练我们的模型。我们对GAT分支的修改在使用EfficientNet-V2-s时优于ML-Decoder，而AAM损耗则提供了一个小的性能提升，并允许使用TResNet-L实现SOTA。此外，在Pascal-VOC上，使用所有考虑的附加图分支或头部的EfficientNet-V2-s显示了比使用ASL的TResNet-L更好的速度/准确性权衡。

这里的GAT re-weighting，我理解就是作者图1的端到端的解决方案，然后ML-Decoder + AAM是来验证AAM的有效性，这里code我初步看作者开源的也是基于EfficientNet-V2-s的backbone的GAT re-weighting的代码。

消融实验

这里就直接截屏了，就是控制变量做实验，验证模块的有效性

为了演示每个组件对整个管道的影响，我们将它们逐一添加到基线中。

作为基准(baseline)，我们采用了使用SGD优化器的EfficientNetV2-s骨干网和ASL损耗。我们将ASL损失和学习率的所有超参数设置为(Baruch et al .， 2021)。我们在所有的实验中使用3.5节中描述的训练策略。

在表6中，我们可以看到除了添加GAT分支之外，每个组件都带来了改进。ML-Decoder有足够的能力来学习标签相关信息，因此提供GAT分支的进一步线索不会改善结果。此外，我们可以看到r参数的调整对AAM损失是有益的，但是度量学习方法本身即使没有它也会带来改进。最后，将GAT分支添加到ML-Decoder并没有提高准确性，这表明来自GAT的附加信息没有给MLDecoder提供新的线索。

5. 结论

在这项工作中，我们重新审视了两种流行的多标签分类方法:基于变压器的头和标签图分支。我们通过应用我们的训练策略和现代技巧包来改进这些方法的性能，并引入一种新的多标签分类损失，称为AAM。该损失结合了ASL损失和度量学习方法的特性，并允许在流行的多标签基准上获得有竞争力的结果。尽管我们证明了图分支的执行非常接近基于变压器的头，但基于图的方法有一个主要缺点:它依赖于语言模型提供的标签表示。未来工作的方向可能是开发一种方法，该方法将建立一个依赖于直接从图像中提取的表示的标签关系图，而不涉及潜在无意义的标签名称。

LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
AI大模型如何赋能电商行业十二点的泡面 ai
随着技术的发展，越来越多的电商平台开始尝试运用AI技术来提高销售效率，从用户体验到供应链管理，AI深刻影响着行业的未来发展趋势。在AI加持下，如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用？如何运用AI技术提高电商平台的销售效率和用户体验呢？欢迎分享您的看法，为电商行业的数字化转型提供新的思路和方法。方向一：介绍AI技术在电商中的创新应用在电商领域，AI技术的应用正日益广泛，其中
YOLO 目标检测编程详解不知名靓仔 YOLO 目标检测人工智能
引言目标检测是计算机视觉中的一个重要任务，它旨在识别图像中的对象并定位这些对象的位置。YOLO（YouOnlyLookOnce）是一种流行的目标检测算法，因其速度快且准确度高而广受好评。本文将深入探讨YOLO的原理及其实现方法，并提供一个使用Python和PyTorch的示例代码。项目源码见最下方1.YOLO算法简介YOLO算法的核心思想是将目标检测视为回归问题，而不是传统的分类加定位的两阶段方法
对称加密和非对称加密算法分类，国密算法分类。铁锤2号各种小问题小技巧
对称加密算法对称加密算法加密和解密使用的是同一个密钥。常用的对称加密算法包括：DES、3DES、AES、RC4、RC5、RC6。非对称加密算法指加密和解密使用不同密钥的加密算法，也称为公私钥加密。假设两个用户要加密交换数据，双方交换公钥，使用时一方用对方的公钥加密，另一方即可用自己的私钥解密。常见的非对称加密算法：RSA、DSA（数字签名用）、ECC（移动设备用）、Diffie-Hellman散列
AI常见的算法纠结哥_Shrek 人工智能算法
人工智能（AI）中常见的算法分为多个领域，如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。以下是一些常见的算法及其用途：1.机器学习(MachineLearning)监督学习(SupervisedLearning)线性回归(LinearRegression)：用于预测连续值，如房价预测。逻辑回归(LogisticRegression)：用于分类问题，如垃圾邮件检测。支持向量机(SVM)
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
PyTorch 框架实现线性回归：从数据预处理到模型训练全流程大模型铲屎官 PyTorch pytorch 线性回归人工智能深度学习 python
系列文章目录Pytorch基础篇01-PyTorch新手必看：张量是什么？5分钟教你快速创建张量！02-张量运算真简单！PyTorch数值计算操作完全指南03-Numpy还是PyTorch？张量与Numpy的神奇转换技巧04-揭秘数据处理神器：PyTorch张量拼接与拆分实用技巧05-深度学习从索引开始：PyTorch张量索引与切片最全解析06-张量形状任意改！PyTorchreshape、tra
【Python进阶】5招轻松掌握Python计算机视觉，你还用传统方法吗？墨瑾轩 Python入门~精通 python 计算机视觉开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5招轻松掌握Python计算机视觉，你还用传统方法吗？开场白嘿，小伙伴们！今天我们要聊一个非常酷炫的话题——如何使用Python进行计算机视觉。想象一下，当你手头上有一组图像数据，需要对其进行识别、检测或分割，你会怎么做？手动编程？Nonono，那太累了！今天
python中cv是什么_python里面cv是什么意思 weixin_39639568 python中cv是什么
OpenCV(OpenSourceComputerVisionLibrary)开放源代码计算机视觉库，主要算法涉及图像处理、计算机视觉和机器学习相关方法。OpenCV其实就是一堆C和C++语言的源代码文件，这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV由一系列C函数和C++类构成，它有C，C++，Python和java接口，当前SDK(SoftwareDevelopmentKit软件
cv2 要下载哪个包 ivanfor666 python python
cv2是OpenCV库的一个常见别名，用于计算机视觉任务。要安装OpenCV，你可以使用以下命令：bashCopycodepipinstallopencv-python这将从PyPI上下载并安装OpenCV的Python包。请确保你已经安装了pip工具，并且在执行该命令时，你正在使用与你的项目相对应的Python版本。如果你需要安装OpenCV的额外模块，你可以通过类似的方式安装它们。例如，如果你
实时美颜与滤镜技术的融合：美颜SDK开发详解美狐美颜sdk 美颜SDK 直播美颜SDK 第三方美颜SDK 人工智能计算机视觉视频美颜SDK 深度学习美颜SDK 直播美颜sdk
如今，实时美颜与滤镜技术逐渐成为影像处理领域的热点。为了满足用户对个性化和高质量视觉效果的需求，各类美颜SDK（SoftwareDevelopmentKit，软件开发工具包）应运而生。本篇文章，笔者将详细解析实时美颜与滤镜技术的原理、关键技术以及美颜SDK的开发要点。一、实时美颜与滤镜技术概述实时美颜主要通过图像处理和计算机视觉技术，在不影响拍摄流畅度的前提下，对人脸进行美化处理。滤镜技术则侧重于
机器学习Day01 酒脑猫机器学习人工智能
人工智能三大概念及其关系人工智能（AI）：使用计算机来模拟或者代替人类机器学习（ML）：机器自动学习，并不只由人定义规则编程深度学习（DL）：大脑仿生，模拟人大脑神经网络，设计一层层神经元模拟事物机器学习是实现人工智能的一种途径，深度学习是机器学习的一种更加深入的方法。机器学习学习方法基于规则的学习：程序员根据自己经验定义规则基于模型的学习：由于某些事物，问题无法可以定义明确的规则，如：图片，语音
机器学习建模流程 day02 扫把星133 机器学习人工智能 python
机器学习建模流程通常可以分为以下几个主要步骤：问题定义与数据收集：确定问题的类型（分类、回归、聚类等可见上篇所讲内容）和目标。收集相关数据，可以是从数据库、API、文件或其他来源获取。注释：数据库是计算机里面的存储的数据的，当然可以对数据进行一些操作增删改查，通常用于存储大量结构化数据，并提供高效的数据操作和查询功能。API（ApplicationProgrammingInterface，应用程序
AI技术赋能电商行业，引领变革 m0_74136676 人工智能
AI大模型在电商行业的应用正在不断拓展，其强大的数据处理和分析能力为电商平台带来了前所未有的创新机遇。一、购物推荐的创新应用AI大模型通过分析用户的浏览历史、购买记录、搜索关键词等大量数据，能够生成个性化的商品推荐。这种推荐系统比传统的基于规则或简单协同过滤的推荐更为精准。它利用深度学习技术，更准确地预测用户的兴趣点，使推荐内容更加贴切，从而提高用户点击率和购买转化率。例如，当用户在电商平台上搜索
【DL】神经网络与机器学习基础知识介绍（一） MengWoods 深度学习机器学习神经网络人工智能
原博客：https://mengwoods.github.io/post/dl/009-dl-fundamental/文章目录基本通用概念梯度下降算法数据工程训练技术偏差与方差防止过拟合评估指标决策树基本通用概念机器学习的类型：监督学习（SupervisedLearning）：分类，回归无监督学习（UnsupervisedLearning）：聚类，降维强化学习（ReinforcementLearn
DeepSeek V3 模型微调（SFT）技术详解 zhangjiaofa 大模型 DeepSeek 模型微调
DeepSeekV3模型微调（SFT）技术详解目录引言背景知识2.1深度学习与预训练模型2.2微调（Fine-tuning）的概念2.3监督微调（SupervisedFine-tuning,SFT）DeepSeekV3模型概述3.1模型架构3.2预训练任务3.3模型性能监督微调（SFT）技术详解4.1数据准备4.1.1数据收集与清洗4.1.2数据标注4.1.3数据增强4.2模型初始化4.2.1预训
【计算机视觉】目标跟踪应用油泼辣子多加计算机视觉计算机视觉目标跟踪人工智能
一、简介目标跟踪是指根据目标物体在视频当前帧图像中的位置，估计其在下一帧图像中的位置。视频帧由t到t+1的检测，虽然也可以使用目标检测获取，但实际应用中往往是不可行的，原因如下：目标跟踪的目的是根据目标在当前视频帧图像中的位置，预测其在下一帧图像中的位置。然而，使用目标检测直接获取目标位置的方式在实际应用中存在一些限制，主要原因如下：1.实时性问题频繁检测开销大：目标检测通常需要对每一帧的整个图像
Python运算符 SSSCAESAR
文章目录1.运算符1.1运算符的概念1.2运算符的分类2.算术运算符3.赋值运算符4.比较运算符5.逻辑运算符5.1not逻辑非5.2and逻辑与5.3or逻辑或5.4⾮布尔值的与或运算6.条件运算符（三元运算符）7.运算符的优先级1.运算符1.1运算符的概念运算符⽤于执⾏程序代码运算，会针对⼀个以上操作数项⽬来进⾏运算。例如：2+3，其操作数是2和3，⽽运算符则是“+”1.2运算符的分类算术运算
MySQL中有哪几种锁？ chengxuyuan66666 mysql 数据库
MySQL中的锁机制是数据库并发控制的重要组成部分，这些锁可以根据不同的分类标准进行划分。以下是对MySQL中锁的详细分类和解释：一、按锁的性质分类乐观锁（OptimisticLocking）假设并发操作时不会发生冲突，只在提交事务时检查数据是否被其他事务修改过。适用于读多写少的场景。实现方式通常是通过记录版本号或时间戳来判断数据是否被修改。悲观锁（PessimisticLocking）假设并发操
go语言学习--处理map的无序输出 ???Sir 数据结构与算法
最近工作中遇到了这样的一个场景，需要处理一个无限极分类的问题，对于数据结构的定义首先想到了，map，map[int]map[int]struct。通过两层map的定义归类parent_id和id的关系，然后有个递归进行数据的绑定处理。想想就开心，map确实好用，虽然不是并发安全，但是在查询速度和检查值存在方面确实有优势，然后就开心的写了起来，但是想起来map的输出是无序的。然后就想办法去处理数据的
无限极分类原理与实现子不语_wj
前言无限极分类是我很久前学到知识，今天在做一个项目时，发现对其概念有点模糊，所以今天就来说说无限极分类。首先来说说什么是无限极分类。按照我的理解，就是对数据完成多次分类，如同一棵树一样，从根开始，到主干、枝干、叶子……完成无限极分类，主要运用了两种方法，一是递归方式，二是迭代方式。而主要运用无限极分类的地方有地址解析，面包屑导航等等。下面就来具体介绍两种方法的原理及实现方法。家谱树与子孙树家谱树是
Transformer--概念、作用、原理、优缺点以及简单的示例代码 Ambition_LAO transformer 深度学习
Transformer的概念Transformer是一种基于自注意力机制的神经网络模型，最早由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出。它主要用于自然语言处理任务，如机器翻译、文本生成、文本分类等。与传统的循环神经网络（RNN）和长短时记忆网络（LSTM）不同，Transformer完全摆脱了序列结构的依赖，可以并行处理数据，显著提高了训练效率和效果
初步认识C语言-个人学习 Aphelios380 C语言 c语言学习
大家好，这是我关于C语言学习记录的系列博客。在这个系列中，我将按照以下目录逐步深入学习C语言：什么是C语言第一个C语言程序数据类型变量，常量字符串+转义字符+注释选择语句循环语句函数数组希望通过这些记录，不仅能帮助自己巩固知识，也能给正在学习C语言的小伙伴们一些参考。“什么是C语言”部分软件是为了满足用户的特定需求而开发的一系列计算机程序、数据和相关文档的集合。从分类上来说，软件主要分为操作系统和
Tensor 基本操作2 理解 tensor.max 操作，沿着给定的 dim 是什么意思 | PyTorch 深度学习实战 Chatopera 研发团队机器学习深度学习 pytorch 人工智能
前一篇文章，Tensor基本操作1|PyTorch深度学习实战本系列文章GitHubRepo:https://github.com/hailiang-wang/pytorch-get-started目录Tensor基本操作torch.max默认指定维度Tensor基本操作torch.maxtorch.max实现降维运算，基于指定的dim选取子元素的最大值。默认a=torch.randn(1,3)p
【图像超分】论文复现：万字长文！Pytorch实现EDSR！代码修改无报错！踩坑全记录！适合各种深度学习新手！帮助你少走弯路！附修改后的代码和PSNR最优的模型权重文件！十小大超分辨率重建（理论+实战科研+应用）深度学习 pytorch 人工智能超分辨率重建图像处理计算机视觉图像超分
第一次来请先看这篇文章：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）修改后代码和权重文件下载见文末链接！！！包含制作好的h5数据集和最优性能权重文件，可直接用于测试。本文亮点：讲解细致，EDSR流程全通，代码注释丰富，适合新手入门阅读深度思考，踩坑报错全
全面信息收集指南：渗透测试中的关键步骤与技巧 Clockwiseee 信息收集安全 web安全渗透测试漏洞挖掘
文章目录一、什么是信息收集二、信息收集的分类1.服务器相关信息2.网站指纹识别3.Whois及目标背景信息4.子域名及关联资产5.GoogleHacking（搜索引擎利用）6.网站目录和敏感文件7.传输协议与漏洞利用8.第三方依赖与拓展信息三、信息收集的方式1.whois在线查询使用技巧2.在线网站备案查询3.收集子域名3.1网络空间绘测绘测的目的和意义3.2子域名爆破工具四、端口五、查找真实IP
et中计算机的快捷键,ET软件快捷键 Gyrolt et中计算机的快捷键
ET软件快捷键1.点模式：F4：要素点模式F5：任意点模式F5：智能点模式2.显示：F6、V：全屏显示F7、B：单屏全屏显示F8：关闭所有皮尺显示F9：显示分类对话框F10：前画面F11：显示隐藏后的裁片F12：关闭英寸白圈表示X：缩小Z：放大C：视图查询Shift+滚轮：按鼠标指定位置放缩，向上放大向下缩小工具面板切换：Alt+Q：打版工具与放码工具切换Alt+W或Alt+E：专业工具与测量工具
【人工智能】Python常用库-PyTorch常用方法教程 IT古董人工智能机器学习 Python 人工智能 python pytorch 机器学习
PyTorch是一个强大的开源深度学习框架，以其灵活性和动态计算图而广受欢迎。以下是PyTorch的详细教程，涵盖从基础到实际应用的使用方法。1.安装与导入1.1安装PyTorch访问PyTorch官方网站，根据系统、Python版本和CUDA支持选择安装命令。常用安装命令：pipinstalltorchtorchvisiontorchaudio1.2导入库importtorchimporttor
【人工智能】Python常用库-TensorFlow常用方法教程 IT古董人工智能机器学习 Python 人工智能 python tensorflow 机器学习
TensorFlow是一个广泛应用的开源深度学习框架，支持多种机器学习任务，如深度学习、神经网络、强化学习等。以下是TensorFlow的详细教程，涵盖基础使用方法和示例代码。1.安装与导入安装TensorFlow：pipinstalltensorflow导入TensorFlow：importtensorflowastfimportnumpyasnp验证安装：print(tf.__version_
python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取） weixin_39630762 python 命名实体识别
PythonNLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。NLTK有
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号