杀生丸学AI

【目标检测】Co-DETR：ATSS+Faster RCNN+DETR协作的先进检测器（ICCV 2023）

论文：DETRs with Collaborative Hybrid Assignments Training

代码**：https://github.com/Sense-X/Co-DETR

文章目录

摘要
一、简介
二、本文方法
- 2.1.概述
- 2.2.协同混合分配训练
- 2.3. 定制的正 Query 生成
- 2.4. Co-DETR为何有效
- - 1、丰富编码器的监督
  - 2、通过减少匈牙利匹配的不稳定性来改进跨注意力学习
- 2.5. 与其他方法的比较
三、实验
- 1 与先进方法的比较
- 2.消融研究
- 3.冲突分析

摘要

在这篇论文中，作者观察到在DETR中将过少的 Query 分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习，反之亦然，也会影响解码器中的注意力学习。

为了缓解这个问题，作者提出了一种新颖的协同混合分配训练方案，名为Co-DETR，以从多样的标签分配方式中学习更高效、更有效的基于DETR的检测器。这种新的训练方案可以通过训练多个并行辅助 Head ，以一对多的标签分配方式（如ATSS和Faster RCNN）进行监督，轻松增强端到端检测器中编码器的学习能力。此外，作者通过从这些辅助 Head 中提取正样本坐标，为解码器中的正样本的训练效率进行额外的定制化正样本 Query 。在推理过程中，这些辅助 Head 被丢弃，因此作者的方法不会引入额外的参数和计算成本到原始检测器中，也不需要手工制定的非最大抑制（NMS）。

作者进行了大量实验，以评估所提方法在DETR变种上的有效性，包括DAB-DETR、Deformable-DETR和DINO-Deformable-DETR。在COCO val上，与ViT-L Backbone 网络结合，Co-DETR取得了66.0%的AP，在LVIS val上取得了67.9%的AP，明显优于以往的方法，且模型大小要小得多。

一、简介

目标检测 是计算机视觉中的一个基本任务，要求作者定位物体并对其进行分类。开创性的R-CNN家族和一系列变种，如ATSS、RetinaNet、FCOS和PAA，显著突破了目标检测任务。其中的核心方案是一对多的标签分配，即将每个 GT 框分配给检测器输出中的多个坐标，作为与Proposal、Anchor或窗口中心合作的监督目标。尽管这些检测器表现出有望的性能，但它们严重依赖于许多手工设计的组件，如非极大值抑制过程或Anchor生成。

为了进行更灵活的端到端检测器，DEtection TRansformer（DETR） 提出将目标检测视为一个集合预测问题，并引入了基于Transformer编码器-解码器架构的一对一集合匹配方案。通过这种方式，每个 GT 框只会被分配给一个特定的 Query ，不再需要多个手工设计的编码先验知识的组件。这种方法引入了灵活的检测流程，并鼓励许多DETR变种进一步改进它。然而，普通的端到端目标检测器的性能仍然不如具有一对多标签分配的传统检测器。

在本文中，作者试图使基于DETR的检测器优于传统检测器，同时保持其端到端的优点。为了解决这一挑战， 作者关注一对一集合匹配的直观缺点，即它探索了较少的正 Query 。这将导致严重的低效训练问题。 作者从两个方面详细分析了这一问题，即编码器生成的潜在表示和解码器中的注意力学习。

作者首先比较了Deformable-DETR和一对多标签分配方法之间的潜在特征的可区分性得分，其中 作者简单地用ATSS Head替换了解码器。每个空间坐标中的特征 L2-范数用于表示可区分性得分。给定编码器的输出F∈R^C×H×W ，作者可以得到可区分性得分图S∈R^1×H×W 。当相应区域中的得分较高时，可以更好地检测到物体。

如图2所示，作者通过在可区分性得分上应用不同的阈值来展示IoF-IoB曲线（IoF：前景交叉，IoB：背景交叉）。ATSS中的更高IoF-IoB曲线表明更容易区分前景和背景。图2中的示例显示，过少的正 Query 也会影响注意力学习，增加解码器中的更多正 Query 可以稍微缓解这个问题。

作者进一步在图3中可视化了可区分性得分图S。显然，一对一集合匹配中的一些显著区域的特征被充分激活，但在一对一集合匹配中探索较少。这一重要观察激发了作者提出一个简单但有效的方法，即协同混合分配训练方案（Co-DETR）。Co-DETR的关键见解是使用多样化的一对多标签分配来提高编码器和解码器的训练效率和有效性。

具体而言，作者将这些 Head 与Transformer编码器的输出集成在一起。这些 Head 可以通过多样化的一对多标签分配进行监督，例如ATSS、FCOS和Faster RCNN。不同的标签分配丰富了编码器输出的监督，迫使它具有足够的区分度，以支持这些 Head 的训练收敛。

为了进一步提高解码器的训练效率，作者巧妙地编码了这些辅助 Head 中正样本的坐标，包括正Anchor和正Proposal。它们被发送到原始解码器作为多组正 Query ，以预测预分配的类别和边界框。每个辅助 Head 中的正坐标都作为一个独立的组，与其他组隔离。

多样化的一对多标签分配可以引入丰富的（正 Query ， GT ）对以提高解码器的训练效率。请注意，在推理过程中只使用原始解码器，因此所提出的训练方案只在训练期间引入额外的开销。

如图3所示，Co-DETR极大地缓解了一对一集合匹配中编码器特征学习不足的问题。作为一种即插即用的方法，作者轻松地将其与不同的DETR变种结合使用，包括DAB-DETR、Deformable-DETR和DINO-Deformable-DETR。

正如图1所示，Co-DETR实现了更快的训练收敛速度，甚至具有更高的性能。在12轮训练中，作者将基本的Deformable-DETR的性能提高了5.8%的平均精度（AP），在36轮训练中提高了3.2%的AP。最先进的DINO-Deformable-DETR与Swin-L结合，仍然可以在COCO val上将性能从58.5%提高到59.5%的AP。令人惊讶的是，结合ViT-L Backbone网络，作者在COCO test-dev上实现了66.0%的AP，在LVIS val上实现了67.9%的AP，建立了新的最先进的检测器，而模型规模要小得多。

二、本文方法

2.1.概述

按照标准的DETR，输入image 经过 Backbone网络和编码器以生成潜在特征。然后，多个预定义的物体 Query 通过交叉注意力与它们在解码器中进行交互。作者引入Co-DETR来通过协同混合分配训练方案 和 定制的正 Query 生成来改善编码器中的特征学习和解码器中的注意力学习。

2.2.协同混合分配训练

为了缓解解码器中较少的正 Query 而导致的对编码器输出的稀疏监督，作者结合了不同的一对多标签分配范式，例如ATSS和Faster R-CNN，与多功能的辅助 Head 。不同的标签分配丰富了对编码器输出的监督，迫使它具有足够的区分度来支持这些 Head 的训练收敛。

具体来说，给定编码器的潜在特征 F，通过多尺度适配器转化为特征金字塔 {F₁，…F_J}， J 表示具有2^2+J 下采样Stride的特征图。与ViTDet类似，特征金字塔由单尺度编码器中的单个特征图构建，比如双线性插值和3×3卷积进行上采样。至于多尺度编码器，只对多尺度编码器特征 F 中最粗糙的特征进行下采样，以构建特征金字塔。

定义具有相应标签分配方式A_K 的K个Head ：第 i 个Head ，将 {F₁，…F_J} 输入获得预测值， A_i 用于计算 P_i 中的正负样本的监督目标。将G表示为 GT 集，这个过程可以被表达为：

其中{pos}和{neg}表示由A_i 确定的对集。j 表示在 {F₁，…F_J} 中的特征索引。B_i^{pos} 是正空间坐标的集合。P_i^{pos}和P_i^{neg} 是相应坐标中的监督目标，包括类别和回归偏移量。

不同的head和标签分配方式如下表：

损失函数可以定义为：

负样本的回归损失被丢弃。K个辅助 Head 的优化的训练目标可以如下定义：

2.3. 定制的正 Query 生成

一对一的集合匹配范式，每个 GT 框只会被分配给一个特定的 Query 作为监督目标。正Query过少会导致Transformer解码器中的跨注意力学习效率低下。Co-DETR 根据每个辅助 Head 中的标签分配 A_i 精心生成足够多的定制正 Query。
具体而言，第i 个辅助 Head 中的正坐标集合 B_i^{Pos}∈R^Mix4，其中Mi 是正样本的数量额外的定制正Query Q_i∈R^MixC可以通过以下方式生成:

其中PE(·)代表位置编码，并根据索引对 (j，F_j 中的正坐标或负坐标)从E(·)中选择相应的特征。

结果，有K + 1组 Query 为单一的一对一集合匹配分支做出贡献，具体来说，第i 个辅助分支中第 l个解码器层的损失可以表达为：

$\overline{\text{P}}$ _i,l 是第 i 个辅助分支中第个 l 解码器层的输出预测。最终，Co-DETR的训练目标是：

其中 $\overline{\text{L}}$ _l ^dec 代表原始的一对一集合匹配分支中的损失，λ₁和λ₂ 是平衡系数.

2.4. Co-DETR为何有效

Co-DETR显著改进了基于DETR的检测器。接下来，作者尝试从定性和定量两方面调查其有效性。作者基于使用ResNet-50 Backbone网络的Deformable-DETR，并使用36轮的设置进行了详细分析

1、丰富编码器的监督

直观地说，正 Query 过少会导致监督稀疏，因为每个 GT 只有一个 Query 通过回归损失进行监督。一对多标签分配方式中的正样本接收更多的位置监督，有助于增强潜在特征的学习

为了进一步探讨稀疏监督如何阻碍模型训练，作者详细研究了编码器产生的潜在特征。作者引入了IoF-IoB曲线来量化编码器输出的可区分性得分。具体来说，给定编码器的潜在特征F，受到图3中特征可视化的启发，作者计算了IoF (前景交叉) 和IB (背景交叉)。给定Level-j 处的编码器特征Fj∈R^C×Hj×wj，首先计算L2范数 $\widehat{F}$ _j∈R^1×Hj×wj，然后将其调整为图像大小HxW。可区分性得分D(F)通过对所有Level的分数进行平均计算:

图3中可视化了ATSS、Deformable-DETR和作者的Co-Deformable-DETR的可区分性得分。与Deformable-DETR相比，ATSS和Co-Deformable-DETR都具有更强的区分关键目标区域的能力，而Deformable-DETR几乎被背景干扰。

2、通过减少匈牙利匹配的不稳定性来改进跨注意力学习

匈牙利匹配是一对一集合匹配中的核心方案。跨注意力是帮助正 Query 编码丰富目标信息的重要操作。匈牙利匹配引入了不可控制的不稳定性，因为在训练过程中，分配给同一图像中特定正 Query 的 GT 会发生变化。

图5提供了不稳定性的比较，本文方法有助于更稳定的匹配过程。此外，为了量化跨注意力优化的程度，作者还计算了关注分数的IoF-IoB曲线。与特征可区分度得分计算类似，作者为注意力分数设置不同的阈值，以获取多个IoF-IoB对。可以在图2中查看Deformable-DETR、Group-DETR和Co-Deformable-DETR之间的比较。作者发现，具有更多正 Query 的DETR的IoF-IoB曲线通常高于Deformable-DETR，这与作者的动机一致。

2.5. 与其他方法的比较

Group-DETR、H-DETR和SQR通过具有重复组和重复 GT 框的一对一匹配来执行一对多分配。Co-DETR明确为每个 GT 分配了多个空间坐标作为正 Query 。因此，这些密集的监督信号直接应用于潜在特征图，使其更具区分性。

虽然这些对手引入了更多的正 Query ，但由匈牙利匹配实现的一对多分配仍然受到一对一匹配的不稳定性问题的困扰。作者的方法受益于即插即用的一对多分配的稳定性，并继承了它们的正 Query 与 GT 框之间的特定匹配方式。

Group-DETR和H-DETR未能揭示一对一匹配和传统一对多分配之间的互补性。据作者所知，作者是第一个对具有传统一对多分配和一对一匹配的检测器进行定量和定性分析的研究，这有助于作者更好地理解它们的差异和互补性，从而可以自然地通过利用即插即用的一对多分配设计来提高DETR的学习能力，而不需要额外的专门的一对多设计经验。

重复的物体 Query 不可避免地会为解码器带来大量的负 Query 和显著增加GPU内存消耗。然而，作者的方法只处理解码器中的正坐标，因此内存消耗较少，如表7所示。

三、实验

表2和表3对Co-DETR在不同的DETR变种上的有效性和泛化能力进行了实证分析（结果由mmdetection复现）。

首先，作者将协作混合分配训练应用于具有C5特征的单尺度DETR，较长的训练过后，Conditional-DETR和DAB-DETR都比Baseline提高了2.4%和2.3%的AP。对于多尺度特征的DeformableDETR，检测性能从37.1%显著提高到42.9%的AP。

1 与先进方法的比较

与DeformableDETR++和DINO配对，其中K = 2。此外，作者采用了质量Focal Loss和NMS来进行作者的Co-DINO-Deformable-DETR。作者在COCO val上报告了比较结果，如表4所示。

与其他竞争对手相比，作者的方法收敛速度快得多。例如，只使用ResNet-50 Backbone网络的Co-DINO-Deformable-DETR在12个Epoch内就可以轻松达到52.1%的AP。作者的Swin-L方法可以在1×scheduler下获得58.9%的AP，甚至超过其他最先进的3×scheduler框架。

更重要的是，最佳模型Co-DINO-Deformable-DETR++在36个Epoch的训练下，使用ResNet-50可以实现54.8%的AP，使用Swin-L可以实现60.7%的AP，超越了所有使用相同 Backbone网络的现有检测器，差距明显。

作者还展示了Co-DETR在长尾LVIS检测数据集上的最佳结果。具体而言，作者使用了与COCO相同的Co-DINO-Deformable-DETR++作为模型，但选择了FedLoss作为分类损失，以弥补不平衡数据分布的影响。

在这里，作者只应用边界框监督并报告目标检测结果。比较结果见表6。Co-DETR与Swin-L在LVIS val和minival上分别取得了56.9%和62.3%的AP，超越了使用MAE预训练的ViT-H和GLIPv2的ViTDet分别+3.5%和+2.5%的AP。作者进一步在这个数据集上对Objects365预训练的Co-DETR进行了微调。

2.消融研究

消融实验在具有ResNet-50 Backbone网络的Deformable-DETR上进行的。作者默认选择辅助Head的数量K为1，并将总批量大小设置为32。

选择辅助Head的标准

作者进一步探讨了在表7和表8中选择辅助Head的标准。表8中的结果显示，任何具有一对多标签分配的辅助Head都可以稳定地提高Baseline性能，而ATSS获得了最佳性能。作者发现，当选择K小于3时，随着K的增加，准确性持续提高。值得注意的是，当K=6时性能下降，作者推测这是由于辅助Head之间的严重冲突引起的。如果特征学习在不同的辅助Head之间不一致，那么当K变大时，连续改进将被破坏。

总之，作者可以选择任何一个Head作为辅助Head，当K≤2时，作者将ATSS和Faster-RCNN视为实现最佳性能的常规做法。作者不使用太多不同的Head，例如6个不同的Head，以避免优化冲突。

3.冲突分析

当在不同的辅助Head中为相同的空间坐标分配不同的前景框或将其视为不同的背景时，会导致冲突，从而使检测器的训练变得混乱。作者首先定义Head H_i 和Head H_j 之间的距离，以及H_i 到平均距离来衡量优化冲突，如下所示：

其中，KL、D、I、C分别指的是KL散度、数据集、输入图像和类激活图（CAM）。作者计算了K>1的多个辅助Head之间的平均距离以及K=1时DETR Head和单一辅助Head之间的距离。作者发现当K=1时，每个辅助Head的距离度量是微不足道的，这与作者在表8中的结果一致：当K=1时，DETR Head可以与任何Head共同改进。

当K增加到2时，距离度量略有增加，如表7所示，作者的方法实现了最佳性能。当K从3增加到6时，距离度量急剧增加，表明这些辅助Head之间的严重优化冲突导致了性能下降。然而，具有6个ATSS的Baseline可以达到49.5%的AP，并且通过将ATSS替换为6个不同的Head可以降低到48.9%的AP。因此，作者推测过多不同的辅助Head，例如超过3个不同的Head，会加剧冲突。总之，优化冲突受到不同辅助Head的数量以及这些Head之间的关系的影响。

01、是否应该添加不同的Head？

使用两个ATSS Head（49.2%的AP）进行协作训练仍然可以提高一个ATSS Head（48.7%的AP）的模型，因为根据作者的分析，ATSS是DETR Head的补充。

此外，引入一个不同于原始 Head 的多样化和互补的辅助Head，例如Faster-RCNN，可以带来更好的增益（49.5%的AP）。

02、每个组件的效果

每个组件的消融效果，如表9所示。引入辅助Head显著提高了性能，因为密集的空间监督使编码器特征更具判别性。另外，引入定制的正 Query 也对最终结果做出了显著贡献，同时提高了一对一集合匹配的训练效率。

03、与更长的训练计划的比较

如表10所示，作者发现Deformable-DETR不能从更长的训练中受益，因为性能会饱和。相反，Co-DETR大大加速了收敛速度，并提高了性能的峰值。

04、辅助分支的性能

令人惊讶的是，作者观察到Co-DETR对辅助Head也带来了持续的增益，如表11所示。这意味着作者的训练范式有助于更具判别性的编码器表示，从而提高了解码器和辅助Head的性能。

05、原始正 Query 和定制正 Query 的分布差异
作者在图7a中可视化了原始正 Query 和定制正 Query 的位置。作者每张图像只显示一个对象（绿色框）。由解码器中的匈牙利匹配分配的正 Query 标记为红色。

用蓝色和橙色标记了从Faster-RCNN和ATSS中提取的正 Query ，这些定制 Query 分布在实例的中心区域周围，并为检测器提供了足够的监督信号。

作者在图7b中计算了原始 Query 和定制 Query 之间的平均距离。原始负 Query 和定制正 Query 之间的平均距离明显大于原始和定制正 Query 之间的距离。由于原始 Query 和定制 Query 之间的分布差距很小，因此在训练过程中不会遇到不稳定性问题。

HTML AI 编程助手 wjs2024 开发语言
HTMLAI编程助手引言随着人工智能技术的飞速发展，编程领域也迎来了新的变革。HTML，作为网页制作的基础语言，与AI技术的结合，为开发者带来了前所未有的便利。本文将探讨HTMLAI编程助手的功能、应用场景以及如何利用它提高编程效率。HTMLAI编程助手概述HTMLAI编程助手是一种基于人工智能技术的辅助工具，旨在帮助开发者快速、高效地完成HTML代码编写。通过学习大量的HTML代码，AI编程助手
首发实测：地表最强AI？马斯克发布新一代AI模型Grok3 Code_流苏 AI漫谈先知实用软件与高效工具人工智能 grok3 AI实测首发测评 AI
近年来，人工智能的迅猛发展让人们对其未来充满了无限期待。尤其是以马斯克为首的企业家们，始终走在AI技术的前沿。就在近期，马斯克宣布推出新一代AI模型——Grok3。这一消息无疑引起了行业的广泛关注，大家都在猜测，这款新AI模型究竟有何独特之处，是否能够在众多强大AI模型中脱颖而出？名人说：悟已往之不谏，知来者之可追。——《归去来兮辞》陶渊明创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的
高效空间编码技术：SPD-Conv在目标检测中的创新应用向哆哆目标检测目标跟踪人工智能 yolov8
文章目录SPD-Conv：高效空间编码的技术背景SPD-Conv的原理YOLOv8中的SPD-Conv实现YOLOv8SPD-Conv代码实现代码解析性能提升SPD-Conv的优势与应用场景SPD-Conv的设计细节与优化1.空间深度转换机制的进一步优化2.SPD-Conv的训练技巧与改进3.SPD-Conv与YOLOv8的其他模块结合SPD-Conv的应用扩展1.自动驾驶2.无人机目标检测3.安
LeetCode - #219 存在重复元素 II 网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
穿越AI边界：深度集成DeepSeek API与云平台的实践之路云边有个稻草人热门文章人工智能 DeepSeek 大数据集成DeepSeek API DeepSeek算法阿里云百炼平台集成
云边有个稻草人-CSDN博客随着人工智能技术的日益发展，深度学习和自然语言处理（NLP）已经在很多领域得到了广泛的应用。DeepSeek作为一款领先的大型语言生成模型，凭借其强大的推理和生成能力，已经被越来越多的开发者和行业专家所青睐。通过DeepSeek提供的API接口，开发者可以在多个领域中实现先进的自然语言理解和生成任务。本文将深入探讨如何使用Python调用DeepSeek的API接口，并
AI在农业中的应用:精准农业的新时代 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI,农业,精准农业,机器学习,深度学习,计算机视觉,农业机器人1.背景介绍农业是人类文明的基石，也是全球经济的重要支柱。然而，随着人口增长和资源短缺，传统农业面临着诸多挑战，例如低效率、资源浪费、环境污染和气候变化的影响。为了应对这些挑战，精准农业应运而生。精准农业是指利用现代信息技术和数据分析手段，对农业生产进行精细化管理，提高资源利用效率、产量和产品质量，同时减少环境污染。人工智能（AI）作
AI 驱动的智慧大脑：打造企业动态知识库，开启高效管理新时代网罗开发人工智能 AI 大模型深度学习人工智能
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量子计算如何提升机器学习效率：从理论到实践 Echo_Wish 人工智能前沿技术量子计算机器学习人工智能
量子计算如何提升机器学习效率：从理论到实践在人工智能和机器学习的高速发展中，传统计算方法已经逐渐面临性能瓶颈。随着数据量的激增、算法复杂度的提高，传统计算机在处理某些特定任务时的效率显得捉襟见肘。而量子计算，作为一项颠覆性的技术，正逐步展现出在机器学习领域中的巨大潜力。量子计算不仅能够加速特定任务的执行，还能为一些经典算法提供更高效的解决方案。今天，我们将深入探讨量子计算如何提升机器学习效率，解析
云计算相关工作岗位有哪些，薪资怎么样？欧米说云云计算腾讯云阿里云云计算
云计算、大数据、人工智能作为新一代信息技术产业，未来发展前景不可估量，就业前途一片光明，自然薪资待遇也不会差。随着亚马逊云、阿里云、华为云等云厂商的快速发展，也产生了大量的岗位需求，同时厂商为了增强自身影响力，也设置了很多证书考试，acp、ace、hcip、hcie等等。在这里想进入相关行业大厂从事云相关的工作的同学可以先考取大厂的对应证书，增加自己简历含金量，从而进入大厂。免费领取阿里云华为认证
从零到精通：小白DeepSeek全栈入门指南好东西不迷路各自资源 AI 前端 html python
第一部分：认知准备（1-3天）1.1基础概念搭建人工智能三要素：数据/算法/算力深度学习与传统机器学习的区别神经网络基本结构（输入层/隐藏层/输出层）常用术语解析：epoch、batch、loss、accuracy1.2环境配置实战Python环境搭建（推荐Anaconda）condacreate-ndeepseekpython=3.8condaactivatedeepseek深度学习框架选择指南
从零到一：利用DeepSeek构建高精度图像分类模型实战解析一碗黄焖鸡三碗米饭人工智能前沿与实践分类数据挖掘人工智能
引言：为什么选择DeepSeek进行图像分类？在计算机视觉领域，图像分类作为基础任务，其技术演进经历了从传统特征工程到深度学习的革命性转变。DeepSeek作为国产自研的深度学习框架，凭借其高效计算优化和灵活架构设计，在ImageNet等基准测试中展现出与PyTorch、TensorFlow等主流框架相媲美的性能。本文将手把手带您实现从零搭建工业级图像分类模型的全过程。一、DeepSeek技术架构
查看Python库依赖关系的解决方案爱编程的喵喵 Python基础课程 python 依赖关系
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了查看Python库依赖关系的解决方案
Python编码系列—Python原型模式：深克隆与高效复制的艺术学步_技术 Python编码 python 原型模式开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
DeepSeek R1 详解：思维链、强化学习和蒸馏前网易架构师-高司机 2025年最新-深度学习+AI DeepSeek和AI工具深度学习 Deepseek
目录思维链强化学习蒸馏DeepSeek是如何做到的?训练过程较小模型基准为什么Deepseek很重要DeepSeekR1常见问题解答来自中国的新型大型语言模型DeepSeekR1的发布在人工智能研究界引起了轰动。这不仅仅是又一次渐进式改进。DeepSeek代表着一次重大飞跃。大多数新的人工智能模型感觉都像是小步前进，DeepSeek-R1则不同。Deepseek的基准在推理任务（数学、编码和科学）
yolo目标检测项目 m0_75047393 YOLO 目标检测人工智能
一、前言（一）、什么是目标检测目标检测是指在图像或视频中准确地识别和定位出现的特定目标物体的任务。目标检测通常包括以下几个步骤：目标分类：确定图像中出现的物体属于哪一类别，例如汽车、行人、狗等。目标定位：确定图像中物体的位置，通常通过绘制边界框或遮罩来标识物体的位置。目标识别：将检测到的目标与预定义的类别进行匹配，以便为目标添加语义标签。多目标检测：在一张图像中检测并识别多个目标，包括重叠目标和不
如何在本地运行大型语言模型（LLM）：深度指南及最佳实践 m0_57781768 语言模型人工智能自然语言处理
如何在本地运行大型语言模型（LLM）：深度指南及最佳实践在当今的人工智能领域，越来越多的开发者希望能够在本地运行大型语言模型（LLM），而不依赖于云端服务。这种趋势的兴起主要源于两个重要的需求：隐私保护和成本控制。通过在本地设备上运行LLM，用户的数据不会被发送到第三方服务器，确保了数据的隐私性。同时，在长时间运行的模拟、文本生成、总结等需要大量计算资源的应用中，本地运行可以显著降低成本。本文将深
【QT开发教程】使用Qt进行跨平台（Windows、macOS、Linux、iOS和Android）开发的最佳实践 I'mAlex QT开发教程 qt 开发语言跨平台
Qt是一个强大的跨平台C++框架，使得开发者可以编写一次代码并在多个平台上运行，包括Windows、macOS、Linux、iOS和Android。在跨平台开发过程中，遵循一些最佳实践可以帮助我们提高开发效率和代码质量。本文将介绍使用Qt进行跨平台开发的最佳实践。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质
这是我的第一篇博客流川飞 c++
结束摆烂，看看自己的极限在哪里，两年后回来看自己个人介绍：我是一个大一下学期的男生，就读人工智能专业，性格活泼爱笑[face]emoji:008.png[/face]编程目标：能拿到一份满意的offer，能成为很厉害的程序员如何学习：利用晚上的水课和没课的时间学习编程，到一定水平后参加蓝桥杯类的比赛!我打算每周在编程上花费的时间：35h+我最想进入的一家IT公司：马斯克的公司!
DeepSeek怎么用，DeepSeek使用指南最全合集（保姆级教程） xiecoding.cn deepseek deepseek使用指南 deepseek怎么用 deepseek免费教学 deepseek资料合集
DeepSeek是一款由国内顶尖团队开发的人工智能大模型，旨在为用户提供高效、智能的问答和知识服务。作为国产AI模型的代表，DeepSeek不仅在自然语言处理（NLP）领域表现出色，还在多个应用场景中展现了强大的能力。与ChatGPT等国际知名模型相比，DeepSeek在中文语境下的表现尤为突出，能够更好地理解中文的复杂语义和文化背景。DeepSeek使用资源下载为了方便大家更好地学习和使用Dee
清华DeepSeek从入门到精通系列PDF全五弹 2501_90737221 pdf 人工智能
资源链接：https://pan.quark.cn/s/e9b7230b1538宝子们，今天要给大家分享一套超级厉害的DeepSeek系列PDF，由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室出品，从入门到精通，全方位带你玩转人工智能!DeepSeek从入门到精通(清华大学指南第一弹)这本PDF是DeepSeek的敲门砖，内容涵盖DeepSeek的基本概念、应用场景以及如何使用DeepSe
AI 进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路轻口味大模型实战人工智能 deepseek 大模型
AI进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路在当今数字化浪潮汹涌澎湃的时代，人工智能（AI）宛如一颗璀璨的明星，照亮了各个领域的创新与发展道路。然而，面对AI这一庞大而复杂的体系，许多人往往感到迷茫无措，不知自己处于何种水平，更不知如何迈向更高的层次。尤其是DeepSeek的出圈，AI的热度更加火爆。无论是普通用户还是AI从业者也变得很迷茫，不知如何应对AI的崛起。本文将依据AI应
AI赋能智能家居，CES Asia 2025论坛深度探讨行业未来赛逸展张胜人工智能科技
在科技飞速发展的当下，人工智能（AI）正以惊人的速度渗透到各个领域，智能家居便是其中备受瞩目的应用场景之一。2025年，第七届亚洲消费电子技术贸易展（CESAsia2025）以“科技重塑生活，创新定义未来”为主题盛大举行，同期举办的“AI赋能未来：从技术创新到商业落地”论坛，聚焦AI在智能家居领域的应用与发展，吸引了众多企业的高度关注。AI重塑智能家居新生态随着人们对生活品质的追求不断提高，智能家
在Python中高效操作三维和四维数组相乘：人工智能基础 NumPy部分秋‍. python numpy 开发语言人工智能
一、前言在深度学习、科学计算和数据分析领域，处理高维数组是家常便饭。本文将深入探讨三维和四维数组的相乘操作，通过NumPy库演示各种实用技巧。二、核心概念梳理1.数组维度理解三维数组：(层,行,列)可理解为多个二维矩阵的堆叠四维数组：(批次大小,通道数,高度,宽度)常见于图像处理2.关键函数对比函数特性说明支持维度np.multiply元素级相乘任意np.dot标准矩阵点积≤2np.matmul广
如何更加优雅提问：浅谈提示词愚戏师语言模型人工智能自然语言处理
询问是一门艺术，如何优雅高效地提问很可能是未来十年每个人的必备素质参考ISO/IEC23894人工智能系统工程标准第一步：理论基础构建目标：通过结构化分析与实践验证，提升提示词设计的精准度、可控性与生成效率一、提示词设计的核心方法论分阶目标拆解基础层：明确任务类型（生成、推理、分类、创作等）逻辑层：定义输出格式（步骤化、代码块、表格、故事体例等）优化层：嵌入约束条件（长度、风格、知识范围、反例排除
如何用 DeepSeek 进行卷积神经网络（CNN）的优化一碗黄焖鸡三碗米饭人工智能前沿与实践 cnn 人工智能神经网络机器学习深度学习
如何用DeepSeek进行卷积神经网络（CNN）的优化卷积神经网络（CNN）在计算机视觉任务中取得了巨大的成功，例如图像分类、目标检测和图像生成。然而，尽管CNN在这些任务中表现出色，它们通常需要大量的计算资源，并且在优化过程中可能会遇到一些挑战，如过拟合、训练速度慢、局部最优解等问题。为了更好地优化CNN模型，提高其性能和训练效率，DeepSeek提供了多种优化技术和工具，可以帮助我们系统地进行
英特尔开发板试用：结合OAK深度相机进行评测 OAK中国_官方数码相机
最近英特尔官方发布了一篇文章：主要介绍了如何将英特尔开发板（小挪吒）与OAK深度相机结合使用，并通过OpenVINO™工具套件进行开发和性能评测OAK相机：作为深度数据采集的核心设备，其深度测距功能与OpenVINO™推理相结合，实现了高效的目标检测和深度信息处理。OpenVINO™：作为英特尔的深度学习推理框架，为开发板和OAK相机提供了强大的推理支持。性能优化：通过模型转换和硬件加速，去实现高
VSLAM新方案之《在复杂环境中实现高精度与超强鲁棒性》 OAK中国_官方 SLAM 人工智能 rpab-map
OAKChina&苏州泛科特机器人联合推出OAK-DSeries&因子空间感知（FactorPerceptionKit）VSLAM解决方案01FactorPerceptionKit简介FactorPerceptionKit是一种真正基于深度学习技术的VSLAM方案，不同于许多厂商仅通过添加目标检测或语义分割模型来实现额外功能，我们直接在SLAM底层使用HF-Net模型，该模型同时进行局部特征点检测
【Golang】Go语言Web开发之模板渲染景天科技苑 Go语言开发零基础到高阶实战 golang 前端开发语言 Go语言模板渲染模板渲染 golang模板渲染
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，Golang开发，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flas
在麻将 AI 的迷宫中，我用 Python 函数组合探寻最优解：精髓与穷举 fxrz12 AI 人工智能 python 开发语言
我，一个对人工智能充满热情的程序员，带着对麻将策略的浓厚兴趣，踏上了开发AI麻将服务器的征程。这不仅仅是一次技术挑战，更是一次对思维方式和问题解决能力的深度探索。麻将，这个看似简单的游戏，实则蕴含着无穷的策略和变化。AI需要在瞬息万变的牌局中，做出最优的决策，这需要它：洞察牌局：精准分析手牌，评估牌型的潜在价值。预判风险：计算打出某张牌可能带来的风险。布局未来：预测后续牌局的走向，制定长远策略。为
Ollama 本地GUI客户端：为DeepSeek用户量身定制的智能模型管理与交互工具探客白泽 Python程序脚本交互 ai 深度学习 gpt-3 chatgpt 人工智能开源
Ollama本地GUI客户端：为DeepSeek用户量身定制的智能模型管理与交互工具相关资源文件已经打包成EXE文件，可双击直接运行程序，且文章末尾已附上相关源码，以供大家学习交流，博主主页还有更多Python相关程序案例，秉着开源精神的想法，望大家喜欢，点个关注不迷路！！！1.简介：在人工智能领域，如何高效地管理、下载和与模型进行交互是每个开发者面临的挑战。DeepSeek：Ollama本地客户
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号