MJ5513

End-to-End Object Detection with Transformers（论文翻译）

摘要

我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程，有效地消除了对许多手工设计组件的需求，例如显式编码我们关于任务的先验知识的非最大抑制过程或锚生成。新框架的主要成分，称为 DEtection TRansformer 或 DETR，是基于集合的全局损失，通过二分匹配强制进行独特的预测，以及转换器编码器 - 解码器架构。给定一组固定的学习对象查询，DETR 推理对象的关系和全局图像上下文以直接并行输出最终的预测集。与许多其他现代探测器不同，新模型在概念上很简单，不需要专门的库。DETR 在具有挑战性的 COCO 对象检测数据集上展示了与完善且高度优化的 Faster RCNN 基线相当的准确性和运行时性能。此外，DETR 可以很容易地推广，以统一的方式产生全景分割。我们表明它显着优于竞争基线。训练代码和预训练模型可在 https://github.com/facebookresearch/detr 获得。

1.引言

目标检测的目标是为每个感兴趣的对象预测一组边界框和类别标签。现代检测器通过在大量提案 [37,5]、锚点 [23] 或窗口中心 [53,46] 上定义代理回归和分类问题，以间接方式解决这一集合预测任务。它们的性能受到折叠近乎重复预测的后处理步骤、锚集的设计以及将目标框分配给锚的启发式方法的显着影响[52]。为了简化这些流程，我们提出了一种直接集合预测方法来绕过代理任务。这种端到端的理念在复杂的结构化预测任务（例如机器翻译或语音识别）方面取得了重大进展，但在对象检测方面还没有：以前的尝试 [43,16,4,39] 要么添加其他形式的先验知识，或者在具有挑战性的基准上没有被证明具有强大的基线竞争力。本文旨在弥合这一差距。

我们通过将目标检测视为直接集合预测问题来简化训练管道。我们采用基于transformer[47]的编码器-解码器架构，这是一种流行的序列预测架构。转换器的自注意力机制明确地对序列中元素之间的所有成对交互进行建模，使这些架构特别适用于集合预测的特定约束，例如删除重复预测。

我们的检测变换器（DETR，参见图 1）一次预测所有对象，并使用一组损失函数进行端到端训练，该函数在预测目标和真实目标之间执行二分匹配。 DETR 通过删除多个手工设计的编码先验知识的组件（如空间锚或非最大抑制）来简化检测流程。与大多数现有检测方法不同，DETR 不需要任何自定义层，因此可以在任何包含标准 CNN 和转换器类的框架中轻松复制。

图 1：DETR 通过将通用 CNN 与 Transformer 架构相结合，直接（并行）预测最终的检测集。在训练期间，二分匹配唯一地分配具有地面真值框的预测。没有匹配的预测应该产生一个“无对象”（∅）类预测。

与大多数先前关于直接集合预测的工作相比，DETR 的主要特征是二分匹配损失和变换器与（非自回归）并行解码的结合 [29,12,10,8]。相比之下，以前的工作集中在使用 RNN 进行自回归解码 [43,41,30,36,42]。我们的匹配损失函数将预测唯一地分配给地面实况对象，并且对预测对象的排列保持不变，因此我们可以并行发出它们。

我们在最流行的对象检测数据集之一 COCO [24] 上评估 DETR，与极具竞争力的 Faster R-CNN 基线 [37] 进行对比。 Faster RCNN 经历了多次设计迭代，其性能自最初发布以来得到了极大的提升。我们的实验表明，我们的新模型实现了相当的性能。更准确地说，DETR 在大型目标上表现出明显更好的性能，这一结果可能是由转换器的非本地计算实现的。但是，它在小物体上的性能较低。我们预计未来的工作将像 FPN [22] 的开发为 Faster R-CNN 所做的那样改进这方面。

DETR 的训练设置在多个方面与标准对象检测器不同。新模型需要超长的训练计划并且受益于transformer中的辅助解码损耗。我们彻底探索了哪些组件对展示的性能至关重要。

DETR 的设计理念很容易扩展到更复杂的任务。在我们的实验中，我们展示了在预训练的 DETR 之上训练的简单分割头在全景分割 [19] 上的表现优于竞争基线，这是一项具有挑战性的像素级识别任务，最近获得了普及。

2.相关工作

我们的工作建立在几个领域的先前工作的基础上：集合预测的二分匹配损失、基于transformer的编码器-解码器架构、并行解码和对象检测方法。

2.1 设定预测

没有规范的深度学习模型可以直接预测集合。基本的集合预测任务是多标签分类（参见例如 [40,33] 以获取计算机视觉背景下的参考），其基线方法 one-vs-rest 不适用于诸如检测存在元素之间的底层结构（即，几乎相同的框）。这些任务的第一个困难是避免近乎重复。大多数当前检测器使用后处理（例如非最大抑制）来解决这个问题，但直接集合预测是无后处理的。他们需要全局推理方案来模拟所有预测元素之间的交互以避免冗余。对于恒定大小的集合预测，密集的全连接网络 [9] 就足够了，但成本很高。一种通用的方法是使用自回归序列模型，例如递归神经网络 [48]。在所有情况下，损失函数都应该通过预测的排列保持不变。通常的解决方案是基于匈牙利算法[20]设计一个损失，以找到真实和预测之间的二分匹配。这强制了排列不变性，并保证每个目标元素都有一个唯一的匹配。我们遵循二分匹配损失方法。然而，与大多数先前的工作相比，我们远离自回归模型并使用具有并行解码的转换器，我们将在下面进行描述。

2.2 transformer和并行解码

Vaswani 等人引入了transformer[47] 作为一种新的基于注意力的机器翻译构建块。注意力机制 [2] 是神经网络层，用于聚合来自整个输入序列的信息。Transformers 引入了自注意力层，类似于非局部神经网络 [49]，它扫描序列的每个元素并通过聚合来自整个序列的信息来更新它。基于注意力的模型的主要优势之一是它们的全局计算和完美的记忆，这使得它们比 RNN 更适合长序列。现在在许多自然语言处理，语音处理和计算机视觉 [8,27,45,34,31]的问题中，transformer正替代RNNs。

transformer首先用于自回归模型，遵循早期的序列到序列模型 [44]，一个一个地生成输出标记。然而，在音频[29]、机器翻译[12,10]、词表示学习[8]、以及最近的语音识别 [6]。我们还结合了转换器和并行解码，以在计算成本和执行集合预测所需的全局计算能力之间进行适当的权衡。

2.3 目标检测

大多数现代对象检测方法都会根据一些初始猜测进行预测。两阶段检测器 [37,5] 预测框 w.r.t.提案，而单阶段方法进行预测 w.r.t.锚点 [23] 或可能的对象中心网格 [53,46]。最近的工作 [52] 表明，这些系统的最终性能在很大程度上取决于设置这些初始猜测的确切方式。在我们的模型中，我们能够通过使用绝对框预测 w.r.t 直接预测检测集来移除这个手工制作的过程并简化检测过程。输入图像而不是锚点。

基于集合的损失。几个目标检测器 [9,25,35] 使用了二分匹配损失。然而，在这些早期的深度学习模型中，不同预测之间的关系仅使用卷积层或全连接层进行建模，而手工设计的 NMS 后处理可以提高它们的性能。最近的检测器 [37,23,53] 使用非唯一分配规则与 NMS 一起在地面实况和预测之间。

可学习的 NMS 方法 [16,4] 和关系网络 [17] 明确地对不同预测之间的关系进行建模并注意。使用直接设置损失，它们不需要任何后处理步骤。然而，这些方法使用额外的手工制作的上下文特征（如建议框坐标）来有效地模拟检测之间的关系，同时我们寻找减少模型中编码的先验知识的解决方案。

循环检测器。与我们的方法最接近的是用于对象检测 [43] 和实例分割 [41,30,36,42] 的端到端集合预测。与我们类似，他们使用基于 CNN 激活的编码器-解码器架构的二分匹配损失来直接生成一组边界框。然而，这些方法仅在小型数据集上进行评估，而不是针对现代基线进行评估。特别是，它们基于自回归模型（更准确地说是 RNN），因此它们没有利用最近的具有并行解码的转换器。

3.DETR模型

两个要素对于检测中的直接集合预测至关重要：(1) 集合预测损失，它强制预测和地面真实框之间的唯一匹配；(2) 一种架构，可以预测（一次通过）一组对象并模拟它们的关系。我们在图 2 中详细描述了我们的架构。

图 2：DETR 使用传统的 CNN 主干来学习输入图像的 2D 表示。该模型将其展平并用位置编码对其进行补充，然后再将其传递给变压器编码器。然后，Transformer 解码器将少量固定数量的学习位置嵌入作为输入，我们称之为对象查询，并额外关注编码器输出。我们将解码器的每个输出嵌入传递给共享前馈网络 (FFN)，该网络预测检测（类和边界框）或“无对象”类。

3.1 目标检测集预测损失

DETR 在一次通过解码器的过程中推断出一组固定大小的 N 个预测，其中 N 设置为显着大于图像中的典型对象数量。训练的主要困难之一是根据实际情况对预测对象（类别、位置、大小）进行评分。我们的损失在预测对象和真实对象之间产生了最佳的二分匹配，然后优化了特定于对象（边界框）的损失。

让我们用 y 表示对象的基本事实集，并且 ^ y = fy^igN i=1 表示 N 个预测的集合。假设 N 大于图像中目标的数量，我们也将 y 视为一组大小为 N 填充的∅（没有目标）。为了找到这两个集合之间的二分匹配，我们搜索具有最低成本的 N 个元素 σ 2 SN 的排列：

其中 Lmatch(yi; y^σ(i)) 是地面实况 yi 和索引为 σ(i) 的预测之间的成对匹配成本。在先前的工作（例如[43]）之后，使用匈牙利算法有效地计算了这种最佳分配。

匹配成本同时考虑了类别预测以及预测框和地面真值框的相似性。基本事实集的每个元素 i 可以看作是 yi = (ci; bi) 其中 ci 是目标类标签（可能是？）和 bi 2 [0; 1]4是一个向量，它定义了ground truth box中心坐标及其相对于图像大小的高度和宽度。对于索引为 σ(i) 的预测，我们将类别 ci 的概率定义为 ^ pσ(i)(ci) 并将预测框定义为 ^bσ(i)。使用这些符号，我们将 Lmatch(yi; y^σ(i)) 定义为 -1fci6=?gp^σ(i)(ci) + 1fci6=?gLbox(bi;^bσ(i))。

这种寻找匹配的过程与现代检测器中用于将提议 [37] 或锚点 [22] 与地面实况对象匹配的启发式分配规则所起的作用相同。主要区别在于我们需要找到一对一的匹配来进行直接集合预测而没有重复。

第二步是计算损失函数，即上一步中匹配的所有对的匈牙利损失。我们将损失定义为类似于普通对象检测器的损失，即用于类预测的负对数似然和稍后定义的框损失的线性组合：

其中 ^ σ 是在第一步 (1) 中计算的最优分配。在实践中，当 ci = ? 时，我们会降低对数概率项的权重。乘以 10 来解释类别不平衡。这类似于 Faster R-CNN 训练过程如何通过子采样来平衡正/负提议 [37]。请注意，对象和 ? 之间的匹配成本不依赖于预测，这意味着在这种情况下，成本是一个常数。在匹配成本中，我们使用概率 ^ pσ^(i)(ci) 而不是对数概率。这使得类预测项与 Lbox(·;·)（如下所述）相当，并且我们观察到了更好的经验表现。

Bounding box损失。

3.2 DETR结构

整个 DETR 架构非常简单，如图 2 所示。它包含三个主要组件，我们将在下面进行描述：用于提取紧凑特征表示的 CNN 主干、编码器-解码器转换器和简单的前馈网络 (FFN)进行最终的检测预测。

与许多现代检测器不同，DETR 可以在任何深度学习框架中实现，只要提供一个通用的 CNN 主干网络和一个只有几百行代码的变transformer架构实现。在 PyTorch [32] 中，可以用不到 50 行代码实现 DETR 的推理代码。我们希望我们方法的简单性将吸引新的研究人员加入检测社区。

主干。从初始图像 ximg 2 R3×H0×W0（具有 3 个颜色通道2）开始，传统的 CNN 主干生成较低分辨率的激活图 f 2 RC×H×W。我们使用的典型值是 C = 2048 和 H； W = H320 ; W320。

transformer编码。首先，1x1 卷积将高级激活图 f 的通道维度从 C 减少到更小的维度 d。创建一个新的特征图 z0 2 Rd×H×W 。编码器期望一个序列作为输入，因此我们将 z0 的空间维度折叠为一个维度，从而得到一个 d×HW 特征图。每个编码器层都有一个标准架构，由一个多头自注意力模块和一个前馈网络（FFN）组成。由于 Transformer 架构是置换不变的，我们用固定的位置编码 [31,3] 来补充它，这些编码被添加到每个注意力层的输入中。我们将架构的详细定义推迟到补充材料中，该定义遵循 [47] 中描述的定义。

Transformer 解码。解码器遵循转换器的标准架构，使用多头自和编码器-解码器注意机制转换大小为 d 的 N 个嵌入。与原始转换器的不同之处在于，我们的模型在每个解码器层并行解码 N 个对象，而 Vaswani 等人。 [47] 使用自回归模型，一次预测一个元素的输出序列。我们将不熟悉这些概念的读者推荐给补充材料。由于解码器也是置换不变的，因此 N 个输入嵌入必须不同才能产生不同的结果。这些输入嵌入是学习的位置编码，我们将其称为对象查询，与编码器类似，我们将它们添加到每个注意力层的输入中。N 个对象查询被解码器转换为输出嵌入。然后通过前馈网络（在下一小节中描述）将它们独立解码为框坐标和类标签，从而产生 N 个最终预测。在这些嵌入上使用自我和编码器-解码器注意力，该模型使用它们之间的成对关系对所有对象进行全局推理，同时能够将整个图像用作上下文。

预测前馈网络 (FFN)。最终预测由具有 ReLU 激活函数和隐藏维度 d 的 3 层感知器和线性投影层计算。 FFN 预测框 w.r.t 的归一化中心坐标、高度和宽度。输入图像，线性层使用 softmax 函数预测类标签。由于我们预测一组固定大小的 N 个边界框，其中 N 通常远大于图像中感兴趣对象的实际数量，因此需要一个额外的特殊类标签∅用于表示在槽内没有检测到对象。该类与标准对象检测方法中的 "background"类的作用相似。

辅助解码损失。

4.实验

我们表明，在 COCO 的定量评估中，与 Faster R-CNN 相比，DETR 取得了具有竞争力的结果。然后，我们对架构和损失进行了详细的消融研究，并提供了见解和定性结果。最后，为了证明 DETR 是一种通用且可扩展的模型，我们展示了全景分割的结果，仅在固定 DETR 模型上训练了一个小的扩展。我们在 https://github.com/facebookresearch/detr 提供代码和预训练模型来重现我们的实验。

5.结论

我们提出了 DETR，这是一种基于变换器和二分匹配损失的目标检测系统的新设计，用于直接集合预测。该方法在具有挑战性的 COCO 数据集上实现了与优化的 Faster R-CNN 基线相当的结果。 DETR 易于实施，具有灵活的架构，可轻松扩展到全景分割，并具有竞争性结果。此外，它在大型对象上的性能明显优于 Faster R-CNN，这可能要归功于 self-attention 对全局信息的处理。

这种新的探测器设计也带来了新的挑战，特别是在小物体的训练、优化和性能方面。当前的探测器需要几年的改进才能解决类似的问题，我们希望未来的工作能够成功解决 DETR 的问题。

A。附录

A.1 预备知识：多头注意力层

由于我们的模型基于 Transformer 架构，我们在这里提醒我们用于穷举的注意力机制的一般形式。注意力机制遵循 [47]，除了 [7] 之后的位置编码的细节（参见公式 8）。

多头。具有 M 个维度为 d 的头的多头注意力的一般形式是具有以下签名的函数

A.3 详细结构

图 10 给出了 DETR 中使用的transformer的详细描述，位置编码在每个注意力层传递。来自 CNN 主干的图像特征通过变换器编码器，以及添加到查询和每个多头自注意力层的键。然后，解码器接收查询（初始设置为零）、输出位置编码（对象查询）和编码器内存，并通过多个多头自注意力和解码器-编码器注意力产生最终的预测类标签和边界框集。第一个解码器层中的第一个自注意力层可以跳过。

图 10：DETR 变压器的架构。请参阅第 A.3 节了解详细信息。

基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
河道污染难溯源？3步搭建陌讯实时目标检测系统 2501_92472966 目标检测人工智能计算机视觉算法视觉检测
开篇痛点「凌晨3点水泵房渗漏报警，运维人员冒雨排查却是一场误判」——这是某水务企业技术总监向我吐槽的真实案例。在智慧水务场景中，传统视觉算法面临三大死穴：水体反光干扰、微小目标漏检、边缘设备算力受限。尤其当暴雨导致水体浑浊时，OpenCV边缘检测的误报率可达35%以上。技术解析：陌讯多模态融合架构为解决复杂环境泛化问题，陌讯视觉算法提出FMT-Net（FusionMultimodalTransfo
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

End-to-End Object Detection with Transformers（论文翻译）

你可能感兴趣的:(目标检测,计算机视觉,深度学习)