ZZE15832206526

D2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale Attention

文章目录

D2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale Attention
- Abstract
- 1 Introduction
- 2 Related Work
- 3 Revisiting Encoder-decoder Architecture
- 4 Decoder-only DETR
- - 4.1 D2ETR体系结构
  - 4.2 损失函数

D2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale Attention

Abstract

DETR是第一个完全端到端检测器，它可以预测最后一组预测而无需后处理的预测。然而，它也存在着性能低、收敛速度慢等问题。一系列的工作旨在以不同的方式解决这些问题，但由于复杂的编码器-解码器体系结构，计算成本仍然很昂贵。为了缓解这个问题，我们提出了一种解码器D2ETR。在没有编码器的情况下，解码器直接通过一种新的计算效率高的跨尺度注意模块来处理由变压器主干生成的精细融合的特征图。D2ETR在COCO基准上的评估中显示了低计算复杂度和高检测精度，优于DETR及其变体。

1 Introduction

目标检测是一种计算机视觉任务，用于预测图像中所有感兴趣的对象的类别标签和边界框位置。现代检测器[19,22,9]将这个集合预测任务视为回归和分类问题。他们使用许多手工制作的组件来优化预测集，如锚定生成、训练目标分配规则和非最大抑制（NMS）。这些组件使管道复杂化，而且探测器也不是端到端化的。
DETR [3]提出构建第一个完全端到端检测器，具有编码-解码器Transformer架构，预测一组最终的边界框和类别标签，无需任何精心设计的锚、启发式分配规则和后处理。DETR的花式设计已经受到了广泛的研究关注。然而，DETR存在训练收敛速度慢、在小对象上性能低、计算复杂度高等问题。[27,21,28,26,17,7]的一些方法旨在处理这些关键问题。为了加速训练的收敛性，人们对交叉注意力做出了许多努力。多尺度特征图也被用来提高小物体的精度。虽然上述工作已经取得了一些进展，但计算复杂度高的问题尚未得到解决。
在自然语言处理（NLP）领域，OpenAI GPT系列[18,1]采用了一种仅使用解码器的转换器，但在文本生成方面显示出令人印象深刻的能力。这意味着一个严格的编解码器是在语言建模中没有必要，这促使我们重新思考DETR架构。在DETR中，变压器解码器是进行对象查询定位的关键，而产生自注意特性的编码器只作为后续解码器的助手。为了验证它，我们通过使用无编码器训练可变形的DETR，重新检查了编码器的整体影响。我们发现编码器模块带来4.9（+11%）AP改进，但花费非常大的计算，约85（+49%）GFLOPs。编码器的计算效率如此之低，促使我们探索通过将特征提取和基于自注意的融合功能集成到单个主干中来去除变压器编码器的可能性，创建一个更简单的仅解码器检测管道。
在本文中，我们提出了仅解码检测转换器（D2ETR），该方法高性能，计算成本低，结构简单。为了引入不同位置和尺度上的特征之间的交互作用，我们的方法利用了变压器骨干的优势，提供了一个尺度内的全局接受域，加上一个新的计算高效交叉尺度注意（CECA）模块，通过注意机制进行跨尺度的稀疏特征交互。CECA通过将高级特征映射作为查询，将低层次特征作为键值对的交叉关注，捕获了有助于细粒度定位的低级视觉特征，但在直接定位在低层次特征映射上时防止了计算爆炸。有了这样的设计，解码器可以直接处理由我们的主干生成的精细融合的特征图，而不需要编码器或其他融合块来引入更多的特征交互。
CECA模块可以很容易地替换编码器，与任何类型的解码器灵活地形成端到检测器。我们将其与一个标准的多头注意解码器和一个可变形注意解码器合作，得到一个普通的D2ETR和一个可变形的D2ETR。此外，我们还引入了两个辅助损失： (i)标记标记损失，这有助于通过提高功能表达能力来提高准确性。（ii）位置感知损失，通过添加约束预测的边界框，帮助提高定位精度。
图1显示了不同尺度上的交叉注意。可变形的DETR更关注高分辨率的低尺度，这需要仔细的精细融合，因此计算效率低。我们的方法更多关注高级尺度，它们以一种从粗到细的方式聚合了来自以前所有尺度的信息。在对COCO 2017检测基准[13]的评估中，我们提出的方法在低计算复杂度下提供了具有竞争力的性能。

2 Related Work

End-to-end Object Detections. 传统的单级[12,19,22]和两级探测器[20,9,2]依赖于锚定盒或锚定中心。由于锚点的密集，通常采用基于单位交叉单元（IoU）的启发式一对多分配规则进行训练，并使用非最大抑制（NMS）来解决推理过程中的重复。与前面的检测器不同，端到端检测器通过学习解决重复的预测，消除了后处理的需要。DETR [3]首先将一个编码器-解码器变压器架构应用到CNN的主干网上，并构建一个端到端检测器。然而，DETR存在训练收敛速度慢、特征空间分辨率有限、在小物体上性能低等问题。

人们已经提出了许多变体来解决这些关键问题。ACT [27]自适应地将类似的查询元素聚集在一起。Deformable DETR [28]使用多尺度的特征映射来帮助检测小对象。它引入了可变形的注意机制，它只关注从查询元素的特征预测的一小组固定的采样点。这种修改减轻了收敛性和特征空间的问题。Conditional DETR [17]提出了一种条件交叉注意机制。从前一个解码器层的每个输出中预测一个空间嵌入，然后输入到下一个交叉注意，使内容查询定位不同的区域。 SMCA[7]进行位置约束对象回归，通过强迫共同注意响应在初始附近高来加速收敛估计的包围盒位置。YOLOS[6]认为，对象检测任务可以以纯序列对序列的方式完成。类似地，Pix2Seq[4]将对象检测视为以像素输入为条件的语言建模任务。我们提出的D2ETR专注于以最小的成本去除整个编码器，以简化管道和缓解高计算消耗。

Multi-scale Feature Fusion。在特征融合方面做了一系列的工作，证明了一个好的空间特征融合方案对于传统的目标检测是必要的，特别是在检测小目标时。FPN[11]结合了两个相邻的特征图，建立了一个自顶向下的特征金字塔。PAN[14]增加了一个额外的自底向上路径扩展。NAS-FPN[8]利用神经结构搜索找到最优的特征金字塔结构。在端到端目标检测领域，编码器通过注意机制融合特征映射，扮演着与金字塔网络相似的角色。Sun [21]用一个检测头代替解码器，并直接使用编码器的输出进行对象预测，这意味着该编码器很擅长提取上下文特征。Yao [26]对不同数量的编码器层和解码器层的影响进行了实验，并声称基于编码器-解码器架构的检测器对解码器层数更为敏感，这意味着编码器的效率较低。这些观察结果促使我们寻找一种更经济的方式来在多尺度特征地图上交换信息。我们的计算效率高的跨尺度关注允许骨干用户生成精细融合的特征图，而不需要编码器。

3 Revisiting Encoder-decoder Architecture

DETR及其变体是基于编码器-解码器变压器架构。图2a显示了一个端到端检测器的3个主要部分：主干器、编码器和解码器。主干提取输入图像的单个或多个特征图 $x∈R^{C×H×W}$ 。然后，x中的像素通过变压器编码器层相互关注，该层由自注意（SA）和前馈网络（FFN）组成。标准的自注意模块[23]根据查询-键对之间的相似性计算注意权重，然后计算所有键内容的加权和。我们可以模拟该编码器为：
$SA(x_q,x_k,x_v) = softmax (\frac{x_qW_q(x_kW_k)^T}{\sqrt{C}})x_vW_v$
$FFN(x)=\sigma(xW_1+b_1)W_2+b_2$
其中， $x_q，x_k，x_v = Flatten (x)$ 在编码器中， $Fl a tt e n （ \cdot ）$ 是沿着空间维度使x变平的操作。 $σ （ \cdot ）$ 是一种非线性激活。自注意特征随后被输入解码器。该解码器具有类似的结构，带有一个额外的交叉注意模块，它将 $x_q$ 修改为等式(1)中的 $o_q∈R^{N×C}$ . $o_q$ 是学习到的对象查询。
我们对编码器和解码器进行了复杂度分析。对于输入维度为 $H \times W \times C$ 的编码器，其复杂度可以计算为 $O（H^2W ^2C + HWC^2)$ 。与编码器相比，该解码器采用N个对象查询进行交叉注意，其复杂度为 $O（NHWC + NC^2）$ 。通常，相对较少的对象查询就足以对端到端方法进行本地化。虽然特征图中的元素量，其分辨率总是很大，但却远远大于n，也就是说，编码器比解码器的计算复杂度要大得多，特别是当输入特征图的大小较大时。

4 Decoder-only DETR

在本质上，编码器是尺度内和跨尺度特征交互的组合。变压器的自注意机制自然地将尺度内交互引入到单独的特征图中。它激励我们填补缺失的跨尺度交互，建立一个强大的变压器主干来生成精细融合的特性，并进一步接管低效的编码器。
为了在所有尺度的特征映射之间执行特征交互，一个简单的设计是对模型应用一个密集的连接。以 $x_i$ 为原始的i-th特征图， $x^j_i$ 为j次融合后的第i个特征图， $H_i$ 为第i级的 Transformer块。在第i阶段，特征映射 $x_i$ 可以表示为 $Hi（[x_1，x_2，...，x_{i-1}]）$ ，其中 $[\cdot]$ 表示元素的串联。将每个阶段的尺度进行线性投影，并将空间明智地连接到下一阶段，生成新的尺度，并进行进一步的跨尺度特征融合。融合函数是额外的自注意，记为 $SA（x_q，x_k，x_v）$ ，其中 $xq = xk = xv = [x_i^{i-1}，x_i^{i-2}，...，x_i ]$ 。骨干的最后输出是 $[x^S_1，x^{S-1}_2 ，...，x^1_S ]$ ，给出最后的S特征映射作为解码器的输入。这种密集的架构是特征提取和融合的结合。但是，它与原来的编码器没有什么区别，因为低级别的尺度是高分辨率的，并参与了几乎所有的自我注意操作，导致了昂贵的计算和来自解码器的交叉注意的浪费。

4.1 D2ETR体系结构

受上一节中密集连接Transformer的启发，我们提出了一个计算效率高的交叉尺度注意（CECA），并建立了一个仅解码器的DETR（D2ETR），如图2b所示。该架构由两个主要组件组成：Transformer主干网和Transformer解码器。主干是无编码器的核心。它包含两个并行流，一个用于尺度内交互，另一个用于跨尺度交互。具有线性计算复杂度w.r.t.的变压器在目标检测中是首选的图像大小。默认情况下，我们借用金字塔视觉变压器（PVT）[24]的思想来构建我们的主干。我们将证明D2ETR可以在消融过程中配合不同的Transformer。解码器可以学习生成非重复的检测，这是使探测器端到端检测的关键。我们的D2ETR可以装备任何类型的变压器解码器，没有编码器。
密集融合的思想很有希望将特征融合集成到主干中。如上所述，主要问题是自我注意中查询元素。为了解决这个问题，我们解耦了尺度内和跨尺度的交互，并以稀疏的方式融合了特征映射。在图2b中，主干被分为四个变压器级，生成不同尺度的特征图。输出特征映射的规模逐渐缩小。所有的阶段都有一个类似的体系结构，这取决于所选的变压器的基本块。在PVT实现之后，该阶段由一个重叠的斑块嵌入和多个由空间缩减自注意和卷积前馈模块构建的多个连续的变压器层组成。所有的特性图都是其自身范围内的全局内容聚合。
平行的流动是融合阶段。融合阶段被设计用于跨尺度的特征融合。每个期望的尺度都进入一个融合阶段作为查询元素（带有红色虚线的特征映射），所有现有的融合尺度都紧密地连接到与关键元素相同的融合阶段。对关键元素采用了改进的空间缩减操作，以降低计算成本。查询尺度最终可以在之前所有的尺度的空间位置上聚集视觉特征。本文提出的CECA可表述为：
$x_i=H_i(x_{i-1})$
$x^*_i=SA（x_q,x_k,x_v）$
$x_q=x_i,x_k=x_v=[x^*_1,x^*_2，…，x^*_{i-1}，x_i]$
其中， $x^∗_i$ 代表特征映射 $x_i$ 的融合版本。给定最后的S特征映射作为解码器的输入，CECA的最终输出将为 $x^∗_1,x^∗_2，…，x^∗_s]$ 。
图2c详细描述了第i个融合阶段的一层。它由三个部分组成：线性空间缩减层、多头自注意层和前馈层。 $x_i$ 表示查询尺度的特征映射。 $x^∗_1，x^∗_2，...，x^∗_{i-1}]$ 代表来自之前密集连接的关键尺度的特征图。为了防止查询规模在信息交换过程中丢失其自身的高级特征，我们对其进行了适当的通道号投影，并与关键规模进行了连接。为了降低计算成本，将关键元素输入线性空间约简，即自适应平均池化层，然后为每个尺度的特征图分离1×1个卷积层和范数层。在多头注意模块中， $x_i$ 作为查询，与 $x^∗_1，x^∗_2，...，x^∗_{i-1}，x_i]$ 交互，作为提取上下文信息的键。我们考虑的FFN是带有附加深度卷积的前馈。与正常阶段相同，这一层重复了多次。融合阶段的详细信息见附录A.1。
给定h，w为最后一个特征图 $x_S$ 在最后一阶段的高度和宽度。对于朴素密集融合，计算自注意的复杂性为 $O（4^SShwP^2C）$ ，其中P为自适应池化大小。复杂性是由S主导的，换句话说，是低级特征图的大小。我们的CECA享有强调高级特征图的成本效益高的融合。因此，复杂度降低到 $O（ShwP^2C）$ 。更多细节见附录A.2。
通过将Transformer应用于主干网，我们在单独的特征图上引入了像素的尺度内交互。通过添加额外的融合阶段，我们在多尺度特征地图上对像素引入了跨尺度交互。D2ETR结构融合了单个查询规模和紧密连接的关键元素。这样，查询元素的数量大大减少，这允许我们使用更深层次的融合阶段。同时，低尺度的细微视觉特征被保留在Transformer解码器中，这有助于改进预测，特别是对于小物体。

4.2 损失函数

我们提出的CECA主干网可以生成精细的特征，并与任何类型的解码器一起形成一个端到端检测器。普通的DETR解码器应用了标准的多头注意，并且由于计算成本高，只使用了一个特征图。可变形的DETR解码器采用可变形的注意力从多尺度特征图中提取上下文信息。为了验证这种灵活性，我们与上述两个解码器合作，分别使用单尺度和多尺度特征图构建了D2ETR和可变形的D2ETR。此外，我们引入了两个辅助损失，令牌标签损失和位置感知损失，总损失为： $\mathcal{L}_{total}=\mathcal{L}_{cls}+\mathcal{L}_{bbox}+\mathcal{L}_{awr}+\mathcal{L}_{token}$
其中 $\mathcal{L}_{cls}$ 为分类损失， $\mathcal{L}_{bbox}$ 为回归损失， $\mathcal{L}_{awr}$ 为感知分支的丢失， $\mathcal{L}_{token}$ 为标记标记的丢失。
Location-aware 预测边界框距离远离相应的目标对象往往是低质量。图3 10k检测的分类图化置信值和IoUeval，即最大值标的为同一类别的欠条。相比之下,我们发现，传统探测器([25]中的图4a)端到端探测器预示着更多的低质量定位精度高但分类得分低的边界框。为了缓解定位质量与检测不匹配我们采用IoU分支[25]和中心分支[22]。具体来说，两个新分支是在所有解码器层的顶部添加了预测预测边界框之间的IoU，以及到锚点中心的归一化距离分别到目标中心。实际上，参考点将作为锚定中心。在推理，它们与分类集成在一起得分来抑制低质量的预测。我们将意识损失术语制定为：
$\mathcal{L}_{awr}=\frac1{B}\sum^{B}_{i=1}(BCE(FFN(\hat{y_i}),IOU(b_i,\hat{b_i}))+BCE(FFN(\hat{y_i}),IOU(b_i,\hat{b_i}))$
其中，B为边界框数，CTR为中心度测量值。 $\hat{y_i}$ 是对应于第i个对象查询的输出，它通过ffn，得到预测的IoU和中心度。 $b_i$ 、 $\hat{b_i}$ 分别表示目标的边界框和预测的边界框。预测的IoU和中心度值越高，相应的边界框捕获真实目标的可能性就越高。在推理过程中，将分类分支的输出乘以两个具有加权因子的分支，以过滤低质量的结果。详见附录A.3。
Token Labeling 标记标记[10]是一种新的图像分类任务的补丁分类训练目标。我们采用令牌标记来训练我们的模型。在检测器的训练阶段，我们没有将预先训练的标记标记模型应用于下游目标检测任务，而是直接将标记标记引入到细化的特征中。具体来说，我们利用掩码注释来监督和插值它们，以与特征映射的分辨率对齐。每个像素都分配一个软标记标签，并执行多类分类。请注意，标记标记期望一个全局接受域更好地对每个图像补丁进行分类，因此它适用于视觉转换骨干。我们发现，表明在相应的局部区域内存在目标对象的位置特定监督不仅有助于视觉接地、分类，而且有助于目标检测。密集的监督鼓励视觉变压器骨干提取更多的强度特征，便于解码器的定位和分类。令牌标记的损失项可以定义为：
$\mathcal{L}_{awr}=\frac1{B}\sum^{B}_{i=1}\sum^{N}_{j=1}\sum_{p,q}Focal(FFN(x_j[p,q]),t_j[p,q])$
其中 $x_j [p，q]$ 表示主干第j个特征图位置（p，q）的特征， $t_j$ 为对应的目标软标记标签，将0-1掩码注释M插值到相同大小的 $x_j$ 生成。详见附录A.4。

【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
最新人工智能硬件培训AI基础入门学习课程参考2025版（离线AI语音视觉识别篇）聆思科技AI芯片聆思大模型开发板实践分享语音识别人机交互人工智能视觉检测嵌入式硬件 mcu AI编程
前言端侧离线AI智能硬件作为AI技术的重要载体之一，凭借其无需依赖网络即可实现智能功能的特性，在一些网络条件受限或对数据隐私有较高要求的场景中，发挥着不可或缺的作用。本章基于CSK6大模型语音视觉开发板开箱即用的离线AI能力，分类列出学习课程知识点和实操参考，希望能够帮助大家快速掌握离线AI智能硬件的基础知识与实战技能，同时了解相关AI技术在实际场景的应用情况。正文按入下框架展开，相关理论和实操除
最新人工智能硬件培训AI 基础入门学习课程参考2025版（大模型篇）聆思科技AI芯片聆思大模型开发板实践分享大模型语音交互人工智能语音识别视觉检测 AI编程人机交互
前言在人工智能大模型重塑教育与社会发展的当下，无论是探索未来职业方向，还是更新技术储备，掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手，到课堂用于学术研究的智能工具，大模型正在工作生活教育等领域发挥着越来越重要的作用。针对日前前来咨询的广大客户对面向大模型智能硬件的学习需求，我们根据CSK6大模型语音视觉开发板已有功能，整理了一份适合基于本开发板进行教学活动的学习课程参考给大家备
机器学习，支持向量机svm和决策树xgboost介绍 suixinm 支持向量机机器学习决策树
支持向量机(SVM)和XGBoost都是非常强大且应用广泛的机器学习算法，但它们基于不同的原理，各有其优势和劣势，适用于不同的场景。以下是两者的主要区别和优劣势对比：1.核心思想与模型类型:SVM:核心思想:找到一个最优的超平面（在特征空间中），将不同类别的样本分隔开，并且使得该超平面到两类样本中最近的样本点（支持向量）的距离（间隔）最大化。核心是几何间隔最大化。模型类型:单个模型（虽然是核方法，
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
AI原生应用监控：实时领域偏见预警系统设计原理 Agentic AI人工智能与大数据 CSDN AI-native 人工智能 ai
AI原生应用监控：实时领域偏见预警系统设计原理关键词AI监控、算法偏见、实时预警、公平性AI、模型监控、偏见检测、AI治理摘要在人工智能驱动决策日益普及的今天，AI系统中的隐性偏见已成为影响公平性、可信度和业务连续性的关键风险。本文深入探讨了AI原生应用监控的核心挑战，重点剖析了实时领域偏见预警系统的设计原理与实现方法。通过将复杂的算法偏见比作"数字世界的隐形滤镜"，我们揭示了偏见如何在AI系统中
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
提升AI产品竞争力：可用性评估的10个核心维度 AGI大模型与大数据研究院人工智能 ai
提升AI产品竞争力：可用性评估的10个核心维度关键词：AI产品、可用性评估、用户体验、人机交互、产品竞争力、评估维度、人工智能摘要：本文深入探讨了提升AI产品竞争力的10个核心可用性评估维度。我们将从用户角度出发，系统性地分析如何评估和优化AI产品的可用性，包括易用性、效率、可学习性、容错性等关键指标。通过详细的案例分析和实用建议，帮助产品团队打造更具竞争力的AI解决方案。背景介绍目的和范围本文旨
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
大学专业科普 | 物联网、自动化和人工智能
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。物联网专业课程设置基础课程：包括物联网概论、电子电工基础、计算机网络技术、数据库应用基础、C语言程序设计等。专业核心课程：传感器与传感网技术、自动识别技术与应用、单片机基础、物联网通信技术、嵌入式系统设计、无线传感器网络等。实践课
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
招标专家随机抽选——抽取结果打印模板设计—未来之窗智能编程——仙盟创梦IDE 未来之窗软件服务招标专家仙盟创梦IDE 东方仙盟
打印代码function未来之窗_人工智能_打印指定区域(魔都id){varmode="iframe";varclose=false;varextraCss=`.cyberwinqrimg{display:inline-block!important;}`;varkeepAttr=[];keepAttr.push($("#"+魔都id).html());varheadElements=',';va
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据郎郎不会飞深度学习目标识别 python 深度学习
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据数据集准备数据集预处理原demo修改数据集训练目标检测补充二零二零年的大年初一，给大家拜个年，祝大家鼠年吉祥，万事如意，趁着喜气，把Yolov3训练自己的数据过程，记录一下，共勉共进。同样，无人机搭载山狗拍摄的视频，目标检测的种类是模型tank和airplane，部分效果图镇贴：数据集准备首先需要将自己的数据集准备好，不同场景下的目标数据尽
【EI会议征稿】东北大学主办第三届机器视觉、图像处理与影像技术国际会议（MVIPIT 2025）诗远Yolanda 图像处理计算机视觉考研视频机器学习论文阅读
一、会议信息大会官网：www.mvipit.org官方邮箱：[email protected]会议地点：辽宁沈阳主办单位：东北大学会议时间：2025年9月27日-9月29日二、征稿主题集中但不限于“机器视觉、图像处理与影像技术”等其他相关主题。机器视觉：视觉中的统计机器学习；立体视觉标定；几何建模与处理；人脸识别与手势识别；早期视觉和生物学启发的视觉；光流法和运动追踪；图像分割和图像分类；基于模型的视觉
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
AI--提升效率、驱动创新的核心引擎保持学习ing AI编程自动化低代码
自动化代码生成、低代码/无代码开发、算法优化实践等新兴技术在软件开发领域正逐渐崭露头角。这些技术为开发者提供了更高效、更便捷的开发方式，大大提升了软件开发的效率和质量。本文重点探讨的是这些技术在实际应用中的价值和优势。1、自动化代码生成1.1优势自动化代码生成是利用机器学习和人工智能技术，通过分析需求和已有代码，生成可用的代码片段或完整的程序。这种技术可以极大地减少开发人员的工作量，提高开发效率。
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
七天学完十大机器学习经典算法-05.从投票到分类：K近邻(KNN)算法完全指南
接上一篇《七天学完十大机器学习经典算法-04.随机森林：群众智慧的机器学习实践》想象一下，你搬进了一个新小区。想知道这个小区整体氛围如何？最直接的方法就是看看你最近的几家邻居是什么样的人——如果邻居们都很安静、整洁，小区大概率不错；如果邻居们深夜喧哗、环境杂乱，你可能就得重新考虑了。K近邻（K-NearestNeighbors,KNN）算法的核心思想，就如同这个观察邻居的过程。它是机器学习中最直观
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

D2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale Attention

文章目录

D2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale Attention

Abstract

1 Introduction

2 Related Work

3 Revisiting Encoder-decoder Architecture

4 Decoder-only DETR

4.1 D2ETR体系结构

4.2 损失函数

你可能感兴趣的:(机器学习,深度学习,人工智能)