Flying Bulldog

DEFORMABLE DETR 论文精度，并解析网络模型结构

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS

FOR END-TO-END OBJECT DETECTION

Deformable Detr：用于端到端目标检测的可变形 Transformer

上一篇文章精度DETR，知DETR的主要缺点：

对小目标的检测性能差；

训练时间很长，收敛非常慢。

这篇文章是2021年3月份的顶级期刊论文，其针对DETR的局限性，提出了解决方法，接下来在精度论文的同时，一起了解 DEFORMABLE DETR 对 DETR 的具体升级实现方法。

一、摘要

二、结论

三、DEFORMABLE DETR 模型结构

（1）可变形DETR目标检测器

（2）可变性注意力模块

（3）多尺度可变形注意力模块

（4）Deformable Transformer Encoder

（6）Deformable Transformer Decoder

四、实验细节

五、编码器和解码器工作过程的可视化

一、摘要

DETR最近被提出以消除在目标检测中对许多手工设计的组件的需求，同时表现出良好的性能。然而，由于Transformer注意力模块在处理图像特征图时的局限性，它存在收敛速度慢和特征空间分辨率有限的问题。针对这些问题，我们提出了Deformable DETR，其注意力模块只关注参考周围的少量关键采样点。Deformable DETR在比DETR少10倍的训练次数下可以获得比DETR (尤其是在小物体上)更好的性能。在COCO基准测试集上的大量实验证明了我们方法的有效性。

代码发布在：https://github.com/fundamentalvision/Deformable-DETR

二、结论

可变形DETR是一种端到端的对象检测器，它高效且快速收敛。它使我们能够探索更有趣和实用的端到端目标检测器的变体。可变形DETR的核心是(多尺度)可变形注意力模块，它是处理图像特征图的有效注意力机制。我们希望我们的工作为探索端到端的目标检测开辟新的可能性。

三、DEFORMABLE DETR 模型结构

（1）可变形DETR目标检测器

尽管DETR有其有趣的设计和良好的性能，但它也有自己的问题：

收敛速度慢：它需要比现有的目标探测器更长的训练时间才能收敛。例如，在COCO基准上，DETR需要500个epochs才能收敛，比Faster R-CNN慢约10 ~ 20倍。
小目标检测性能差：DETR对小目标的检测性能较低。现代目标检测器通常利用多尺度特征，从高分辨率特征图中检测出小目标。同时，高分辨率的特征图会给DETR带来不可接受的复杂性。

为什么Transformer有更高的计算复杂度呢？

答：上述问题主要可归因于Transformer组件在处理图像特征图时的不足。在初始化时，注意力模块对特征图中的所有像素赋予几乎一致的注意力权重。大量的训练epochs对于学习注意力权重以集中于稀疏的有意义的位置是必要的。另一方面，Transformer编码器中注意力权重的计算是关于像素个数的二次计算。因此，处理高分辨率特征图具有非常高的计算和内存复杂度。

在图像域，可变形卷积《Deformableconvolutional networks (ICCV)》是一种强大而有效的机制来处理稀疏的空间位置。它天然地避免了上述问题。但可变性卷积缺乏元素关系建模机制，而这正是DETR成功的关键。故结合可变性卷积和DETR的思想可以构建一个很好的网络架构。

图1 提出的可变形DETR目标检测器的示意图

下面每一句都很重要！

在本文中，我们提出了变形DETR，它缓解了DETR的收敛速度慢和复杂度高的问题。
它结合了可变形卷积的稀疏空间采样和Transformers的关系建模能力。
我们提出了可变形注意力模块，该模块关注一组小的采样位置，作为所有特征图像素中突出关键元素的预滤波器( pre-filter )。
该模块可以自然地扩展到聚合多尺度特征，而无需借助特征金字塔网络 FPN ( Feature Pyramid Networks )。
在Deformable DETR中，我们使用(多尺度)可变形注意力模块来代替Transformer注意力模块处理特征图，如图1所示。

目标检测的主要困难之一是有效地表示不同尺度的目标。之前大多数网络引用的是FPN。但是，我们提出的多尺度可变形注意力模块可以通过注意力机制自然地聚合多尺度特征图，而不需要这些特征金字塔网络的帮助。

（2）可变性注意力模块

在图像特征图上应用Transformer注意力的核心问题是，它会遍历所有可能的空间位置。为了解决这个问题，我们提出了一个可变形注意力模块。受可变形卷积的启发，可变形注意力模块只关注参考点周围的一小部分关键采样点，而不考虑特征图的空间大小，如图2所示。通过为每个查询只分配少量固定数量的键，可以缓解收敛性和特征空间分辨率问题。

图2 提出的可变形注意力模块的插图

给定一个输入特征映射 $X\epsilon \mathbb{R}^{C*H*W}$ ，令索引一个带有内容特征 $z_{q}$ 和一个二维参考点 $p_{q}$ 的查询元素，可变形注意力特征由下式计算

m 表示注意力头（head）。

k 表示 sampled key。K 表示 total sampled key number( K << HW )。

$\Delta p_{mlqk}$ 表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的采样偏移量。

$A_{mlqk}$ 表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的注意力权重 V。

，Xk表示第k个采样点，Um和Vm是可学习的参数。

标量注意力权重 $A_{mlqk}$ 的取值范围为[ 0 , 1]，通过进行归一化。

是范围不受限制的2-d实数。

由于是分数阶的，所以在计算时，采用了《Deformableconvolutional networks (ICCV)》中的双线性插值。

$\Delta p_{mqk}$ 和 $A_{mqk}$ 都是通过在查询特征 $z_{q}$ 上的线性投影获得的。

在实现中，查询特征 $z_{q}$ 被送入3MK通道的线性投影算子，其中前2MK通道编码采样偏移量为 $\Delta p_{mqk}$ ，其余MK通道被送入softmax算子以获得注意力权重 $A_{mqk}$ 。

可变形注意力模块是为了---将卷积特征图作为 key 要素进行处理---而设计的。令 Nq 为 query 元素的个数，当 MK 比较小时，可变形注意力模块的复杂度为。当它应用于DETR编码器时，其中 Nq = HW，复杂度变为O( $HWC^{2}$ )，与空间大小成线性复杂度。当它被用作DETR解码器中的交叉注意力模块时，其中 Nq = N ( N为对象查询次数)，复杂度变为O ( $NKC^{2}$ )，这与空间大小HW无关。

（3）多尺度可变形注意力模块

大多数现代目标检测框架都受益于多尺度特征图《Deep learning for generic object detection: A survey》。我们提出的可变形注意力模块可以自然地扩展为多尺度特征图。

令为输入的多尺度特征图，其中。令为每个查询元素 q 的参考点的标准化坐标，则多尺度可变形注意力模块应用为：

m 表示注意力头（head）。

k 表示 sampled key。K 表示 total sampled key number( K << HW )。

$\Delta p_{mlqk}$ 表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的采样偏移量。

$A_{mlqk}$ 表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的注意力权重 V。

, Xk表示第k个采样点, Um和Vm是可学习的参数。

标量注意力权重 $A_{mlqk}$ 通过标准化。

这里，我们使用归一化坐标来表示MSDeformAttn公式的清晰度，其中归一化坐标( 0，0 )和( 1 , 1)分别表示图像的左上角和右下角。

函数将标准化坐标重新缩放到第 l 层的输入特征图上。

多尺度可变形注意力与以前的单尺度版本非常相似，只是它从多尺度特征图中采样 LK 点，而不是从单尺度特征图中采样 K 点。

当固定为单位矩阵时，提出的注意力模块将退化为可变形卷积。可变形卷积被设计为单尺度输入，只聚焦于每个注意头的一个采样点。然而，我们的多尺度可变形注意力从多尺度输入中观察多个采样点。

我们所提出的(多尺度)可变形注意力模块也可以看作是Transformer注意力的有效变体，其中通过可变形采样位置引入了预滤波器机制( pre-filtering mechanism )。当采样点遍历所有可能的位置时，建议的注意力模块等效于Transformer注意力（公式如下）。

上面公式中，Transformer Q、K、V 分别是什么呢？

，Um和Vm是可学习的参数。

Amqk 注意力权重，相当于 Vaule

Xk 表示 key 元素

Zq 表示 query 元素

Wm表示注意力头m的可更新权重

（4）Deformable Transformer Encoder

我们将DETR中处理特征图的Transformer注意力模块替换为提出的多尺度可变形注意力模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。在编码器中，通过ResNet (transformed by a 1 × 1 convolution) 中的从 $C_{3}$ 阶段到 $C_{5}$ 阶段的输出特征图中提取多尺度特征图，其中分辨率的 $C_{L}$ 比输入图小 $2^{l}$ 。在最后的 $C_{5}$ 级上通过 3 × 3 步长为 2 的卷积得到的最低分辨率特征图 $x^{L}$ ，记为 $C_{6}$ 。所有多尺度特征图的通道数为 C = 256 。

注意：FPN 中自顶向下的结构没有被使用，因为我们提出的多尺度可变形注意力机制本身可以在多尺度特征图之间交换信息。多尺度特征图的构造如图3 所示。注：添加FPN不会提高性能。

图3 为可变形DETR构建多尺度特征图

在编码器多尺度可变形注意力模块的应用中，输出是与输入具有相同分辨率的多尺度特征图。键元素和查询元素均为多尺度特征图中的像素。对于每个查询像素，参考点为其本身。为了识别每个查询像素位于哪个特征级别（即属于目标物体的概率），除了位置嵌入外，我们在特征表示中添加了一个尺度级别的嵌入，记为 $e_{l}$ 。不同于固定编码的位置嵌入，尺度级嵌入随机初始化并与网络联合训练。

（6）Deformable Transformer Decoder

解码器中存在交叉注意力和自注意力模块，两种类型的注意力模块的查询元素都是对象查询。

在交叉注意力模块中，对象查询从特征图中提取特征，其中的key元素是编码器输出的特征图。在自注意力模块中，对象查询是相互作用的，其中的关键元素是对象查询。由于我们提出的可变形注意力模块是为了处理卷积特征图作为key元素而设计的，因此我们只将每个交叉注意力模块替换为多尺度可变形注意力模块，而自注意力模块保持不变。对于每个对象查询，参考点的二维归一化坐标通过可学习的线性投影和sigmoid函数从其对象查询嵌入中预测。

由于多尺度可变形注意力模块提取参考点周围的图像特征，我们让检测头预测边界框作为参考点的相对偏移量，以进一步降低优化难度。将参考点作为箱体中心的初始猜测。检测头预测参考点的相对偏移量。详见附录A.3。这样，学习到的解码器注意力将与预测的边界框具有较强的相关性，这也加速了训练收敛。

通过将DETR中的Transformer注意力模块替换为可变形注意力模块，我们建立了一个高效、快速收敛的检测系统，称为可变形DETR (见图1 )。

四、实验细节

使用Image Net预训练的Res Net-50作为消融主干。在不使用FPN的情况下提取多尺度特征图。默认情况下，M = 8和K = 4被设置为可变形注意力。可变形Transformer编码器的参数在不同的特征级之间共享。其他超参数设置和训练策略主要沿用DETR，除了损失权重为2的Focal Loss用于包围盒分类，对象查询数量从100个增加到300个。我们还报告了DETR-DC5经过这些修改后的性能，以便进行公平的比较，记为DETR-DC5 +。默认情况下，模型训练50个历元，学习速率在第40个epoch衰减0.1倍。在DETR的基础上，我们使用Adam优化器来训练我们的模型，其基于学习速率为2 × 10^(-4)，β1 = 0.9，β2 = 0.999，权重衰减为10^(- 4)。用于预测对象查询参考点和采样偏移量的线性投影的学习率乘以0.1。在NVIDIA Tesla V100 GPU上评估运行时间。

五、与DETR实验结果的比较

如表1 所示，与Faster R- CNN + FPN相比，DETR需要更多的训练次数才能收敛，并且在检测小目标时性能较低。与DETR相比，Deformable DETR在10 ×少的训练次数下获得了更好的性能(尤其是在小物体上)。详细的收敛曲线如图3所示。借助Iterative Bounding Box Refinement和Two-Stage Deformable DETR，我们的方法可以进一步提高检测精度。

我们提出的可变形DETR与Faster R- CNN + FPN和DETR - DC5具有相同的FLOP。但运行速度比DETR - DC5快得多( 1.6 × )，仅比FasterR - CNN + FPN慢25 %。DETR - DC5的速度问题主要是由于Transformer注意力中的访存量较大。我们提出的可变形注意力可以减轻这个问题，代价是无序的内存访问。因此，它仍然略慢于传统的卷积。

表1 变形DETR与DETR在COCO2017阀组上的比较。

DETR-DC5 + 表示具有Focal Loss和300个对象查询的DETR - DC5。

Iterative Bounding Box Refinement. 这是受到光流估计《Raft：用于光流的循环所有点对字段转换。》中发展的迭代求精的启发。我们建立了一种简单有效的迭代边界框精化机制来提高检测性能。这里，每个解码器层根据上一层的预测对边界框进行细化。

Two-Stage Deformable DETR. 在原始DETR中，解码器中的对象查询与当前图像无关。受两阶段目标检测器的启发，我们探索了Deformable DETR的一个变体，作为第一阶段生成候选区域。生成的区域建议将作为对象查询反馈到解码器中进行进一步的细化，形成一个两阶段的可变形DETR。在第一阶段，为了实现高召回率的建议，多尺度特征图中的每个像素将作为一个对象查询。然而，直接将对象查询设置为像素会给解码器中的自注意力模块带来不可接受的计算和内存开销，其复杂度与查询次数呈二次方增长。为了避免这个问题，我们去掉解码器，形成一个仅有编码器的Deformable DETR用于区域建议生成。其中，每个像素被分配为一个对象查询，它直接预测一个边界框。顶级得分包围盒被选为区域建议。在将区域提案提交到第二阶段之前，不应用NMS。

图4 Deformable DETR和DETR - DC5在COCO 2017 val集上的收敛曲线

对于Deformable DETR，我们通过改变学习率降低(AP得分跳跃)的epoch来探索不同的训练计划。

五、编码器和解码器工作过程的可视化

图5：最终检测结果中每个对象框关于输入图像 I 中每个像素的梯度范数

物体中心坐标( x , y )，
宽高比的梯度范数w / h，
该对象的类别分数c 。

( a ) 编码器中的多尺度可变形自注意力

( b ) 解码器中的多尺度可变形交叉注意力

图6 多尺度可变形注意力的可视化

为了可读性，我们从一张图片中不同分辨率的特征图中提取采样点和注意力权重。每个采样点被标记为一个填充圆，其颜色表示其对应的注意力权重。参考点显示为绿色交叉标记，也相当于编码器中的查询点。在解码器中，预测的边界框显示为一个绿色的矩形，类别和置信度得分在其上方。

>>> Self-Attention、Transformer、DETR在我的专栏中，有兴趣可进行阅读。

变形金刚 Transformer_Flying Bulldog的博客-CSDN博客https://blog.csdn.net/qq_54185421/category_11847619.html?spm=1001.2014.3001.5482

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

DEFORMABLE DETR 论文精度，并解析网络模型结构

一、摘要

二、结论

三、DEFORMABLE DETR 模型结构

（1）可变形DETR目标检测器

（2）可变性注意力模块

（3）多尺度可变形注意力模块

（4）Deformable Transformer Encoder

（6）Deformable Transformer Decoder

四、实验细节

五、编码器和解码器工作过程的可视化

你可能感兴趣的:(变形金刚,Transformer,论文精读_解析模型结构,深度学习,神经网络,transformer,目标检测,计算机视觉)