黄小米吖

[Transformer]DN-DETR:Accelerate DETR Training by Introducing Query DeNoising

DN-DETR:引入query去噪训练用于加速DETR训练 

Abstract
Section I Introduction
Section II Related Work
Section III Why denoising accelaretes DETR training?
Section IV DN-DETR
- Part 1 Overview
- Part 2 Intro to DAB-DETR
- Part 3 Denoising
- Part 4 Attention Mask
- Part 5 Label Embedding
Section V Experiment
- Part 1 Set up
- Part 2 Denoising Training Improves Performance
- Part 3 1x Setting
- Part 4 Compared with SOTA
- Part 5 Ablation Study
Section VI Conclusion

from CVPR2022
Code
Paper

Abstract

本文提出一种新的去噪训练的方法来加速DETR的训练，加深对DETR收敛问题的理解。本文发现DETR收敛版的原因主要是DETR 二分图匹配的不稳定导致的。为了解决这一问题，除了使用匈牙利损失，本文还将带噪声的GT boxes作为DETR decoder的输入，输出重建后的bbox，这样有效减少了二分图失配的问题同时加速了DETR的收敛。本文的方法是通用的，可作为一种即插即用的插件加入到DETR类的代码中。最终实验结果显示，DN-DETR有效提升了目标检测的精度，平均提升了1.9AP,与基线模型相比训练时间减少了50%。

Section I Introduction

目标检测是计算机视觉领域中的一类基础任务，旨在推测图像中的物体类别和边界框（nnox),传统的目标检测算法已经取得了一定的性能，主要基于卷积神经网络。直到Carion等人近期的DETR将Trabnsformer引入到目标检测领域。与之前的目标检测器相比，DETR使用了可学习的queries来从Transformer encoder中获得图像特征，然后基于二分图匹配获得预测的box,有效排除了手动锚框的参与和非极大值抑制的参与。但是DETR的训练难以收敛，经常需要在COCO数据集上训练500个epoches，而Faster-RCNN只需要12个epoch。
 

已经有诸多研究来探究DETR收敛慢的问题，有的致力于改进模型架构，比如Sun等人认为是交叉注意力部分导致的收敛过慢，因此提出仅包含encoder部分的DETR。Dai等人设计了基于ROI的动态decoder结构帮助decoder聚焦ROI区域。近期还有将DETR的query限制在一定空间位置，从而提升特征探测的效率。比如Conditional DETR将每一个query解耦成内容部分和位置部分。Defoemable DETR和Anchor DETR则直接将2D参考点作为query来计算交叉注意力，DAB-DETR则是将query视作4D Anchor逐层优化他们。
尽管DETR已在上述做出了一系列改进，但是很少有工作关注到二分图适配影响训练效率这一方面。本文发现DETR收敛慢的一个原因是由于二分图匹配导致的，在训练早期由于随机优化很不稳定。因此同一图片的query常常在不同epoch匹配到不同的物体上，这样就使得优化过程具有二义性、前后不一致。
 为了解决这一问题，本文提出一种新的训练方法-DN-DETR，引入了query 去噪，因为参考点和Anchor DETR都显示出对query添加约束可以有效提升性能，本文遵循同样的思路使用4D ANCHOR作为query。本文的解决方案是将带有噪声的GT bbox作为noised query，与需要学习的anchor box一同输入Transformer decoder。两种query输入格式一样，对于noised queries,执行去噪任务来重建真的GT bbox,对于需要学习的anchor bbox则保持与原始DETR一样的训练过程。由于noised query不需要进行二分图匹配，因此退化为辅助任务帮助DETR减轻二分图失配的问题，使得bbox的预测更高效。
 为了最大化发挥这一辅助任务的作用，本文将每一个query看做bbox+cls label嵌入后的结果，这样可以同时进行bbox去噪和label去噪。 
 总的来说，本文是一种去噪训练的方法。损失函数包含两部分，一是重建损失函数二是匈牙利损失函数，后者与DETR方法保持一致。本文的方法可以方便的嵌入到其他DETR类的模型中。 本文使用DAB-DETR来评估本文方法的有效性，因为其直接使用4D Anchor作为输入，别的方法主要使用的是2D Anchor。
 ，本文的工作总结如下： 
 （1）本文提出一个新的训练方式-DN-DETR来加速DETR的训练。实验结果显示可以加速模型收敛，并且有很大的性能提升（1.9AP）.
 （2）本文分析了DETR收敛过慢的原因，对DETR的训练有了更深入的认识。并且本文设计了评估二分图匹配不稳定的新的评价方法。 
 （3）一系列消融实验的结果显示本文噪声、label embedding和attention mask的有效性。

Section II Related Work

基于CNN的目标检测器主要分为两类：一阶段模型和两阶段模型。两阶段模型会首先生成RP，然后决定每一块区域包含的物体类别，生成bbox。Ren等人提出使用RPN来预测bbox。一阶段模型则是直接生成bbox。 Carion提出首个基于Transformer的目标检测模型——DETR，摆脱了Anchor的限制，取得了和Faster-RCNN接近的性能，但是训练需要500epoch才能收敛到较好性能。 近期诸多工作尝试加速DETR的训练过程，有的认为DETR中的交叉注意力不够高效，做出了改进。比如Dai等人设计动态decoder使得可以聚焦于ROI区域，Sun等人则是直接移除了DETR的decoder部分，仅保留Encoder部分。里尼系列的工作则聚焦于decoder queries的优化。Zhu等人设计的注意力模块只采样几个参考点进行计算，Meng等人则是将decoder queries解耦成内容部分和位置部分，分别计算交叉注意力。Yao等人则是使用RPN来产生top_K个锚点。DAB-DETR使用4D 坐标作为queries，层次化的更新bbox的坐标。
 如果cost matrix稍微变化就会导致优化过程的不稳定性。 本文将DETR的训练过程分成两步，分别是：学习good anchors和学习相对位移。decoder queires负责学习anchors，但是由于anchor更新的前后不一致性使得难以学习相对位移。因此本文将去噪任务作为一种训练的shortcut帮助学习相对位移，直接越过二分图匹配这一步。将每一个query看做4D anchor，noised query可以被看做good anchor，训练的不叫就变成了预测原始的bbox，这样就绕过了匈牙利匹配中的二义性带来的问题。
上述改进都没有考虑到，DETR中使用的匈牙利损失函数也是导致DETR收敛过慢的一大原因。Sun等人分析了使用匈牙利损失函数预训练DETR作为教师模型的实验，发现label assignment旨在训练早期有助于模型收敛，因此他们得到的结论是匈牙利损失并不是导致收敛过慢的主要原因，本文则从另一角度记性分析并且通过有效的方法得到不同的结论。 
本文采用DAB-DETR作为检测框架，其中decoder部分替换为label embedding+indicator，与其他框架的主要不同在于训练方式上，本文在匈牙利损失之外增加了去噪损失来加速训练，提升检测性能。Chen等人的方法与我们完全不同，他们是直接将噪声分类为“噪声”类别，而不是属于任何GT类别，本文致力于让模型尽可能让带噪声的输入与GT的bbox接近。

Section III Why denoising accelaretes DETR training?

匈牙利算法常用于图的匹配问题。给定输入矩阵，算法会输出最优的匹配结果。DETR是首个将匈牙利匹配用于目标检测，将物体检测变成一个动态过程，这就引入了训练不稳定的问题。 为了衡量二分图匹配的不稳定性，本文还提出一种评价指标。对于一张训练图像，Transformer预测的结果是： 

N就是目标类别，GT表示为： 

二分匹配的结果是：  

那么不匹配程度的计算表述为：

Fig 2展示了DN-DETR和DAB-DETR的不匹配程度，可以看到本文的DN-DETR有效改善了匹配的不稳定性。
 

Section IV DN-DETR

Part 1 Overview

Fig 3展示了DAB-DETR和DN-DETR交叉注意力部分的区别，DAB-SETR直接对锚框动态更新，DN-DETR会将decoder嵌入的结果作为label embedding并且增加一个indicator橡来区分是去噪还是匹配任务。 基准框架遵循DAB-DETR，因此会将decoder的queries显示编码成为bbox坐标，唯一不同之处在于decoder embedding部分，会有一个cls label帮助进行去噪。

Fig4展示了DN-DETR的的详细结构。可以看到DN-DETR与DETR很接近，包含Transformer encoder和decoder部分。Encoder为一个CNN backbone负责提取图像特征然后进行位置嵌入后送入encoder获得更精炼的图像特征。decoder的输入是queries通过计算交叉注意力识别目标。
 decoder的输入enqueries为：

输出为：

F表示经立案后的特征图，A表示attention mask，因此整个过程表述为：

decoder queries包含两部分，一是匹配部分，输入的是可学习的anchors，这一部分和DETR一样，主要进行二分图匹配；另一部分则是去噪部分，输入的是加了噪声的GT box-label组-称之为GT Objects，输出是重建的GT objects， 为了提升去噪效率，本文提出使用多种噪声版本的GT Objects，并且使用attention mask来防止信息从去噪部分流入匹配部分。

Part 2 Intro to DAB-DETR

DAB-DETR输入的是4D Anchor（x,y,w,h），会逐层动态更新，decoder的输出则是偏移量四元组和更新后的锚框坐标。本文也是遵循DAB-DETR的框架，仅在decoder emnbedding部分进行了改动。

Part 3 Denoising

对于每一张图像，会统计GT Objects并且给cls和bbox增加随机噪声,并且增加了多种噪声。 考虑为box添加两种噪声：center shiftin+box scaling 分别会改变bbox中心点和bbox的大小 
  对于cls采用的是label flipping也就是会将标签换为其他种类的标签。并且去噪只在训练过程中使用，推理过程中就不适用了。

Part 4 Attention Mask

Attention Maks是本文很重要的一部分，如果没有注意力掩膜，去噪的训练效果就会有所下降。 首先将GT Objects分组，每一组施加一种噪声，从而输入变成了：

每一组包含M个queries，M对应就是图中的目标数目 注意力掩膜的目标是防止信息泄露。
 有两种潜在的信息泄露，分别是匹配部分可能会看见加了噪声的GT Objects从而用来预测GT类别；第二种是噪声版本可以看到其他噪声版本的输入。注意力掩膜就是防止些部分的信息泄露。 A表示为注意力掩膜，可以看到有一下关系：
  W=PXM+N
  PM分别代表组数和GT Objects，N则是queries的数目
   注意力掩膜如下计算：
   

本文只允许去噪部分能看见匹配部分，这样才能让queries无法借鉴人格GT Objects的信息。这样操作带来的额外计算成本几乎可以忽略，GFLOPs从94.4增加到94.6（分组=5）

Part 5 Label Embedding

decoder embedding主要用来支持box denoising 和denoising，除了COCO数据集中80个目标类别还增加了一个未知类别，表征matching部分语义与去噪部分是一指的。本文还在queries后面追加了一个indicator项，如果属于denoising则indicator=1，否则indicator=0。

Section V Experiment

Part 1 Set up

Dataset:
COCO2017数据集评价指标AP（Average Precision）
 Implementation Details
  主要检测对DAB-DETR使用去噪训练的有效性，网络包含一个CNN backbone,多层Transformer encoder-decoder层，此外采用了在Imagenet上预训练的ResNet-50,101以及对应16x-分辨率的DC5-R50,DC101-R50配置。 
  Transformer部分遵循DAB-DETR中的6层encoder-decoder，hidden-dim = 256. 
  超参数设置为：

优化器Adam Optimizer
     训练卡 8块A100 batch_size = 16
      DN-Deformable-DETR 为了说明去噪训练的有效性，本文也在其他DETR模型进行了测试，分成10组进行去噪，组成的称之为DN-Deformable-DETR
在epoch=50的设定中为了去除DN-Deformable-DETRquery部分可能的误导信息，本文还与DAB-DETR基线模型进行了对比，使用Deformable DETR的query但没有使用去噪训练。其他所有设置保持一致，严格遵循Deformable DETR的多尺度特征而不使用FPN。Deformable DETR使用了更多尺度（5 scale)和FPN，会使得性能进一步提升，但本文的DN-DETR仍然超过了它们的性能。

Part 2 Denoising Training Improves Performance

Table 1展示了与DAB-DETR和其他单尺度DETR模型的性能对比。可以看到DN-DETR获得了最有益的检测性能，比如与DAB-DETR基线模型相比，提升了1.9AP,并且去噪引入的额外参数可以忽略不计。 

Part 3 1x Setting

Table 2显示了去噪训练的加速效果，主要与传统的detector、DETR类模型的训练时间进行了对比，在DC5-R50的基准框架下，DN-DETR比DAB-DETR在12epochs内提升3.7A。如果换成ResNet-101基线，在12epochs可以达到44.1AP，比Faster-RCNN训练108epoches还高。
  

Part 4 Compared with SOTA

Table 3展示了与其他多尺度模型的对比结果，可以看到DN-Deformable-DETR以ResNet-40为基准达到了48.6AP的检测精度，其中去噪训练带来的提升为1.7AP。
DN-Deformable-DETR的性能提升也表明去噪训练可用于其他DETR类的模型，带来性能提升。与Dynamic DETR相比仍然有1.4AP的提升。Fig 5展示了单尺度和多尺度设定下的收敛曲线。

Part 5 Ablation Study

Table 4、Table 5主要展示了消融实验的结果。 以ResNet50为基准训练50epoches。Table 4的实验结果表明去噪训练的每一部分均对最终性能提升有贡献，可以看到没有attention mask会带来性能的显著下降，因为注意力掩膜有效防止了信息泄露，有助于防止模型退化。
    Table 5显示的是不同去噪组数的性能对比，可以看到更多的去噪组数会进一步提升性能、加快收敛，但是提升的逐渐减少，因此最终网络设置5个去噪组。 
    Fig 6探索了noise scale的影响，可以看到center shifting和box scaling都会带来性能提升，但是如果噪声太大也会使得性能下降，最终设置noise scale=0.4. 
    

Section VI Conclusion

本文对DETR收敛过慢的问题进行了深入分析，对其二分图匹配不稳定问题提出新的去噪训练方法来提升DETR的训练收敛速度，称之为DN-DETR。 DN-DETR将decoder的输入加入了label embedding并且引入了噪声，实验结果显示明显加快了收敛速度，同时具有一定的通用性。以ResNet50和ResNet101为基准训练12epoch均取得了最优的检测性能。本研究表明去噪训练可以作为一种通用的训练方法集成到DETR类的训练过程中，可以显著提升检测性能和训练收敛时间。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
C# 禁止程序重复启动 wiseyao1219 c#
修改：Program.cs[STAThread]staticvoidMain(){Mutexmutex=newMutex(true,"NewGuid123456",outboolisCreatedNew);if(!isCreatedNew){MessageBox.Show(Application.ProductName+"isrunning...");return;}Application.Ena
2018-08-16【Swift 4.1】关于Swift4.0以后调用MJExtension无法模型转换问题码农happy
1、本人使用swift4.1，弄了一晚上才弄好，结果还是一个小问题真是尴尬，要在model中每个属性前面加上@objcimportUIKitclassUserModel:NSObject{@objcvardix=String()}letdic=["dix":"ffffff"]asNSDictionaryletmodel=UserModel.mj_object(withKeyValues:dic)!
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

[Transformer]DN-DETR:Accelerate DETR Training by Introducing Query DeNoising

DN-DETR:引入query去噪训练用于加速DETR训练

Abstract

Section I Introduction

Section II Related Work

Section III Why denoising accelaretes DETR training?

Section IV DN-DETR

Part 1 Overview

Part 2 Intro to DAB-DETR

Part 3 Denoising

Part 4 Attention Mask

Part 5 Label Embedding

Section V Experiment

Part 1 Set up

Part 2 Denoising Training Improves Performance

Part 3 1x Setting

Part 4 Compared with SOTA

Part 5 Ablation Study

Section VI Conclusion

你可能感兴趣的:(CV,transformer,深度学习,计算机视觉)

DN-DETR:引入query去噪训练用于加速DETR训练