黄小米吖

[Transformer]Deformable DETR: deformable transformers for end-to-end object detection

Deformable DETR:可变Transformer用于端到端的目标检测

Abstract
Section I Introduction
Section II Related Work
Section III Revisting Transformers and DETR
- Part 1 Multi-Head Attention in Transformers
- Part 2 DETR
Section IV Method
- Part 1 Deformable Transformer
- Part 2 Additional Improvements and Variants for deformable DETR
Section V Experiments
Section VI Conclusion
Appendix
- Part 1 如何构建Deformable DETR的多出度特征输入图
- Part 2 Deformable DETR解释性分析
- Part 3 多尺度可变注意力的可视化

Paper
Code

Abstract

DETR的提出免去了目标检测任务中许多人工组件的参与，同时又能保证较好的检测精度。但是DETR也存在着收敛过慢、特征空间分辨率有限的问题，Transformer自身的局限性无法较好的处理图像feature map。
  为了减轻上述问题，本文提出了Deformabel DETR,其注意力模块仅参与一小部分key set的计算，使得训练时间缩短10倍的基础上达到比DETR更好的效果。

Section I Introduction

目前的目标检测方法大多还依赖于人工设计的组件，比如锚框、非极大值抑制等，并不能完全做到端到端。而DETR的提出是首个纯端到端的目标检测器，移除了一切人工组件，也取得了不错的检测性能。DETR的结构很简洁，充分融合了CNN和Transformer，借助Transformer强大的建模能力来替代人工设计的组件。 
但DETR也有自身局限，首先它需要训练更多的epoch才能收敛，比如COCO数据集上需要训练500epoch,是Faster R-CNN的10-20倍；其次DETR在检测小目标时效果不是很好。
 目前主流的一些目标检测器主要使用多尺度特征，需要从较高分辨率的feature map检测小型目标比较有效，但是如果使用高分辨率的feature map会使得DETR的计算复杂度大大提升。
 以上问题可以归因为Transformer自身在处理图像特征时的问题；在初始化阶段，SA模块对特征图中的所有像素施加的注意力几乎是一样的，因此需要较长的学习时间来学习注意力权重。
 此外，注意力的计算是输入序列长度的平方项，因此输入较高分辨率图像时所需的计算成本和内存是非常大的。 
 在图像领域，可变卷积是一种关注稀疏空间位置的强大有效的方法，可以有效避免前述问题；但它缺乏有效建模元素之间关系的能力，这正是DETR擅长的。
本文提出的Deformable DETR,解决了DETR中收敛太慢、计算复杂度高的问题。
通过与可变卷积结合，使得每次计算只关注一部分采样位置，作为所有像素中一些突出的关键像素的预过滤器（pre-filter），这个模块可以自然的扩展到多尺度特征聚合，因此省略了FPN的使用。在Deformab DETR中使用的是多尺度可变注意力模块代替原始DETR中的注意力模块来处理特征，详情参见Fig 1
. 这一思路为我们提供了使用其他端到端目标探测器变体的可能性。比如本文使用了一种简单但高效的迭代边界框逐渐精炼的机制来提升检测精度；本文还尝试了一个两阶段的可变形DETR，其中推荐区域也是由一个可变形DETR生成的，然后送入decoder作为迭代生成的边界框参考。 
本文在COCO数据集上验证的可变形DETR的有效性，与DETR相比，训练次数减少了10倍，而两阶段的可变形DETR在性能上也有进一步提升。

Section II Related Work

Efficient Attention Mechanism
   Transformer包含自注意力和交叉注意力两部分，Transformer最突出的问题在于注意力的计算需要耗费巨大的计算成本和内存空间，限制了模型的可扩展性。近期研究人员在这方面做了诸多尝试，大致可以分为三类：
    第一类是使用预定义的稀疏注意力来稀疏计算，即使用固定大小的局部窗口来减少每次参与计算的key的数目；这样会丢失全局信息，可以通过在关键位置扩大感受野进行一定补偿，或者在特定位置增加全局注意力。
     第二类是学习与数据相关的洗漱注意力，比如Kitave等人提出一种局部敏感哈希的注意力计算方法，会将k,q哈希到不同的桶中进行计算，还有用k-nn的思路来寻找每次计算最相关的一组key。
      第三类是对注意力进行低秩近似，比如将注意力投影到更低维度或者采用核近似。
另一方面，许多卷积的变体，比如可变卷积和动态卷积也可以看做是注意力机制，尤其是可变卷积在图像识别任务中比Transformer的自注意力更有效、更高效，但是它的缺点就是缺乏元素之间的建模机制。 
本文的可变DETR的灵感来自于可变卷积，属于第二类改进，也就是在计算过程中值关注query elements中一小部分固定的采样集合，已有研究表明在相同的FLOPs下可变注意力仅比传荣的卷积计算稍慢一点。
 Multi-scale Representation for Object Detection
  目标检测的难点之一就是如何有效的表示不同尺度的目标，目前的主流方法通常使用多尺度特征，比如FPN采取的是自顶向下的方法来聚合；PANet则采用的是自下而上的方法；还有通过全局注意力操作来聚合多尺度特征，或者通过NAS的方法寻求特征之间的最优连接方式。
  本文提出的多尺度可变注意力模块可以通过注意力机制自然而然的聚合多尺度特征，不需要像特征金字塔网络的帮助。

Section III Revisting Transformers and DETR

首先回顾一下Transformer和DETR。

Part 1 Multi-Head Attention in Transformers

Transformer是基于注意力机制搭建的用于机器翻译的网络。对于给定的查询元素（目标语言的单词）和一组关键元素（源语言的一组单词），多头注意力会根据q-k之间的相似性（注意力分数）来逐渐聚合相关的key。
  为了能够让模型关注到来自不同子空间和不同位置的信息，不同注意力头的输出会被加权后线性组合在一起。
  
Transformer存在两个明显的问题： 
（1）Transformer需要更长的训练时间才能收敛。 对于q,k的数量分别是Nq,Nk，做完embedding后UmZq和Vmxk分别遵循高斯分布，使得注意力权重约为个数的倒数；因此需要较长的训练时间才能使得注意力关注到一些特定的key上。尤其在图像领域，Nk可能会更大，使得收敛过程更冗长。
 （2）Transformer的计算复杂度和内存需求。当q,k数目很大时会使得计算复杂度指数上升，尤其在图像领域，q,k一般远远大于通道数，使得MHA的计算复杂度更高。

Part 2 DETR

DETR是基于Transformer的一种编解码结构来做目标检测，损失函数中使用了匈牙利损失来做bbox预测，双边损失来做类别预测，好处就是一次获得最终结果，没有重复的区域，也无需任何人工设计的部件。 DETR的输入是CNN backbone提取的feature map,Transformer负责将输出编码成一系列object query，然后将object query结合decoder输出的query feature作为探测头；最后送入FFN网络进行bbox和类别的预测。 DETR encoder的注意力计算中，使用的q,k均是特征图的像素点，因此计算复杂度为H2W2C，即会随着feature map的大小指数增长。 
  Transformer decoder的计算中，输入包括encoder提取的feature map以及N个object query；decoder会计算两种注意力：self-attention和cross-attention。 
  cross-attention:object query会从encoder feature map提取特征。即query来自object query,key来自feature map。
   self-attention:query 和key均来自query object。
    DETR的优势在于，不需要传统目标检测中人工组件的介入，但自身的问题是：
     （1）DETR在小目标检测时性能较差 因为小目标需要用较高分辨率的feature map，但这会增加SA的计算复杂度，无法接受；
      （2）DETR需要更久的训练时间，因为需要训练注意力模块关注到不同的特征，最开始做初始化时对所有key施加的注意力几乎都是一样的，需要将其训练到稀疏，即只关注一些相关的key。

Section IV Method

Part 1 Deformable Transformer

Deformable Attention Module 
 Transformer应用到图像任务，计算的核心是要计算feature map所有像素点之间的相关性，本文提出的可变注意力也是改进的这一部分。
 在可变卷积中，可变注意力模块每次只关注参考点附近的一部分范围，不管整张图的分辨率是多大。因此将每次查询的key的数目限定在一定范围内，就可以减轻收敛过慢和空间分辨率带来的复杂度影响。 Deformable Attention的计算表示为：

m表示第m个注意力头，k代表采样第k个key，K就是采样key的总数目,Pmqk表示学习的位移,是一个二维量，Amqk是注意力权重，会被归一化到[0,1]区间。
  实际计算时，query feature zq会先映射到3MK个通道，前2MK个通道用来编码偏移，最后MK个通道用来计算注意力权重Amqk. 
  计算复杂度分析：
 Deformable self attention module处理的依旧是CNN提取的feature map,对于Nq个query，MK远小于HW，因此计算复杂度为： 
 
原始Transformer复杂度为：

计算cross-attention时，N=Nq即object query的数目，复杂度是： 

与feature map 的空间分辨率无关。

Multi-scale Deformable Attention Module
 在流行的目标检测框架中，使用多尺度的特征图可以有效提升检测性能，因此本文可以将可变注意力模块拓展到使用多尺度特征图。
  xl表示第l层输入的特征图谱，p代表的是每次查询对应的参考点，multi-deformable attention module的计算表示为： 

与单尺度的相比，多了l层，即计算的是l层相加的结果，区别在于需要将LxK层的注意力系数最后归一化到和为1即可。
Pmlqk表示的是第l层的特征图第m个attention head的第k个采样点的偏移，Amlqk是对应的注意力系数。 
原始的可变卷积是为单尺度特征设计的，即每次只关注一个采样点；多尺度可变形注意力会从多尺度图中采集多个采样连，这种可变的采样位置作为一种预过滤机制，当采样点是所有可能的位置时，计算的结果就等于原始Transformer attention计算的结果。
 Deformable Transformer Encoder 
 因此本文将DETR中的注意力模块都替换为了本文提出的多尺度可变注意力模块，encoder和decoder输入的feature map都是同样的分辨率，一共提取4层feature map，分别是ResNet C3到C5的feature map，以及C5经过3x3步长卷积之后的结果（C6）.
 encoder就从这些feature map中提取query和key，并且嵌入了一个尺度信息（el:scale-level embedding）来表示来自于哪一层。尺度嵌入式随机初始化进行训练的。 同时也不需要使用FPN，因为可变注意力自己就可以完成不同尺度特征图之间的信息交互的计算。 
 Deformable Transformer Decoder
  Decoder中需要计算cross-attention和self-attention。
   Cross-attention：query from object query, key from encoder feature map 
   Self-attention:query,key from object query
    因为本文提出的可变注意力模块是用来将feature map看做key来处理，因此只替换了cross-attention部分。 因为多尺度可变注意力提取的是参考点附近的特征，因此本文让detection head预测的bbox作为参考的偏移量，参考点作为预测的中心，这样就会使得decoder attention与bbox有更强的相关性，也可以达到加速收敛的效果。

Part 2 Additional Improvements and Variants for deformable DETR

Deformable DETR为我们提供了一种新的思路，就是可以使用一些端到端的目标检测器来替换Transformer的目标检测器。
 此外本文还进行了一些其他优化:
  Interative Bounding Box Refinement 
  本文使用一迭代bbox的方式来优化检测精度，即每一层decoder layer会基于前一层预测的结果来精炼本层bbox的输出 
  Two-stage Deformable DETR 
  原始DETR中，object query与房钱图没有任何关联；受两阶段目标检测框架的启发，本文也建立了一种两阶段检测框架，首先通过DETR生成推荐区域，然后将推荐区域作为object query送入decoder来做进一步的精炼。
   在第一阶段，为了提高召回率，会将feature map每一个像素点进行查询；这样带来计算成本爆炸；因此本文在RP生成时移除了decoder，只是用了encoder部分；会对每一个像素点进行查询，预测一个bbox，选择得分最高的bbox作为推荐区域，然后提交给第二阶段，并不使用非极大值抑制。

Section V Experiments

Dataset 
COCO 2017数据集
 Implementation Details
  设置M=8 K=4分别对应head的数目和采样多少个key  
  Table 1展示了与Faster R-CNN,FPN和DETR之间的对比结果；可以看到DETR需要训练更多epoch才能收敛,具体收敛时间的对比按键Fig 3.
   可以看到Deformabel DETR在训练时间缩短10x的前提下精度比DETR更高，如果使用迭代精炼bbox和two-stage model，检测精度会进一步提升。 在参数量上大家都比较相近，在运行时间上比DETR-DC5提升了1.6x
   
消融实验 
Table 2是消融实验的结果，主要探究了多尺度特征图输入、多尺度注意力的计算、K的数量对精度的影响。 
多尺度特征图输入： AP 1.7%↑ 尤其对小物体有2.9%↑
 采样点K： AP 0.9% 
 多尺度注意力:1.5%↑  
 因为已经进行了特征之间的交互，因此再用FPN也不会带来性能的提升了。
  Comparison with SOTA 
  Table 3展示的是与目前SOTA的对比，以及采用不同CNN backbone性能的对比。 
  

Section VI Conclusion

Deformable DETR是一种端到端的目标检测器，大大加速了收敛时间；并且提供了新的思路，使我们能够探索使用更有趣、更实用的目标检测器的其他变体。 
 Deformable DETR的核心是多尺度可变形注意力模块，是一种有效的处理图像特征图的注意力机制。本文希望能够为探索端到端的目标检测器增添更多可能性。

Appendix

Part 1 如何构建Deformable DETR的多出度特征输入图

分别取的是ResNet C3,C4,C5和C5步长卷积后的结果，然后使用1x1卷积进行通道变换。
 

Part 2 Deformable DETR解释性分析

为了探究Deformable DETR是怎么做最终的目标检测的，本文绘制了最终检测结果对应的每一个像素点，参见Fig 5.
 梯度项可以反映输出会随着输入波动改变的大小，即可以反应预测结果是依赖哪些像素点做出的。 从可视化的结果可以看出Deformable DETR检测出的像素点决定了bbox，即检测出的相关像素点更关注于检测对象的左右边界和上下边界；同时也会根据bbox内部的像素点决定所属的类别。
 

Part 3 多尺度可变注意力的可视化

为了进一步理解多尺度注意力模块的作用，Fig 6展示了encoder和decoder最后一层的采样点和注意力权重。
 可以看到deformable DETR已经和DETR一样，可以很好的区分不同实例。但是本文decoder会更关注于前景物体，而并不只是关注物体的边界。
 我们猜测Deformable DETR不仅需要关注极端点也需要关注内部的点来决定最终的类别。
 可视化的结果还表明，多尺度注意力模块可以根据前景物体的尺度和形状来调整采样点的位置和注意力权重。 十字表示参考点，即encoder中的query point，红色颜色的深浅表示注意力权重的大小。
 

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo