CV一闪一闪亮晶晶

DETR系列：RT-DETR（一）论文解析

论文：《DETRs Beat YOLOs on Real-time Object Detection》 2023.4

DETRs Beat YOLOs on Real-time Object Detection：https://arxiv.org/pdf/2304.08069.pdf

源码地址：https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/rtdetr

本文是RT0-DETR的论文解析，详细部署请查看DETR系列：RT-DETR实战部署

RT-DETR

1.目标检测算法发展
2.概述
3.NMS分析
4.RT-DETR模型结构
5.性能对比
6.参考资料

1.目标检测算法发展

第一行是YOLO系列算法的发展过程，第二行是DETR系列算法的发展过程。

2.概述

实时目标检测(Real-Time Object Detection )过去一直由 YOLO 系列模型主导。YOLO 检测器有个较大的待改进点是需要 NMS 后处理，其通常难以优化且不够鲁棒，因此检测器的速度存在延迟。

2020年DETR算法诞生，Detr是第一个基于transformer的端到端算法，没有anchor前处理和NMS后处理，但是Detr收敛慢，训练慢，推理也慢，尽管后续的优化算法不断加快收敛速度，提升推理速度，但仍然无法实现实时要求。

RT-DETR基于DINO检测模型进行改进，首次实现实时端到端检测。
本文的主要贡献总结如下：

本文的主要贡献总结如下

提出了第一个实时端到端对象检测器，它不仅在精度和速度方面优于当前的实时检测器，也不需要后期处理，因此它的推理速度没有延迟并且能够保持稳定。
本文详细分析了NMS对实时检测器的影响，并从后处理的角度得出了基于CNN的实时检测器的结论（即同等精度情况下，anchor-based算法速度比anchor-free的算法慢）。
本文提出的IoU-Aware query选择在我们的模型中显示出优越的性能改进，这为改进目标查询的初始化方案提供了新的思路。
本文的工作为端到端检测器的实时实现提供了一个可行的解决方案，并且所提出的检测器可以通过使用不同的解码器层来灵活地调整模型大小和推理速度，而不需要重新训练。

3.NMS分析

NMS在目标检测后处理中应用广泛，主要用来去除重叠的冗余框。NMS有2个超参数：分数阈值和IOU阈值，尤其是，分数低于阈值的检测框不论IOU阈值多大，都会被过滤，因此NMS的执行事件取决于输入的预测框数量，以及2个超参数的值。

本文利用YOLOv5和YOLOv8进行实验。首先输入相同图像，计算不同得分阈值过滤后剩余的预测框数量。分数阈值采样区间是0.001到0.25，对两个检测器的剩余预测框进行计数，并将其绘制成直方图，直观地反映了NMS易受其超参数的影响。此外，本文以YOLOv8为例，在COCO val2017数据集上评估不同NMS超参数下的模型准确性和NMS操作的执行时间，运行设备是GPU T4

从上面图2可以看出，随着分数阈值增大，剩余预测框的数量减少，对于同一个分数阈值，YOLOv5 (anchorbased)剩余框的数量大于YOLOv8 (anchor-free)。从表1可以看出，不同的阈值下推理时间和AP均会变化，超参数会影响算法性能，导致算法不够鲁棒。

4.RT-DETR模型结构

1）Backbone：采用了经典的ResNet(便于和detr系列算法对比)和百度的HGNet-v2（速度精度由于前者）两种，backbone是可以Scaled，论文只公布ResNet-50和ResNet-101，HGNetv2-l和HGNetv2-x。不同于DINO等DETR类检测器使用最后4个stage输出，RT-DETR为了提速只需要最后3个，下面介绍一下HGNet网络。

PP-HGNet 针对 GPU 设备，对目前 GPU 友好的网络做了分析和归纳，尽可能多的使用 3x3 标准卷积（计算密度最高）。将主要的有利于 GPU 推理的改进点进行融合，从而得到一个有利于 GPU 推理的骨干网络，同样速度下，精度大幅超越其他 CNN 或者 VisionTransformer 模型。

PP-HGNet 骨干网络的整体结构如下：

PP-HGNet是由多个HG-Block组成，HG-Block的细节如下：

PP-HGNet的整体结构由一个Stem模块+四个HG Stage构成，PP-HGNet 的第一层由channel为96的Stem模块构成，目的是为了减少参数量和计算量。stem由一系列ConvBNAct（Conv+BN+Act，添加了use_lab结构，类似于resnet的分支残差），第二层到第五层由HG Stage构成，每个HG Stage主要由包含大量标准卷积的HG Block，其中PP-HGNet的第三到第五层使用了使用了可学习的下采样层（LDS Layer）。其中，可学习的下采样层（Learnable Down-Sampling Layer）是指通过学习参数来进行下采样的一种层次结构。在传统的下采样方法中（如最大池Max Pooling），下采样的过程是固定的，没有可学习的参数。而可学习的下采样层则可以根据输入数据的特征进行动态的下采样，从而提高网络的性能和准确率。PP-HGNet的激活函数为Relu，常数级操作可保证该模型在硬件上的推理速度。

2）Neck：如上图所示，本文提出HybridEncoder，包括两部分：Attention-based Intra-scale Feature Interaction (AIFI) 和 CNN-based Cross-scale Feature-fusion Module (CCFM) 。AIFI只采用了一层普通的Transformer的Encoder，包含标准的MHSA（或者Deformable Attention）和FFN，将二维的s5 特征拉成向量，然后交给AIFI模块处理，随后，再将输出调整回二维，记作 f5 ，以便去完成后续的跨尺度特征融合CCFM。AIFI由几个通道维度区分L和X两个版本，配合CCFM中RepBlock数量一起调节宽度深度实现Scaled RT-DETR。

本文通过一系列实验得出HybridEncoder的设计思路，具体如下图

(a) : 将s3 、 s4 和 s5拼接在一起，不包含Encoder的，即没有自注意力机制，在Backbone之后直接接Decoder去做处理，得到最终的输出。注意，这里的拼接是先将二维的 H×W 拉平成 HW ，然后再去拼接： H1W1+ H2W2+ H3W3 。表3中(a)取得43.0 AP的结果。

(b) ：在(a)基础上，加入了单尺度的Transformer Encoder（SSE），仅包含一层Encoder层，分别处理三个尺度的输出，这里三个尺度共享一个SSE，而不是为每一个尺度都设计一个独立的SSE，理论上共享SSE优于独立SSE，因为通过这一共享的操作，三个尺度的信息是可以实现一定程度的信息交互。最后将处理结果拼接在一起，交给后续的网络去处理，得到最终的输出。表3中(b)从43.0提升至44.9，表明使用共享的SSE是可以提升性能的。

© : 使用多尺度的Transformer Encoder（MSE），将三个尺度的特征拼接在一起后，交由MSE来做处理，使得三个尺度的特征同时完成“尺度内”和“跨尺度”的信息交互和融合，最后将处理结果，交给后续的网络去处理，得到最终的输出。C使用MSE来同步完成“尺度内”和“跨尺度”的特征融合，这一做法可以让不同尺度的特征之间得到更好的交互和融合，表3中©AP指标提升至45.6，这表明MSE的做法是有效的，即“尺度内”和“跨尺度”的特征融合是必要的。但是，从速度的角度来看，Latency从7.2增加值13.3 ms，要高于B组的11.1 ms；

(d) : 先用共享的SSE分别处理每个尺度的特征，然后再使用PAN-like的特征金字塔网络去融合三个尺度的特征，最后将融合后的多尺度特征拼接在一起，交给后续的网络去处理，得到最终的输出。d是相当于解耦了c中的MSE：先使用共享的SSE分别去处理每个尺度的特征，完成“尺度内”的信息交互，然后再用一个PAN风格的跨尺度融合网络去融合不同尺度之间的特征，完成“跨尺度”的信息融合。这种做法可以有效地避免MSE中因输入的序列过长而导致的计算量增加的问题。相较于c，表3中(d)的Latency从13.3 ms降低至12.2 ms，性能也从45.6 AP提升至46.4 AP，这表明MSE的做法并不是最优的，先处理“尺度内”，再完成“跨尺度”，性能会更好；

(DS5) ：用一个SSE只处理 s5 特征，随后的跨尺度特征融合和D保持一致。DS5的做法必然会提高推理速度，表3中(DS5)Latency从12.2 ms降低至7.9 ms，同时，性能从46.4提升至46.8。由此可见，Transformer的Encoder只需要处理 s5 特征即可，不需要再加入浅层特征的信息。

(e) ：使用一个SSE处理 s5 特征，即所谓的AIFI模块，随后再使用CCFM模块去完成跨尺度的特征融合，最后将融合后的多尺度特征拼接在一起，交给后续的网络去处理，得到最终的输出。CCFM其实还是PaFPN，其中的Fusion模块就是一个CSPBlock风格的模块，如下图所示

上述实验可以看出：1）以往的DETR，如Deformable DETR是将多尺度的特征都拉平成拼接在其中，构成一个序列很长的向量，尽管这可以使得多尺度之间的特征进行充分的交互，但也会造成极大的计算量和计算耗时。并且相较于较浅的s3特征和s4 特征，s5 特征拥有更深、更高级、更丰富的语义特征，这些语义特征是Transformer更加感兴趣的和需要的，对于区分不同物体的特征是更加有用的，而浅层特征因缺少较好的语义特征而起不到什么作用。实验结果也证明，Transformer的Encoder部分只需要处理s5的特征，既能大幅度削减计算量、提升计算速度，同时也不会降低性能，甚至还有所提升；2）对于多尺度特征的交互和融合，我们仍可以采用CNN架构常用的PAN网络来搭建，只需要一些细节上的调整即可。

3）Transformer：起名为RTDETRTransformer，基于DINO Transformer中的decoder改动的不多；

4）Head和Loss：和DINOHead基本一样，使用到了DINO的“去噪思想”来提升匹配的样本质量，加快训练的收敛速度。不过，有一个细节上的调整，那就是在assignment阶段和计算loss的阶段，classification的标签都换成了IoU-Aware查询选择，将IoU分数引入分类分支的目标函数，以实现对正样本分类和定位的一致性约束。因为按照以往情况，有可能出现“当定位还不够准确的时候，类别就已经先学好了”的“未对齐”的情况，毕竟类别的标签非0即1。但如果将预测框与GT的IoU作为类别预测的标签，那么类别的学习就要受到回归的调制，只有当回归学得也足够好的时候，类别才会学得足够好，否则，类别不会过快地先学得比回归好，因此后者显式地制约着前者。

5）Reader和训练策略:
训练测试数据：本文在COCO train2017数据集上训练，在COCO val2017数据集验证，使用单尺度图像在COCO AP矩阵验证。Reader采用的是YOLO常用的640尺度，没有DETR类检测器复杂的多尺度resize。
网络：使用ImageNet上预训练的ResNet和HGNetv2系列作为骨干网络。AIFI由1层transformer 构成，CCMF由3个RepBlocks构成。在IoU-aware查询选择中，使用encoder的top 300特征来初始化decoder的query。训练的策略和decoder的超参数与DINO一致。用AdamW优化器训练，其他参数配置为base learning rate = 0:0001,weight decay = 0:0001, global gradient clip norm =0:0001, and linear warmup steps = 2000. ema decay = 0:9999.骨干网络学习率同detr。数据增强采用的是基础的随机颜色抖动、随机翻转、裁剪和 Resize，0均值1方差的NormalizeImage大概是为了节省部署时图片前处理的耗时，没有用mosaic等trick。默认在 COCO train2017 上训练 6x ，即72个epoch。

6）模型详情：

如上图所示，本文提供ResNet、HGNetv2系列2个版本。使用depth multiplier和width multiplier将Backbone和混合编码器一起缩放。因此，得到了具有不同数量的参数和FPS的RT-DETR的两个版本。对于混合编码器，通过分别调整CCFM中RepBlock的数量和编码器的嵌入维度来控制depth multiplier和width multiplier。值得注意的是，提出的不同规模的RT-DETR保持了同质解码器，这有助于使用高精度大型DETR模型对光检测器进行蒸馏。

5.性能对比

yolo系列精度对比

相同尺度的版本下，RT-DETR速度和精度都超过yolo系列，在 COCO val2017 上的精度为 53.0% AP ，在 T4 GPU 上的 FPS 为 114，RT-DETR-X 的精度为 54.8% AP，FPS 为 74。
并且RT-DETR只训练72个epoch，而先前精度最高的YOLOv8需要训练500个epoch，其他YOLO也基本都需要训300epoch。此外RT-DETR的HGNET版本参数量FLOPs也低于yolo系列。
对比DETR系列

RT-DETR-R50 在 COCO val2017 上的精度为 53.1% AP，在 T4 GPU 上的 FPS 为 108，RT-DETR-R101 的精度为 54.3% AP，FPS 为 74。总结来说，RT-DETR 比具有相同 backbone 的 DETR 系列检测器有比较显著的精度提升和速度提升。DETR类在COCO上常用的尺度都是800x1333，而RT-DETR采用640x640尺度，精度也能高于之前的DETR系列模型。

6.参考资料

https://blog.csdn.net/PaddlePaddle/article/details/130355297

https://zhuanlan.zhihu.com/p/626659049

大语言模型引擎全解析：Transformers、vLLM、Llama.cpp等，最佳选择全攻略！大模型入门教程语言模型 llama 人工智能 DeepSeek prompt AI大模型大模型
近年来，大语言模型（LLMs）如GPT、LLaMA、BERT等已经成为人工智能领域的核心驱动力。然而，如何高效地运行和优化这些模型，成为了开发者和研究者面临的重要挑战。为此，一系列专为大语言模型设计的引擎应运而生。本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama这些引擎，帮助你找到最适合的工具，释放大语言模型的全部潜力！作为技术人员，不仅
用OpenCV写个视频播放器可还行？（C++版）程序员Linc OpenCV opencv 音视频 c++opencv 4.11
引言提到OpenCV，大家首先想到的可能是图像处理、目标检测，但你是否想过——用OpenCV实现一个带进度条、倍速播放、暂停功能的视频播放器？本文将通过一个实战项目，带你深入掌握OpenCV的视频处理能力，并解锁以下功能：基础播放/暂停动态倍速调节（0.5x~4x）交互式进度条实时时间戳显示文末提供完整代码，可直接运行！一、环境准备安装OpenCV请参考其他博客，C++版本的OpenCV安装，每个
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
RoPE——Transformer 的旋转位置编码机智的小神仙儿深度学习大模型 transformer 深度学习人工智能
在自然语言处理领域，Transformer是现代深度学习模型的基础，而位置编码（PositionEmbedding）则是Transformer处理序列数据的关键模块之一。近年来，一种新型的位置编码方法RoPE（RotaryPositionEmbedding）得到了广泛关注。本文将全面解读RoPE的背景、原理、实现、优势及其应用场景，帮助读者深入理解这一方法。1.什么是RoPE？RoPE（Rotar
构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类 Jackie_AI transformer 分类深度学习
构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer，简称ViT）网络架构的部分代码。下面我将提供完整的VitNet类以及相关的辅助函数和训练流程示例代码。计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码
【Transformer优化】Transformer的局限在哪？ T-I-M transformer 深度学习人工智能
自2017年Transformer横空出世以来，它几乎重写了自然语言处理的规则。但当我们在享受其惊人的并行计算能力和表征能力时，是否真正理解了它的局限性？本文将深入探讨在复杂度之外被忽视的五大核心缺陷，并试图在数学维度揭示其本质。一、全局注意力的"诅咒"：从**O(n²)**到O(n³)的计算困境自注意力机制的数学表达式：Attention(Q,K,V)=softmax(QK⊤dk)V\text{
YOLOv7-Tiny：轻量化实时目标检测的革新实践追寻向上 YOLO 目标检测人工智能
一、模型定位与核心优势YOLOv7-Tiny作为YOLOv7系列的轻量级版本，专为边缘计算设备和实时检测场景设计。相比标准YOLOv7，其参数量减少约60%（仅6.02M），计算量降至13.2GFLOPs，在保持较高检测精度的同时，推理速度提升至68FPS（NVIDIAV100）。该模型适用于无人机、嵌入式设备、移动端等资源受限场景，在实时性与精度之间实现了极佳平衡。二、模型架构创新主干网络优化深
AIGC实战——Transformer模型盼小辉丶 AIGC transformer 深度学习
AIGC实战——Transformer模型0.前言1.T52.GPT-3和GPT-43.ChatGPT小结系列链接0.前言我们在GPT(GenerativePre-trainedTransformer)一节所构建的GPT模型是一个解码器Transformer，它逐字符地生成文本字符串，并使用因果掩码只关注输入字符串中的前一个单词。另一些编码器Transformer，不使用因果掩码，而是关注整个输入
2022IJCAI速读：SparseTT，使用稀疏Transformers进行视觉跟踪夜深人静打代码目标检测跟踪论文速读专栏视觉跟踪计算机视觉目标检测人工智能
原文标题：SparseTT:VisualTrackingwithSparseTransformers中文标题：SparseTT：使用稀疏Transformers进行视觉跟踪代码地址：GitHub-fzh0917/SparseTT:Theofficialimplementationforpaper"SparseTT:VisualTrackingwithSparseTransformers"具体见：2
了解目标检测：两阶段检测（Two-Stage Detection）、单阶段检测（Single-Stage Detection）和区域建议网络（RPN） fydw_715 深度学习基础目标检测网络目标跟踪
了解目标检测：两阶段检测（Two-StageDetection）、单阶段检测（Single-StageDetection）和区域建议网络（RPN）在目标检测领域，模型架构在很大程度上决定了模型的性能、速度和应用场景。本文将详细探讨两类主要的目标检测方法——两阶段检测（Two-StageDetection）和单阶段检测（Single-StageDetection），以及它们的核心组件之一：区域建议网
Transformer 工作原理图文详解和实践：在生成式对话系统中的核心技术剖析 AI天才研究院 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
https://www.youtube.com/watch?v=wjZofJX0v4M&t=33sTransformer在生成式对话系统中的核心技术剖析作者：禅与计算机程序设计艺术文章目录Transformer在生成式对话系统中的核心技术剖析1.背景介绍2.核心概念与联系2.1生成式对话系统2.2Transformer模型3.核心算法原理和具体操作步骤3.1Transformer编码器3.2Tra
搜广推校招面经三十八 Y1nhl 搜广推面经算法 pytorch 推荐算法搜索算法机器学习
字节推荐算法一、场景题：在抖音场景下为用户推荐广告词，吸引用户点击搜索，呈现广告这一流程的关键点以及可能遇到的困难。二、Transformer中对梯度消失或者梯度爆炸的处理在Transformer模型中，梯度消失和梯度爆炸是深度学习中常见的问题，尤其是在处理长序列数据时。为了克服这些问题，Transformer采用了一系列技术：2.1.残差连接（ResidualConnections）每个子层（包
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
2025最新Transformer模型及深度学习前沿技术应用 weixin_贾 Python MATLAB python 深度学习 MATLAB编程深度学习模型图神经网络自编码物理信息神经网络目标检测大语言模型
第一章、注意力（Attention）机制1、注意力机制的背景和动机（为什么需要注意力机制？注意力机制的起源和发展里程碑）。2、注意力机制的基本原理（什么是注意力机制？注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重？）3、注意力机制的主要类型：键值对注意力机制（Key-ValueAttention）、自注意力（Self-Attention）与多头注意
深度解析SSD2351核心板：硬核视频处理+工业级可靠性设计明远智睿嵌入式方案商 arm开发嵌入式硬件人工智能机器人
明远智睿SSD2351核心板基于SigmaStarSSD2351芯片打造，专为高可靠性工业场景设计，其硬件配置与接口能力充分满足复杂环境下的多模态数据处理需求。芯片技术细节：视频处理能力：IVE引擎支持高斯滤波、膨胀/腐蚀等图像预处理；IPU支持人脸识别、运动检测及Transformer网络推理；显示接口支持MIPIDSI2560x1600@60fps，适配工业HMI大屏。音频处理：3通道ADC（
基于Flask和VUE的YOLOv5目标检测模型部署薄泳蕙Howard
基于Flask和VUE的YOLOv5目标检测模型部署基于Flask和VUE的YOLOv5目标检测模型部署本资源文件提供了一个基于Flask开发后端、VUE开发前端框架的完整项目，用于在WEB端部署YOLOv5目标检测模型。通过本项目，您可以轻松地将YOLOv5模型集成到您的WEB应用中，实现目标检测功能项目地址:https://gitcode.com/open-source-toolkit/20e
基于Flask和VUE的YOLOv5目标检测模型部署：轻松实现WEB端目标检测咎尉裕Lilah
基于Flask和VUE的YOLOv5目标检测模型部署：轻松实现WEB端目标检测【下载地址】Yolov5-Flask-VUE基于Flask和VUE的YOLOv5目标检测模型部署本项目提供了一个基于Flask开发后端、VUE开发前端的框架，用于在WEB端部署YOLOv5目标检测模型。通过本项目，您可以轻松地将YOLOv5模型集成到您的WEB应用中，实现目标检测功能项目地址:https://gitcod
PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶凡人的AI工具箱深度学习 pytorch 学习人工智能 python AI编程
PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶在深度学习处理序列数据时，循环神经网络(RNN)家族的模型扮演着至关重要的角色。今天，我们将深入探讨循环神经网络的进阶内容，包括BiLSTM的工作机制、注意力机制的数学原理，以及Transformer编码层的实现。目录BiLSTM的双向信息流机制LSTM回顾BiLSTM架构解析时序特征融合策略BiLSTM实现与案例注意力机制原理
1.6 从 GPT-1 到 GPT-3.5：一路的风云变幻少林码僧 AI大模型应用实战专栏 gpt gpt-3
从GPT-1到GPT-3.5：一路的风云变幻人工智能的进步一直是科技领域的一个重要话题，而在自然语言处理（NLP）领域，GPT（GenerativePre-trainedTransformer）系列模型的发布，标志着一个又一个技术突破。从2018年发布的GPT-1到2022年推出的GPT-3.5，OpenAI的每一次更新都在推动着人工智能的发展，改变了我们与计算机互动的方式。本文将带你一起回顾GP
使用 DeepSeek 训练属于自己写小说的模型 xinxiyinhe DeepSeek 人工智能 python
如果你想使用DeepSeek训练一个专门用于写小说的模型，以下是详细的指导指南。DeepSeek是一个强大的深度学习框架，支持自然语言处理任务。我们将基于DeepSeek的API和工具，结合HuggingFace的Transformers库，完成模型的训练和部署。详细指南：使用DeepSeek训练写小说模型1.环境准备1.1安装必要的库确保你已经安装了以下Python库：pipinstalltor
Qwen1.5-7B-实现RAG应用详细步骤大数据追光猿大模型数据库 AI编程语言模型人工智能深度学习
1.准备工作1.1安装依赖确保你的环境中安装了以下工具和库：Python：建议使用Python3.8或更高版本。PyTorch：用于运行深度学习模型。Transformers：HuggingFace提供的库，支持加载和运行预训练模型。FAISS：用于向量检索的高效库。GPTQ支持库：如auto-gptq或gptqmodel。安装命令运行以下命令安装所需的Python包：pipinstalltorc
深度学习篇---Opencv中的机器学习和深度学习 Ronin-Lotus 深度学习篇图像处理篇深度学习 opencv 机器学习 python
文章目录前言一、OpenCV中的机器学习1.概述2.使用步骤步骤1：准备数据步骤2：创建模型步骤3：训练模型步骤4：预测3.优点简单易用轻量级实时性4.缺点特征依赖性能有限二、OpenCV中的深度学习1.概述图像分类（如ResNet、MobileNet）目标检测（如YOLO、SSD）语义分割（如DeepLab）人脸检测（如OpenFace）2.使用步骤步骤1：加载模型步骤2：准备输入数据步骤3：推
论文阅读：Recipe for a General, Powerful, Scalable Graph Transformer 不会&编程图神经网络论文阅读论文阅读 transformer 深度学习图神经网络人工智能
RecipeforaGeneral,Powerful,ScalableGraphTransformer论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN+Transformer的混合模型GraphTransformer)论文和代码地址论文地址：https://arxiv.org/pdf/2205.12454v4代码地址：https://git
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
YOLOv12改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA，轻量化注意力模块提高模型效率（二次改进A2C2f） Limiiiing YOLOv12改进专栏 YOLOv12 计算机视觉深度学习目标检测
一、本文介绍本文记录的是基于MobileMQA模块的YOLOv12目标检测改进方法研究。MobileNetv4中的MobileMQA模块是用于模型加速，减少内存访问的模块，相比其他全局的自注意力，其不仅加强了模型对全局信息的关注，同时也显著提高了模型效率。文章目录一、本文介绍二、MobileMQA注意力原理三、MobileMQA的实现代码四、创新模块4.1改进点⭐五、添加步骤5.1修改一5.2修改
自然语言处理（NLP）领域大语言模型学习目录大全彬彬侠大模型自然语言处理 NLP 大模型 LLM GPT BERT GLM
本文主要收集了自然语言处理（NLP）领域的大语言模型，可以可以通过点击标题链接查看具体的详情。GPT系列GPT-1（GenerativePre-trainedTransformer1）模型GPT-1（GenerativePre-trainedTransformer1）是OpenAI在2018年6月提出的第一代GPT模型，也是第一个基于Transformer结构的自回归（Autoregressive
目标检测YOLO实战应用案例100讲-TDI线阵相机林聪木数码相机计算机视觉人工智能
目录知识储备图像基础知识分辨率单位及换算算法原理一、TDI基本原理二、信噪比提升机制三、时间同步机制四、TDIvs传统线扫描技术五、TDI的技术挑战六、最新的TDI技术发展知识储备图像基础知识首先什么是机器视觉？计算机视觉就是让计算机去理解获取数字图像与视频中的信息。最终实现一个与人类视觉系统实现相同功能的自动化系统。什么是机器视觉中的图像的前置知识——颜色模型？最为常用的颜色模型，分别是RGB颜
深入浅出的理解deepseek类大模型（附运行代码） AI人工智能时代人工智能 transformer 机器人深度学习
我们把Qwen2模型想象成一个非常聪明的“阅读理解专家”。这个专家，就像我们人类一样，需要先“看”到文字，然后才能理解文字的意思，最后才能回答问题或者生成新的文字。深入理解之运行代码：fromtransformers.models.qwen2importQwen2Config,Qwen2Modelimporttorchdefrun_qwen2():#根据模型需求配置参数，构造Qwen2模型的配置对
深度解构：DeepSeek大模型架构与前沿应用的未来探秘威哥说编程架构 ai
随着人工智能（AI）领域的快速发展，深度学习模型逐渐向着更加复杂和强大的方向演进。在这一波技术浪潮中，DeepSeek大模型作为一个重要代表，凭借其卓越的表现和广泛的应用，正在重新定义我们对AI的认知和期待。本篇文章将从架构到应用，全面解析DeepSeek大模型的技术特点，探索其在未来可能带来的创新与变革。1.DeepSeek大模型的架构设计DeepSeek大模型采用的是基于Transformer
【YOLOv12改进trick】StarBlock引入YOLOv12，创新涨点优化，含创新点Python代码，方便发论文 zy_destiny YOLOv12及改进优化创新人工智能深度学习机器学习 YOLO 神经网络开发语言 python
改进模块：StarBlock解决问题：采用StarBlock将输入数据映射到一个极高维的非线性特征空间,生成丰富的特征表示，使得模型在处理复杂数据时更加有效。改进优势：简单粗暴的星型乘法涨点却很明显适用场景：目标检测、语义分割、自然语言处理等多种场景高效紧凑的模型，不适用于大模型思路来源：CVPR2024《RewritetheStars》目录1.设计动机2.启发来源3.将StarBlock引入YO
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

DETR系列：RT-DETR（一） 论文解析