Attention

番外篇 | SEAM-YOLO：引入SEAM系列注意力机制，提升遮挡小目标的检测性能

SEAM(Squeeze-and-ExcitationAttentionModule)系列注意力机制是一种高效的特征增强方法，特别适合处理遮挡和小目标检测问题。

小哥谈·2025-06-29 16:00

Transformer底层原理解析及基于pytorch的代码实现

整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项

LiRuiJie·2025-06-28 11:24

基于Transformer实现机器翻译

1.2Transfomer的基本结构1.2Transformer的重要组成部分1.2.1位置编码（PositionalEncode）1.2.2自注意力机制（Self-Attention）1.2.3多头注意力

yyyyurina.·2025-06-27 20:17

vLLM（Virtual Large Language Model）框架：一个开源的高性能推理和服务的框架

它通过创新的内存管理和调度技术（如PagedAttention）解决了传统LLM推理中的内存瓶颈和性能问题，广泛应用于对话系统、文本生成、实时翻译等场景。

彬彬侠·2025-06-27 17:54

生成1个token，需要多少KV Cache开销？

引言本文将对比使用MHA(Multi-HeadAttention)、MQA(Multi-QueryAttention)、GQA(Grouped-QueryAttention)和MLA(Multi-HeadLatentAttention

JasonLiu1919·2025-06-26 19:54

注意力机制详解：从基础到CBAM模块—含代码

注意力机制（AttentionMechanism）是一种源于人类认知行为的技术思想，模拟人类在面对大量信息时，能够自主聚焦于关键部分而忽略其他不重要信息的能力。

博导ai君·2025-06-25 23:42

预训练语言模型之：Encoder-only PLM

1.基础架构：TransformerEncoder所有模型的基石都是TransformerEncoder结构，其核心是自注意力机制：Attention(Q,K,V)=softmax(QKTdk)V\text

抱抱宝·2025-06-25 10:36

YOLO11改进|注意力机制篇|引入注意力机制Shuffle Attention

目录一、【ShuffleAttention】注意力机制1.1【ShuffleAttention】注意力介绍1.2【ShuffleAttention】核心代码二、添加【ShuffleAttention】注意力机制

如果能为勤奋颁奖·2025-06-25 00:59

一起学习swin-transformer（一）

Transform学习链接从零开始设计Transformer模型（1/2）——剥离RNN，保留Attention-CSDN博客Transformer-PyTorch实战项目——文本分类_transformer

Vertira·2025-06-24 01:14

UNet改进（5）：线性注意力机制（Linear Attention）-原理详解与代码实现

引言在计算机视觉领域，UNet架构因其在图像分割任务中的卓越表现而广受欢迎。近年来，注意力机制的引入进一步提升了UNet的性能。本文将深入分析一个结合了线性注意力机制的UNet实现，探讨其设计原理、代码实现以及在医学图像分割等任务中的应用潜力。UNet架构概述UNet最初由Ronneberger等人提出，主要用于生物医学图像分割。其独特的U形结构由编码器（下采样路径）和解码器（上采样路径）组成，通

摸鱼许可证·2025-06-24 00:37

Transformer 中 QKV 流向全解析（含注意力机制箭头图示）

在Attention机制中，我们通过Query（查询）与一组Key-Value（键-值）对计算注意力权重，然后用这些权重对Value进行加权求和，从而输出当前时刻关注上下文的结果。

Accelemate·2025-06-23 15:02

YOLOv10改进策略【Neck】| BMVC 2024 MASAG 模块（多尺度自适应空间注意门）：动态感受野与空间注意力增强多尺度目标检测精度

MASAG(Multi-ScaleAdaptiveSpatialAttentionGate)模块通过动态调制空间注意力权重与多尺度感受野，实现了对跨层级特征图中局部细节与全局语义的智能聚合。

Limiiiing·2025-06-23 13:54

【AI论文】MiniMax-M1：利用Lightning注意力机制高效扩展测试时计算

MiniMax-M1采用了混合专家（Mixture-of-Experts，MoE）架构，并结合了闪电注意力（LightningAttention）机制。

东临碣石82·2025-06-22 22:44

美元反弹压制金价：基于ARIMA-GARCH模型的汇率-黄金联动效应解构

摘要：本文采用LSTM-Attention混合模型进行价格序列特征提取，结合自然语言处理（NLP）构建政策不确定性指数（PUI），运用ARIMA-GARCH模型预测美元流动性溢价因子（DLP）变动。

金融小师妹·2025-06-22 09:16

YOLOv12改进策略【Neck】| BMVC 2024 MASAG 模块（多尺度自适应空间注意门）：动态感受野与空间注意力增强多尺度目标检测精度

MASAG(Multi-ScaleAdaptiveSpatialAttentionGate)模块通过动态调制空间注意力权重与多尺度感受野，实现了对跨层级特征图中局部细节与全局语义的智能聚合。

Limiiiing·2025-06-20 15:17

2025年大模型学习新攻略！掌握未来AI的关键技能

从零开始构建语言模型卡内基梅隆大学【多模态机器学习】RAGFromScratchHuggingFaceNLP课程2.机器学习和编程基础：pytorch官方中文教程[中英字幕]吴恩达机器学习李宏毅机器学习3.Attention

AI大模型-大飞·2025-06-19 21:09

Learning to Incorporate Structure Knowledge for Image Inpainting

LearningtoIncorporateStructureKnowledgeforImageInpaintingMotivationMethods框架：AttentionLayerStructureEmbeddingLayerPyramidStructureLossExperimentreference

yijun009·2025-06-19 21:35

agentformer论文阅读

a.map_encoderi.对地图进行CNNb.ContextEncoderi.timeencoder–将时间信息用transformer和positionemb进行融合，加入到特征中ii.agent-awareattention–self

ZHANG8023ZHEN·2025-06-19 13:08

MiniMax发布MiniMax-M1推理模型，支持100万Token上下文，降低成本。

公司以创新的MoE（混合专家）架构和闪电注意力机制（LightningAttention）技术著称，先后推出支持200K上下文长度的abab6.5模型和全球首个开源混合架构推理模型MiniMax-M125

我的学校你进不来·2025-06-17 20:29

深入探究 Python 领域 vllm 的核心功能_副本

深入探究Python领域vLLM的核心功能：让大模型推理像高铁一样高效关键词：vLLM、大语言模型推理、PagedAttention、连续批处理、GPU优化摘要：大语言模型（LLM）的推理效率一直是工业落地的

Python编程之道·2025-06-16 22:58

32 - BiFormer模块

论文《BiFormer:VisionTransformerwithBi-LevelRoutingAttention》1、作用BiFormer旨在解决视觉Transformer在处理图像时的计算和内存效率问题

Leo Chaw·2025-06-16 18:34

研读论文《Attention Is All You Need》（15）

原文406.2ModelVariationsToevaluatetheimportanceofdifferentcomponentsoftheTransformer,wevariedourbasemodelindifferentways,measuringthechangeinperformanceonEnglish-to-Germantranslationonthedevelopmentset,

CS创新实验室·2025-06-16 15:39

29 - ResNeSt模块

论文《ResNeSt:Split-AttentionNetworks》1、作用ResNeSt提出了一种新的模块化分裂注意力（Split-Attention）块，通过在特征图组间实现注意力机制。

Leo Chaw·2025-06-16 02:45

17 - ExternalAttention模块

论文《BeyondSelf-attention:ExternalAttentionusingTwoLinearLayersforVisualTasks》1、作用本文提出了一种新颖的注意力机制——外部注意力

Leo Chaw·2025-06-16 02:45

28 - ShuffleAttention模块

论文《SA-NET:SHUFFLEATTENTIONFORDEEPCONVOLUTIONALNEURALNETWORKS》1、作用SA模块主要用于增强深度卷积网络在处理图像分类、对象检测和实例分割等任务时的性能

Leo Chaw·2025-06-15 22:47

深刻理解深度学习的注意力机制Attention

Attention解释简单来说，Attention（注意力机制）是一种让模型自动“关注”重要信息、忽略不重要内容的机制，就像人们在阅读一段话时会本能地关注关键字。

勤奋的知更鸟·2025-06-14 14:13

speculative decoding: SpecInfer

speculativedecodinglookhead机制一、SpecInfer提出前的一些问题串行依赖：传统自回归解码必须逐token生成，GPU利用率不足30%内存墙：KV缓存占用显存，长文本场景下并发请求数锐减现有方案（如vLLM的PagedAttention

Jay Kay·2025-06-14 12:29

YOLOv12全栈开发手册：从算法研发到商业落地的完整技术闭环

YOLOv12混合维度注意力机制详解1.1跨维度注意力模块实现classHybridAttention(nn.Module):def__init__(self,channels):super().

全息架构师·2025-06-13 22:34

缩放点积模型：如何巧妙化解Softmax梯度消失难题？

在Transformer模型中，缩放点积注意力（ScaledDot-ProductAttention）通过一个看似简单的操作——除以维度的平方根——解决了Softmax梯度消失的核心问题。

摘取一颗天上星️·2025-06-13 14:05

bisenet, senet记录

【CV中的Attention机制】BiSeNet中的FFM模块与ARM模块_pprp的博客-CSDN博客SENet详解_AI人工智能与大数据-CSDN博客

若曦爹·2025-06-12 21:00

Flux 中的 cross-attention / mm-attention / joint-attention 详解，附代码和图片参考

【扩散模型（七）】StableDiffusion3diffusers源码详解2-DiT与MMDiT相关代码（上）【扩散模型（八）】StableDiffusion3diffusers源码详解2-DiT与MMDiT相关代码（下）【整流模型（一）/扩散模型（十一）】SD1.5/SDXL/SD3/Flux整体区别梳理汇总，扩散与整流（RectifiedFlow）的区别在之前的文章中介绍过Flux的两种Di

多恩Stone·2025-06-12 02:52

【Flux 中的 attention】缩放点积注意力机制的具体实现

defscaled_dot_product_attention(query,key,value,attn_mask=None,dropout_p=0.0,is_causal=False,scale=None

多恩Stone·2025-06-12 02:22

python打卡第49天

现在，我们进一步探讨一种更强大的注意力机制：CBAM（ConvolutionalBlockAttentionModule）。CBAM的核心目标与价值CBAM是一种轻量级、可即插

zdy1263574688·2025-06-11 21:19

python打卡第46天

注意力机制（AttentionMechanism）的核心思想是模拟人类的认知过程：让模型学会“有选择地聚焦”输入信息中的关键部分，同时抑制次要或无关信息。

zdy1263574688·2025-06-11 21:49

python打卡第47天

昨天代码中注意力热图的部分顺移至今天知识点回顾：热力图作业：对比不同卷积层热图可视化的结果defvisualize_attention_map(model,test_loader,device,class_names

zdy1263574688·2025-06-11 21:49

（十）量子注意力机制：深度学习与量子计算的交叉融合探索

1注意力机制的基本概念注意力机制（AttentionMechanism）是一种允许模型在处理输入序列时动态关注不同部分的机制。它通过计算输入序列中各个位置的重要性权重，使模型能够更好地捕捉关键信息。

只有左边一个小酒窝·2025-06-11 21:15

6.11打卡

空间注意力模块3.CBAM的定义作业：尝试对今天的模型检查参数数目，并用tensorboard查看训练过程importtorchimporttorch.nnasnn#定义通道注意力classChannelAttention

丁值心·2025-06-11 16:40

Python训练营打卡Day49(2025.6.9）

知识点回顾：通道注意力模块复习空间注意力模块CBAM的定义importtorchimporttorch.nnasnn#定义通道注意力classChannelAttention(nn.Module):def

2301_80505456·2025-06-10 16:14

DAY 49 CBAM注意力

通道注意力模块复习空间注意力模块CBAM的定义作业：尝试对今天的模型检查参数数目，并用tensorboard查看训练过程importtorchimporttorch.nnasnn#定义通道注意力classChannelAttention

MasterLLL0228·2025-06-10 13:25

神经网络学习-神经网络简介【Transformer、pytorch、Attention介绍与区别】

神经网络学习笔记本笔记总结了神经网络基础理论、常见模型结构、优化方法以及PyTorch实践，适用于初学者和进阶者查阅学习。一、神经网络基础1.神经元模型神经元通过输入加权求和后激活：y=f(∑i=1nwixi+b)y=f\left(\sum_{i=1}^{n}w_ix_i+b\right)y=f(i=1∑nwixi+b)xix_ixi：输入wiw_iwi：权重bbb：偏置fff：激活函数，如ReL

Crabfishhhhh·2025-06-10 06:39

【Block总结】DCAFE，并行双坐标注意力机制，增强长程依赖与抗噪性|即插即用

论文信息标题：Flora-NET:Integratingdualcoordinateattentionwithadaptivekernelbasedconvolutionnetworkformedicinalfloweridentification

AI浩·2025-06-10 06:06

【Block总结】掩码窗口自注意力 (M-WSA)

2404.07846论文标题：Transformer-BasedBlind-SpotNetworkforSelf-SupervisedImageDenoisingMaskedWindow-BasedSelf-Attention

AI浩·2025-06-09 14:45

神经网络-Day46

什么是注意力二、特征图的提取2.1简单CNN的训练2.2特征图可视化三、通道注意力3.1通道注意力的定义3.2模型的重新定义（通道注意力的插入）一、什么是注意力注意力机制，本质从onehot-elmo-selfattention-encoder-bert

红衣小蛇妖·2025-06-09 04:02

ResNet改进(51)：基于轴向注意力机制的改进ResNet模型

本文将详细解析一个结合了轴向注意力(AxialAttention)机制的改进ResNet模型，展示如何通过注意力机制增强传统CNN的性能。

点我头像干啥·2025-06-08 20:37

简单transformer运用

它主要通过Transformer模型（尤其是自注意力机制，Self-Attention）来实现分类，并提供了训练和推理代码。以下我会详细讲解文件的结构，重点教你如

D11PMINDER·2025-06-08 06:59

BERT, GPT, Transformer之间的关系

Transformer就像一个超级翻译助手，它用“自注意力机制”（Attention）一次处理所有词，快速找出重要联系，比老式的翻译机（RNN）更快更聪明。

D11PMINDER·2025-06-08 05:24

FlashAttention：高效注意力计算的核心机制详解《一》

FlashAttention：高效注意力计算的核心机制详解一、什么是FlashAttention？

要努力啊啊啊·2025-06-08 00:49

python打卡训练营打卡记录day47

知识点回顾：热力图作业：对比不同卷积层热图可视化的结果承接昨天模型重新定义部分的代码#可视化空间注意力热力图（显示模型关注的图像区域）defvisualize_attention_map(model,test_loader

yorushika_·2025-06-08 00:14

LLaMA-Factory环境安装-重点总结

只不过，在需要推理加速时，UI界面上，给出的选项所支持的FlashAttention-2和Unsloth，不好实现。

丁兆海1991·2025-06-07 12:01

研读论文《Attention Is All You Need》（13）

原文325TrainingThissectiondescribesthetrainingregimeforourmodels.5.1TrainingDataandBatchingWetrainedonthestandardWMT2014English-Germandatasetconsistingofabout4.5millionsentencepairs.Sentenceswereencoded

CS创新实验室·2025-06-07 10:48

推荐频道