分组查询注意力

【深度学习】Self-Attention机制详解：Transformer的核心引擎

Self-Attention的数学原理1.计算查询(Query)、键(Key)和值(Value)2.计算注意力分数3.缩放并应用Softmax4.加权求和多头注意力(Mu

烟锁池塘柳0·2025-03-26 19:05

Pytorch实现之结合SE注意力和多种损失的特征金字塔架构GAN的图像去模糊方法

在模型架构中还融合了通道注意力方法来提高训练能力。作者在生成器中采用了三种常见的损失计算，在鉴别器中结合了最小二乘和相对论损失来改善模型训练。

这张生成的图像能检测吗·2025-03-26 17:21

YOLOv11改进 | 注意力篇 | YOLOv11引入24年ECCV的自调制特征聚合注意力模块(SMFA)，并构建C2PSA_SMFA

1.SMFA介绍1.1摘要：基于Transformer的图像复原方法由于Transformer的自注意（self-attention，SA）特性能够更好地挖掘非局部信息，从而获得更好的高分辨率图像重建效果，因此具有重要的应用价值。然而，关键点积SA需要大量的计算资源，这限制了其在低功耗器件中的应用。此外，模拟退火机制的低通特性限制了其捕获局部细节的能力，从而导致平滑的重建结果。针对该问题，该文提出

小李学AI·2025-03-26 06:54

YOLO11改进-注意力-引入自调制特征聚合模块SMFA

本篇文章将介绍一个新的改进机制——SMFA（自调制特征聚合模块），并阐述如何将其应用于YOLOv11中，显著提升模型性能。随着深度学习在计算机视觉中的不断进展，目标检测任务也在快速发展。YOLO系列模型（YouOnlyLookOnce）一直因其高效和快速而备受关注。然而，尽管YOLOv11在检测精度和速度上有显著提升，但在处理复杂背景或需要捕捉更多局部和全局信息时，仍然面临挑战。为此，我们引入了S

一勺汤·2025-03-26 06:54

Vidu 5.0 视频生成模型深度解析

Vidu5.0视频生成模型深度解析（2025年3月）一、核心技术架构多模态动态建模基于DiT（DiffusionTransformer）架构：结合3D时空注意力机制，实现动态场景的精准建模。

Liudef06·2025-03-26 05:16

开源图生视频模型技术全景解析

一、核心架构与技术演进（一）模型基础框架多模态融合架构腾讯混元模型采用统一的全注意力机制，集成3D变分自编码器（VAE）实现图像到视频的时空特征编码。

Liudef06·2025-03-26 05:45

MATLAB 2024b深度学习工具箱新特性全面解析与DeepSeek大模型集成开发：卷积神经网络、迁移学习算法、时间卷积网络、生成式对抗网络、自编码器、目标检测YOLO模型、语义分割、注意力机制等

随着人工智能技术的飞速发展，其与多学科的交叉融合以及在工程实践领域的纵深拓展已成为时代潮流。在这一背景下，MATLAB2024b深度学习工具箱应运而生，凭借架构创新与功能强化，为科研工作者提供了一套全栈式的科研创新与行业应用解决方案，具有重要的时代意义。本教程紧密围绕该版本工具链的三大革新方向展开，致力于助力科研工作者在深度学习领域取得突破性进展。首先，构建了覆盖经典模型与前沿架构的体系化教程，从

WangYan2022·2025-03-26 03:06

在光速的边缘：MiniMax-01的算法实现与细节解析

本文将深入探讨MiniMax-01系列模型的核心算法实现，尤其是其高效的“闪电注意力”（LightningAttention）机制及其与专家混合（MixtureofExperts,MoE）架构的结合。

步子哥·2025-03-26 02:23

快速了解Transformer与循环神经网络（LSTM/RNN）的区别

长序列处理：Transformer通过自注意力直接关联任意位置，避免梯度问题；RNN/LSTM在长序列中性能下降。

Panesle·2025-03-25 23:30

PyTorch 深度学习实战（8）：Transformer 与机器翻译（基于本地中英文文本文件）

一、Transformer基础Transformer是一种基于自注意力机制（Self-Attention）的神经网络架构，由Vaswan

进取星辰·2025-03-25 18:58

AI生成Json结构化数据的几种方案

由于AI的注意力机制，AI可以在一次生成中根据上下文补全层级关系。

Dashesand·2025-03-25 04:14

数据库开发必备：深入理解DDL、DML、DQL和DCL

数据库操作2.DDL-表操作三、DML：数据操作语言1.DML-添加数据2.DML-修改数据3.DML-删除数据四、DQL：数据查询语言1.DQL-基本查询2.DQL-条件查询3.DQL-聚合函数4.DQL-分组查询

平凡程序猿~·2025-03-24 18:26

ResNet改进(11)：添加 Squeeze-and-Excitation模块和替换Mish激活函数

1.SE模块和Mish激活函数SE模块是一种通道注意力机制，旨在增强网络对重要特征通道的关注，从而提升模型的表达能力。它通过显式地建模通道之间的依赖关系，动态调整每个通道的特征响应。

点我头像干啥·2025-03-24 15:58

图神经网络实战——分层自注意力网络

图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为

盼小辉丶·2025-03-24 05:32

DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析

DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts）架构，核心公式表达为：y=∑i=1nG(x

Coderabo·2025-03-22 04:41

DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析

Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依

大势下的牛马·2025-03-22 00:58

【深度学习】DeepSeek模型介绍与部署

为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。

Nerous_·2025-03-21 19:15

【nnUnetv2】Code复现

作者提出一种nnUNet（no-new-Net）框架，基于原始的UNet（很小的修改），不去采用哪些新的结构，如相残差连接、dense连接、注意力机制等花里胡哨的东西。

是Winky啊·2025-03-21 18:35

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。

Mark White·2025-03-21 17:01

YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力

TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意力层来增强网络能力。

AI小怪兽·2025-03-21 10:56

【人工智能】注意力机制深入理解

文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力

问道飞鱼·2025-03-21 08:09

Transformer与图神经网络的融合与应用

Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。

AI天才研究院·2025-03-21 07:58

DeepLabv3+改进18:在主干网络中添加REP_BLOCK

本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，

AICurator·2025-03-21 03:01

金融风控算法透明度与可解释性优化

研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视

智能计算研究中心·2025-03-21 01:13

联邦学习算法安全优化与可解释性研究

其次，引入可解释性算法（如LIME与SHAP）构建透明化决策路径，结合注意力机制实现特征贡献度的可视化映射，有效提升模型在医疗影像异常检测与金融欺诈识别场景中的可信度。此外，研究

智能计算研究中心·2025-03-21 01:43

Multi-view graph convolutional networks with attention mechanism

本文提出了基于注意力机制的多视图图卷积网络，将拓扑结构的多个视图和基于注意力的特征聚合策

小源er·2025-03-20 23:54

注意力机制：让AI拥有“黄金七秒记忆“的魔法----（点积注意力）

注意力机制：让AI拥有"黄金七秒记忆"的魔法–（点积注意力）注意⼒机制对于初学者来说有点难理解，我们⼀点⼀点地讲。现在先暂时忘记编码器、解码器、隐藏层和序列到序列这些概念。

y江江江江·2025-03-20 06:33

LORA的魔法棒：在Stable Diffusion中挥洒注意力机制的优化咒语 ??

LORA的魔法棒：在StableDiffusion中挥洒注意力机制的优化咒语??欢迎来到我的博客，很高兴能够在这里和您见面！

DTcode7·2025-03-20 06:30

KV 缓存简介

传统自注意力计算的问题在生成第t

dev.null·2025-03-19 17:49

【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型

动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型

打酱油的葫芦娃·2025-03-19 17:17

Transformer精选问答

精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块,分别是多头自注意力层

EmbodiedTech·2025-03-19 16:16

医疗影像联邦学习可解释性算法研究

通过引入动态特征选择机制与可解释性注意力模块，算法在保持数据本地化处理的同时，实现了关键病灶特征的跨域关联与可视化解析。研究同步整合自动化数据增强流程与多维度评估指标（如F1值、召

智能计算研究中心·2025-03-19 11:36

Megatron-LM训练框架和Deepspeed训练框架最主要的异同和优劣是什么

张量并行通过切分模型层（如注意力头、MLP块）到不同设备，利用NVLink高速通信提升效率。流水线并行将不同层分配到不同设备，通过P2P通信协调。

强化学习曾小健·2025-03-19 09:15

消融实验（Ablation Study）

1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、

xwhking·2025-03-19 06:20

大模型黑书阅读笔记--第一章

cnn,rnn达到了极限，憋了三十年（这段时间已经有注意力了，并且注意力也加到了cnn，rnn中，但没啥进展）憋来了工业化最先进的transformertransformer的核心概念可以理解为混合词元

53年7月11天·2025-03-19 01:29

如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源

计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。

yxx122345·2025-03-18 20:59

注意力机制：GPT等大模型的基石

1啥是注意力？人类观察事物，能快速判断一种事物，是因为大脑能很快把注意力放在事物最具辨识度的部分从而作出判断，而非从头到尾一览无遗观察一遍才能有判断。

·2025-03-18 17:33

注意力机制+多尺度卷积

多尺度卷积先提供丰富的特征信息，注意力机制再从中筛选出关键信息，这样结合起来，不仅可以进一步提高模型的识别精度和效率，显著提升模型性能，还可以增强模型的可解释性。

一只小小的土拨鼠·2025-03-18 14:39

深度学习中的注意力机制：解锁智能模型的新视角

在这样的背景下，注意力机制（AttentionMechanism）应运而生，它不仅提升了模型的处理能力，还为深度学习领域带来了新的研究视角。什么是注意力机制？

冰蓝蓝·2025-03-17 23:07

DIFFERENTIAL TRANSFORMER

差分Transformer摘要1引言2差分Transformer3实验4结论摘要Transformer倾向于将注意力过度分配到无关的上下文中。

UnknownBody·2025-03-17 21:44

AI如何创作音乐及其案例

如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。

alankuo·2025-03-17 21:44

YOLOv8 改进：添加 GAM 注意力机制

YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。

鱼弦·2025-03-17 16:14

Transformer 架构深度剖析

一、Transformer架构核心设计1.1整体架构Transformer由编码器（Encoder）和解码器（Decoder）堆叠而成，每个层包含：多头自注意力（Multi-HeadSelf-Attention

时光旅人01号·2025-03-17 10:58

第5课树莓派的Python IDE—Thonny

初始的用户界面会删除可能分散初学者注意力的所有功能。查看变量方便。当写完代码后，可

嵌入式老牛·2025-03-16 09:21

【手撕算法系列】多头自注意力机制MHSA

importtorch.nnasnnclassAttention(nn.Module):def__init__(self,dim,num_heads=8,qkv_bias=False,qk_scale=None,attn_drop=0.,proj_drop=0.,num_classes=20):super().__init__()self.num_classes=num_classesself.n

Nastu_Ho-小何同学·2025-03-16 07:10

手撕multi-head self attention 代码

在深度学习和自然语言处理领域，多头自注意力（Multi-HeadSelf-Attention）机制是Transformer模型中的核心组件之一。

心若成风、·2025-03-16 07:07

算法手撕面经系列(1)--手撕多头注意力机制

多头注意力机制一个简单的多头注意力模块可以分解为以下几个步骤：先不分多头，对输入张量分别做变换，得到Q,K,VQ,K,VQ,K,V对得到的Q,K,VQ,K,VQ,K,V按头的个数进行split；用Q,

夜半罟霖·2025-03-16 07:37

【AI】Transformer布道：让AI学会“左顾右盼”的超级大脑！（扫盲帖）

你可以想象我们是从“什么是注意力”开始，一步步搭积木，直到把整个Transformer这台“机器”组装起来，然后再看看它能干什么、怎么训练、为什么厉害。

碣石潇湘无限路·2025-03-16 03:37

【数字IC验证】博客内容全览

“凡是能用钱买来的时间就是便宜的；凡是能用时间换来的注意力持续就是有价值的。”（附上超链接

MoorePlus·2025-03-16 02:32

仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播

：仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力

KangkangLoveNLP·2025-03-16 01:53

推荐频道