注意力汇聚第2页

算法每日一练 (13)

欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。

张胤尘·2025-03-17 20:37

C/C++ | 每日一练 (6)

欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录C/C++|每日一练(6)题目参考答案普通指针存在的问题？

张胤尘·2025-03-17 19:34

YOLOv8 改进：添加 GAM 注意力机制

YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。

鱼弦·2025-03-17 16:14

如何在GitHub上Clone项目：一步步指南

GitHub作为全球最大的代码托管平台，汇聚了无数开发者的智慧结晶。对于初学者和资深开发者来说，学会如何从GitHub上克隆（Clone）项目是一项基本且重要的技能。

Fanstay985·2025-03-17 14:24

Transformer 架构深度剖析

一、Transformer架构核心设计1.1整体架构Transformer由编码器（Encoder）和解码器（Decoder）堆叠而成，每个层包含：多头自注意力（Multi-HeadSelf-Attention

时光旅人01号·2025-03-17 10:58

第5课树莓派的Python IDE—Thonny

初始的用户界面会删除可能分散初学者注意力的所有功能。查看变量方便。当写完代码后，可

嵌入式老牛·2025-03-16 09:21

【手撕算法系列】多头自注意力机制MHSA

importtorch.nnasnnclassAttention(nn.Module):def__init__(self,dim,num_heads=8,qkv_bias=False,qk_scale=None,attn_drop=0.,proj_drop=0.,num_classes=20):super().__init__()self.num_classes=num_classesself.n

Nastu_Ho-小何同学·2025-03-16 07:10

手撕multi-head self attention 代码

在深度学习和自然语言处理领域，多头自注意力（Multi-HeadSelf-Attention）机制是Transformer模型中的核心组件之一。

心若成风、·2025-03-16 07:07

算法手撕面经系列(1)--手撕多头注意力机制

多头注意力机制一个简单的多头注意力模块可以分解为以下几个步骤：先不分多头，对输入张量分别做变换，得到Q,K,VQ,K,VQ,K,V对得到的Q,K,VQ,K,VQ,K,V按头的个数进行split；用Q,

夜半罟霖·2025-03-16 07:37

【AI】Transformer布道：让AI学会“左顾右盼”的超级大脑！（扫盲帖）

你可以想象我们是从“什么是注意力”开始，一步步搭积木，直到把整个Transformer这台“机器”组装起来，然后再看看它能干什么、怎么训练、为什么厉害。

碣石潇湘无限路·2025-03-16 03:37

【数字IC验证】博客内容全览

“凡是能用钱买来的时间就是便宜的；凡是能用时间换来的注意力持续就是有价值的。”（附上超链接

MoorePlus·2025-03-16 02:32

仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播

：仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力

KangkangLoveNLP·2025-03-16 01:53

Transformer动画讲解 - 工作原理

Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。

ghx3110·2025-03-15 19:16

模型的秘密武器：利用注意力改善长上下文推理能力

【导语】在大语言模型（LLM）不断刷新各项任务记录的今天，很多模型宣称能处理超长上下文内容，但在实际推理过程中，复杂问题往往因隐性事实的遗漏而败下阵来。今天，我们就以《AttentionRevealsMoreThanTokens:Training-FreeLong-ContextReasoningwithAttention-guidedRetrieval》为蓝本，带大家通俗解读如何利用Transf

步子哥·2025-03-15 16:51

3 招学会 UI 色彩搭配，让你的设计亮眼出众

一个优秀的UI色彩搭配方案，不仅能够吸引用户的注意力，提升产品的视觉吸引力，还能引导用户行为，增强用户对产品的认知与情感共鸣。接下来，我们将详细介绍3招学会UI色彩搭配的技巧，助你让设计亮眼出众。

大千UI工场·2025-03-15 14:00

从静态PPT到智能演讲——人工智能在演示文稿中的应用

1.概述在这个信息过载的时代，能够吸引并持续吸引观众的注意力无疑成为了一项艰巨的任务。公众演讲领域正经历着一场由人工智能（AI）引领的革命。

知来者逆·2025-03-15 12:19

cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测

专题概况cv君独家视角|AI内幕系列是一个专注于人工智能领域的深度专题，旨在为读者揭开AI所有领域技术的神秘面纱，展示其背后的科学原理和实际应用。通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。无论您是AI领域的工程师或者专家，还是对这一领域充满好奇的读者，这个系列都将为您提供高价值的见解和启发，为您带来横

cv君·2025-03-15 09:19

UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力

目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务

听风吹等浪起·2025-03-15 08:41

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘)

：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax(Q×KT/√d)×V是Transformer中注意力模块的核心算式

Dream it possible！·2025-03-15 05:41

事件驱动架构模型_模型驱动架构简介

最近几个月，许多组织已开始将注意力集中在模型驱动的体系结构（MDA）1上，作为应用程序设计和实现的一种方法。由于几个原因，这是一个非常积极的发展。

cusi77914·2025-03-15 04:30

生成对抗网络优化医疗影像分析方法

值得注意的是，算法优化过程中采用的三阶段特征工程策略——包括基于注意力机制的特征选择、多尺度特征融合以及可解释性特征映射——使模型决策透明度提升约37.6%。临床实践表明，将联邦学习

智能计算研究中心·2025-03-14 22:43

2024年最佳Todo清单APP：从效率到协作全覆盖

在多任务处理时，大脑需要频繁切换注意力，每次切换都会消耗时间和精力，这种现象被称为“切换成本”（SwitchingCost）。

·2025-03-14 22:36

从零到一：Transformer模型的原理与实战之旅

1.2自注意力机制的核心1.3Transformer的结构2.实战：构建Transformer模型2.1任务目标2.2环境准备2.3数据准备2.4模型构建2.5模型训练3.推理实战：完整示例与输出结果3.1

樽酒ﻬق·2025-03-14 21:06

【十五】Golang 结构体

欢迎来到张胤尘的开源技术站开源如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。

张胤尘·2025-03-14 19:47

华为 PC 亮相两会！但不是鸿蒙 PC，而是统信 UOS

这几天，两会正如火如荼进行，这场汇聚国计民生议题的盛会，一举一动都会引发人们的广泛关注。

云水木石·2025-03-14 19:38

DeepSeek 面试题精选

创新点：使用多头潜在注意力（MLA）技术，通过低秩压缩降低KV缓存需求

CarlowZJ·2025-03-14 14:00

【大模型学习】第十五章 Transformer技术看这一篇就足够了

目录一、引言二、Transformer起源背景1.从"健忘症"到"过目不忘"的进化之路三、一个简单的例子让你理解什么是Transformer四、技术要点与底层原理1.自注意力机制（Self-Attention

好多渔鱼好多·2025-03-14 12:46

目前人工智能的发展，判断10年、20年后的人工智能发展的主要方向，或者带动的主要产业

中国通过DeepSeek等技术创新（如MLA注意力机制、FP8混合精度训练）突破算力瓶颈，实现与美国顶尖模型性能对标，成本降低至558万美元/项目。技术突破：量子

meisongqing·2025-03-14 09:23

uinapp前端技术带动陪玩软件市场，语音陪玩系统源码开发打造你自己的市场

这个软件汇聚了大量游戏玩家，特别是大神级别的玩家，为玩家提供贴心、专业的游戏陪玩服务。用户可以通过软件轻松查找和选择满意的陪玩。

·2025-03-14 04:41

[Base]DIFFERENTIAL TRANSFORMER

Time202410Author微软研究院和清华大学提出Codehttps://aka.ms/Diff-TransformerRead2411112.CreativeQ&A减少对无关上下文的关注；通过计算两个Softmax注意力权重

Xy-unu·2025-03-13 18:09

差分注意力，负注意力的引入

文章目录DifferentialTransformer差分注意力，负注意力的引入相关链接介绍初始化函数多头差分注意力DifferentialTransformer差分注意力，负注意力的引入相关链接ai-algorithms

syugyou·2025-03-13 17:09

Diffusion Transformer与Differential Transformer：技术创新与应用前景

随着技术的不断发展，DiffusionTransformer和DifferentialTransformer等新型架构逐步涌现，为生成模型和注意力机制带来了突破性的进展。

AI大模型learner·2025-03-13 17:33

YOLO系列模型从v1到v10的演进

开创单阶段目标检测先河发布时间与背景核心创新模型架构训练策略与优化YOLOv2:提升精度与速度的平衡发布时间与背景核心创新模型架构训练策略与优化YOLOv3:多尺度检测与残差连接发布时间与背景核心创新模型架构训练策略与优化YOLOv4:引入注意力机制与优化模块发布时间与背景核心创新模型架构训练策略与优化

剑走偏锋o.O·2025-03-13 11:25

华为HCIE笔试（一）

A.支持配置屏蔽、汇聚、振荡等监控规则B.提供多样化的告警过滤方式，帮助运维人员快速筛选所关注的告警C.统一监控界面，告警上报接口灵活D.支持本地告警数据分析，自动屏蔽无效告警解析：A.ManageOne

初级飞行员·2025-03-13 08:56

YOLOv8改进策略【注意力机制篇】| EMA 即插即用模块，提高远距离建模依赖（含C2f二次创新）

EMA认为跨维度交互有助于通道或空间注意力预测，并且解决了现有注意力机制在提取深度视觉表示时可能带来的维度缩减问题。

Limiiiing·2025-03-13 06:14

YOLOv5改进：在C3块不同位置添加EMA注意力机制，有效提升计算机视觉性能

为了进一步提升YOLOv5的性能，我们在C3块的不同位置添加了EMA（ExponentialMovingAverage）注意力机制。EMA注意力机制是一种用于提升模型的感知能力和特征表达能力的技术。

UksApps·2025-03-13 06:13

Chebykan wx 文章阅读

文献筛选[1]神经网络：全面基础[2]通过sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合

やっはろ·2025-03-13 02:44

论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects

作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。

游离态GLZ不可能是金融技术宅·2025-03-13 01:07

YOLOv12改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进

必读内容船新的YOLOv12改进专栏~1️⃣什么！不知道如何改进模型⁉️本专栏所使用并改进的每一个模块均包含详细的模块分析、原理讲解、个人总结、多种改进方式以及完整的修改流程，所有改进100%可直接运行，性价比极高。2️⃣找不到合适的模块⁉️所有改进点均为近三年顶会，顶刊提出的先进算法，将其融入到YOLOv12中，并进行二次创新，新颖度高，创新度高，能够适应不同的任务场景。3️⃣不确定自己改进的步

Limiiiing·2025-03-13 00:27

Adobe Firefly 技术浅析（二）：Transformer生成模型

其核心是自注意力机制（Self-Attention

爱研究的小牛·2025-03-12 20:32

Transformer 的原理是什么？

解决方案：Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，最初由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出

玩人工智能的辣条哥·2025-03-12 11:08

在BERT中，如何确定一个标记的重要性

BERT模型中，哪些标记通常具有最高的重要性权重调整损失函数或添加额外的监督信号以影响模型对特殊标记的关注度在BERT中，如何确定一个标记的重要性在BERT模型中，确定一个标记的重要性可以通过以下几种方式：注意力权重

一只天蝎·2025-03-12 10:55

LLM大模型技术实战4：热门开源LLMs对比和选型

1.1主要特点架构特点LLM主要基于Transformer架构，Transformer通过自注意力机制（Self-Attention）

大模型学习教程·2025-03-12 08:44

【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate

虽然Transformer没有显式的循环形式，但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法，将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”，并

WHATEVER_LEO·2025-03-12 08:12

第6篇：Transformer架构详解（下）：多头注意力机制与位置编码

其核心创新包括多头注意力机制和位置编码，这些技术使得Transformer能够高效处理长序列数据。

Gemini技术窝·2025-03-12 00:00

智能算法安全与跨领域创新实践

当前研究重点围绕算法可解释性增强、动态风险评估及数据安全防护展开，通过融合联邦学习的分布式协作框架、量子计算的算力突破以及注意力机制的特征聚焦能力，构建起多模态技术融合的创新路径。

智能计算研究中心·2025-03-11 22:13

仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播

解码器和解码器模块类的实现和向前传播仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力

KangkangLoveNLP·2025-03-11 17:07

基于transformer实现机器翻译(日译中)

文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三

小白_laughter·2025-03-11 15:46

基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测

目录1、代码简介2、代码运行结果展示3、代码获取1、代码简介基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测(单输入单输出)1.程序已经调试好

机器学习和优化算法·2025-03-11 03:42

LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning

推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动

Zhouqi_Hua·2025-03-11 03:10

推荐频道

注意力汇聚