稀疏注意力

科学计算（2）：矩阵特征值计算

幂法幂法是求解矩阵主特征值（按模最大的特征值）及其对应特征向量的经典迭代方法，尤其适用于大型稀疏矩阵。

♚放晴♛~·2025-03-25 20:38

PyTorch 深度学习实战（8）：Transformer 与机器翻译（基于本地中英文文本文件）

一、Transformer基础Transformer是一种基于自注意力机制（Self-Attention）的神经网络架构，由Vaswan

进取星辰·2025-03-25 18:58

模型量化的原因和方法

这包括理解参数的概念、采用量化技术、剪枝、稀疏表示等方法。参数的概念权重(Weights)定义：权重是连接输入特征与输出预测之间的系数。

潇湘馆记·2025-03-25 06:27

AI生成Json结构化数据的几种方案

由于AI的注意力机制，AI可以在一次生成中根据上下文补全层级关系。

Dashesand·2025-03-25 04:14

图论--最短路算法

1Floyd2Dijkstra算法3Dijkstra+堆优化4Bellman-Ford5SPFA(ShortestPathFasterAlgorithm)0图的储存方式边目录(记下来，仅此而已)邻接矩阵(适合稠密图)邻接表(适合稀疏图

Dream_Maker_yangkai·2025-03-25 04:38

基于推理的强化学习智能体设计与开发

理论基础与核心概念1.1推理强化学习（Reasoning-EnhancedRL）定义核心思想：在传统强化学习的马尔可夫决策过程（MDP）基础上，引入符号推理、因果推断和知识引导机制，解决复杂环境中的长程依赖和稀疏奖励问题

由数入道·2025-03-24 17:45

ResNet改进(11)：添加 Squeeze-and-Excitation模块和替换Mish激活函数

1.SE模块和Mish激活函数SE模块是一种通道注意力机制，旨在增强网络对重要特征通道的关注，从而提升模型的表达能力。它通过显式地建模通道之间的依赖关系，动态调整每个通道的特征响应。

点我头像干啥·2025-03-24 15:58

图神经网络实战——分层自注意力网络

图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为

盼小辉丶·2025-03-24 05:32

利用Pinecone和Hybrid Search实现高效向量检索

HybridSearch结合了密集向量和稀疏向量检索的优势，在提高检索准确性的同

dgay_hua·2025-03-23 05:35

DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析

DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts）架构，核心公式表达为：y=∑i=1nG(x

Coderabo·2025-03-22 04:41

DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析

Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依

大势下的牛马·2025-03-22 00:58

【深度学习】DeepSeek模型介绍与部署

为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。

Nerous_·2025-03-21 19:15

【nnUnetv2】Code复现

作者提出一种nnUNet（no-new-Net）框架，基于原始的UNet（很小的修改），不去采用哪些新的结构，如相残差连接、dense连接、注意力机制等花里胡哨的东西。

是Winky啊·2025-03-21 18:35

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。

Mark White·2025-03-21 17:01

GS-SLAM论文阅读笔记-MGSO

前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。

zenpluck·2025-03-21 17:29

CCF CSP 历年真题 C语言版满分代码集合 (至2021.9 持续更新中

灰度直方图2021-4-2领域均值2020-12-1期末预测之安全指数2020-12-2期末预测之最佳阈值2020-9-1称检测点查询2020-9-2风险人群筛查2020-6-1线性分类器2020-6-2稀疏向量

JY_0329·2025-03-21 17:55

YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力

TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意力层来增强网络能力。

AI小怪兽·2025-03-21 10:56

【人工智能】注意力机制深入理解

文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力

问道飞鱼·2025-03-21 08:09

Transformer与图神经网络的融合与应用

Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。

AI天才研究院·2025-03-21 07:58

互联网打工人的发际线保卫战：与代码共舞，和头发共存

某大厂程序员小李摸了摸日渐稀疏的头顶，看着钉钉弹出的第17条客户反馈，突然意识到：在这场与需求、bug、OKR的持久战中，头发和健康正在悄然“掉线”。

·2025-03-21 03:23

DeepLabv3+改进18:在主干网络中添加REP_BLOCK

本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，

AICurator·2025-03-21 03:01

金融风控算法透明度与可解释性优化

研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视

智能计算研究中心·2025-03-21 01:13

联邦学习算法安全优化与可解释性研究

其次，引入可解释性算法（如LIME与SHAP）构建透明化决策路径，结合注意力机制实现特征贡献度的可视化映射，有效提升模型在医疗影像异常检测与金融欺诈识别场景中的可信度。此外，研究

智能计算研究中心·2025-03-21 01:43

Multi-view graph convolutional networks with attention mechanism

本文提出了基于注意力机制的多视图图卷积网络，将拓扑结构的多个视图和基于注意力的特征聚合策

小源er·2025-03-20 23:54

软考中级软件设计师考点知识点笔记总结 day05

文章目录4、栈和队列4.1、栈的定义4.2、队列定义5、串、数组、矩阵和广义表5.1、串5.2、数组5.3、稀疏矩阵5.4、广义表4、栈和队列4.1、栈的定义线性表是具有相同数据类型的n个数据元素的有限序列

莫问alicia·2025-03-20 14:41

注意力机制：让AI拥有“黄金七秒记忆“的魔法----（点积注意力）

注意力机制：让AI拥有"黄金七秒记忆"的魔法–（点积注意力）注意⼒机制对于初学者来说有点难理解，我们⼀点⼀点地讲。现在先暂时忘记编码器、解码器、隐藏层和序列到序列这些概念。

y江江江江·2025-03-20 06:33

LORA的魔法棒：在Stable Diffusion中挥洒注意力机制的优化咒语 ??

LORA的魔法棒：在StableDiffusion中挥洒注意力机制的优化咒语??欢迎来到我的博客，很高兴能够在这里和您见面！

DTcode7·2025-03-20 06:30

使用 DashVector 进行高效的矢量检索和自查询检索器演示

DashVector是一个完全托管的向量数据库服务，提供了对高维稠密和稀疏向量的支持，允许实时插入和过滤搜索。

bavDHAUO·2025-03-19 19:34

KV 缓存简介

传统自注意力计算的问题在生成第t

dev.null·2025-03-19 17:49

【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型

动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型

打酱油的葫芦娃·2025-03-19 17:17

Transformer精选问答

精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块,分别是多头自注意力层

EmbodiedTech·2025-03-19 16:16

医疗影像联邦学习可解释性算法研究

通过引入动态特征选择机制与可解释性注意力模块，算法在保持数据本地化处理的同时，实现了关键病灶特征的跨域关联与可视化解析。研究同步整合自动化数据增强流程与多维度评估指标（如F1值、召

智能计算研究中心·2025-03-19 11:36

Megatron-LM训练框架和Deepspeed训练框架最主要的异同和优劣是什么

张量并行通过切分模型层（如注意力头、MLP块）到不同设备，利用NVLink高速通信提升效率。流水线并行将不同层分配到不同设备，通过P2P通信协调。

强化学习曾小健·2025-03-19 09:15

消融实验（Ablation Study）

1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、

xwhking·2025-03-19 06:20

大模型黑书阅读笔记--第一章

cnn,rnn达到了极限，憋了三十年（这段时间已经有注意力了，并且注意力也加到了cnn，rnn中，但没啥进展）憋来了工业化最先进的transformertransformer的核心概念可以理解为混合词元

53年7月11天·2025-03-19 01:29

如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源

计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。

yxx122345·2025-03-18 20:59

注意力机制：GPT等大模型的基石

1啥是注意力？人类观察事物，能快速判断一种事物，是因为大脑能很快把注意力放在事物最具辨识度的部分从而作出判断，而非从头到尾一览无遗观察一遍才能有判断。

·2025-03-18 17:33

注意力机制+多尺度卷积

多尺度卷积先提供丰富的特征信息，注意力机制再从中筛选出关键信息，这样结合起来，不仅可以进一步提高模型的识别精度和效率，显著提升模型性能，还可以增强模型的可解释性。

一只小小的土拨鼠·2025-03-18 14:39

神经网络模型压缩&实例教程—非结构化剪枝

相反，已知生物神经网络使用高效的稀疏连接。为了在不牺牲准确性的情况下减少内存、电池和硬件消耗，通过减少模型中的参数数量来确定压缩模型的最佳技术是很重要的。

程序先锋·2025-03-18 04:41

PyTorch 模型剪枝实例教程一、非结构化剪枝

而众所周知，生物神经网络使用高效的稀疏连接（生物大脑神经网络balabala啥的都是稀疏连接的），考虑到这一点，为了减少内存、容量和硬件消耗，同时又不牺牲模型预测的精度，在设备上部署轻量级模型，并通过私有的设备

小风_·2025-03-18 00:41

深度学习中的注意力机制：解锁智能模型的新视角

在这样的背景下，注意力机制（AttentionMechanism）应运而生，它不仅提升了模型的处理能力，还为深度学习领域带来了新的研究视角。什么是注意力机制？

冰蓝蓝·2025-03-17 23:07

数据结构-稀疏矩阵-十字链表存储

当矩阵的非零元个数与位置在操作中变化较大时，就不宜用顺序存储结构来表示三元组的线性表。在链表中，每个非零元可用一个含5个域的结点表示，其中i,j,e这三个域分别表示该非零元所在的行的值，向右域right用以链接同一行中下一个非零元，向下域down用以链接同一列中下一个非零元，向右域right用以链接同一行中下一个非零元，向下域down用以链接同一列中下一个非零元。同一行的非零元通过right域链接

辣条不爱辣·2025-03-17 23:02

DIFFERENTIAL TRANSFORMER

差分Transformer摘要1引言2差分Transformer3实验4结论摘要Transformer倾向于将注意力过度分配到无关的上下文中。

UnknownBody·2025-03-17 21:44

AI如何创作音乐及其案例

如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。

alankuo·2025-03-17 21:44

YOLOv8 改进：添加 GAM 注意力机制

YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。

鱼弦·2025-03-17 16:14

java数组

目录一、数组概念二、数组的声明与初始化三、数组操作示例四、数组属性与注意事项五、内存结构分析六、常见操作七、二维数组八、稀疏数组一、数组概念数组是Java中用于存储相同类型数据的有序集合，具有以下特性：

TwitCoder·2025-03-17 12:12

Transformer 架构深度剖析

一、Transformer架构核心设计1.1整体架构Transformer由编码器（Encoder）和解码器（Decoder）堆叠而成，每个层包含：多头自注意力（Multi-HeadSelf-Attention

时光旅人01号·2025-03-17 10:58

大模型巅峰对决：DeepSeek vs GPT-4/Claude/PaLM-2 全面对比与核心差异揭秘

喜欢可以到主页订阅专栏目录技术架构对比性能表现与基准测试多模态与多语言能力推理效率与成本分析开源生态与行业适配应用场景与案例研究未来发展与技术趋势代码实现与调用示例1.技术架构对比DeepSeek：动态稀疏激活的混合专家系统

accurater·2025-03-16 16:40

第5课树莓派的Python IDE—Thonny

初始的用户界面会删除可能分散初学者注意力的所有功能。查看变量方便。当写完代码后，可

嵌入式老牛·2025-03-16 09:21

【手撕算法系列】多头自注意力机制MHSA

importtorch.nnasnnclassAttention(nn.Module):def__init__(self,dim,num_heads=8,qkv_bias=False,qk_scale=None,attn_drop=0.,proj_drop=0.,num_classes=20):super().__init__()self.num_classes=num_classesself.n

Nastu_Ho-小何同学·2025-03-16 07:10

推荐频道