注意力第2页

新发布原生稀疏注意力（NSA）机制，重新定义AI效率天花板

大家好，我是Shelly，一个专注于输出AI工具和科技前沿内容的AI应用教练，体验过300+款以上的AI应用工具。关注科技及大模型领域对社会的影响10年+。关注我一起驾驭AI工具，拥抱AI时代的到来。人工智能&AIGC术语100条Shelly聊AI-重磅发布Shelly聊AI：年度展望：2025年AI与社会发展关键事件的深度思考（每年一篇，十年为期）2025年2月18日，中国AI领域迎来一枚“技术

shelly聊AI·2025-02-19 17:51

RadioTransformer：用于视觉注意力引导疾病分类的级联全局焦点Transformer

但即使是那些依赖注意力机制的框架，也不会利用这种丰富的领域信息来进行诊断。RadioTransformer通过学习放射科医生的视觉搜索模式，在级联的全局焦点Transfo

托比-马奎尔·2025-02-19 14:24

DeepSeek与ChatGPT：AI语言模型的全面对决

以下从多个维度对两者进行对比分析：一、技术路线与核心优势DeepSeek：算法创新与成本优化混合专家模型（MoE）与MLA技术：DeepSeek采用混合专家模型框架，通过动态选择专家模型处理复杂任务，结合多头潜在注意力机制

芯作者·2025-02-19 08:38

Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战

为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直

医学小达人·2025-02-19 03:24

DeepSeek大模型的发展的十问十答

大模型是由杭州深度求索人工智能基础技术研究有限公司开发的一款基于Transformer架构的大型语言模型，具体介绍如下：1.架构基础Transformer架构：DeepSeek大模型基于Transformer架构，该架构由Google在2017年提出，以自注意力机制为核心

科技互联人生·2025-02-19 00:25

【有啥问啥】DeepSeek 技术原理详解

DeepSeek技术原理详解DeepSeek是一款具有突破性技术的大型语言模型，其背后的技术原理涵盖了多个方面，以下是对其主要技术原理的详细介绍：架构创新多头潜在注意力机制（MLA）传送门链接:DeepSeekV3

有啥问啥·2025-02-18 19:34

DeepSeek系列模型：高效能推理与多模态处理的技术突破与实践路径

一、高效能推理的核心技术路径轻量化模型架构设计动态稀疏注意力机

张3蜂·2025-02-18 19:00

【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；

本文给大家带来的改进内容是在YOLOv11中更换主干网络为CSWinTransformer，助力YOLOv11有效涨点，通过创新性地开发了十字形窗口自注意力机制。

算法conv_er·2025-02-18 15:43

《DeepSeek训练算法：开启高效学习的新大门》

Transformer架构的核心是注意力机制，这让模型在处理序列数

·2025-02-18 04:41

DeepSeek推理模型架构以及DeepSeek爆火的原因

大家好，我是微学AI，今天给大家介绍一下DeepSeek推理模型架构以及DeepSeek爆火的原因，DeepSeek推理模型凭借其创新的混合专家（MoE）架构和优化的Transformer架构，融合稀疏注意力机制

微学AI·2025-02-18 03:06

大语言模型（LLM）如何实现上下文的长期记忆？

传统LLM的上下文长度通常受限于计算资源和架构设计（如注意力机制），这限制了其处理长文档或保持复杂对话连续性的能力。本篇文章将深入探讨大语言模型的上下文记忆问题，分析其技术难点，并

·2025-02-18 00:06

Python中LLM的稀疏Transformer架构：Longformer与BigBird

文章目录1.Transformer架构的挑战2.稀疏Transformer架构的提出2.1Longformer2.1.1局部注意力2.1.2全局注意力2.1.3实现2.2BigBird2.2.1随机注意力

二进制独立开发·2025-02-17 22:36

《高效学习法：如何通过“案例学习法”提升应用能力？》

课堂上，我拼命想要集中注意力，可思绪总是不由自主地飘走。老师讲的内容，我只能一知半解，笔记也记得乱七八糟。

·2025-02-17 20:00

MobPush智能推送系统的用户行为分析：驱动精准运营的核心引擎

MobPush智能推送系统的用户行为分析：驱动精准运营的核心引擎在移动应用竞争白热化的今天，用户注意力成为最稀缺的资源。

·2025-02-17 20:59

【深度学习基础】什么是注意力机制

文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中

我的青春不太冷·2025-02-17 14:26

【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

2存在的问题2.1其他稀疏3D检测的问题PETR是query-based方法，但是为了实现特征融合，进行了全局注意力机制，导致高计算量。

EEPI·2025-02-17 12:36

DeepSeek底层揭秘——多头潜在注意力MLA

目录1.多头潜在注意力（MLA）2.核心功能3.技术要素4.难点挑战暨含解决方案5.技术路径6.应用场景7.实际案例：DeepSeek8.最新研究与技术进展9.未来趋势猫哥说1.多头潜在注意力（MLA）

9命怪猫·2025-02-17 11:33

第N11周：seq2seq翻译实战-Pytorch复现

搭建语言类2.文本处理函数3.文件读取函数二、Seq2Seq模型1.编码器（encoder）2.解码器（decoder）三、训练1.数据预处理2.训练函数3.评估四、评估与训练1.Loss图2.可视化注意力五

计算机真好丸·2025-02-17 07:57

AI大模型的技术突破与传媒行业变革

这一突破的核心在于三大技术创新：MoE架构升级：通过部署256个细粒度专家网络，减少知识冗余，提升模型效率；MLA注意力机制：动态压缩推理过程中的缓存需求，降低GPU内存

AIQL·2025-02-17 07:52

轻量级的注意力网络（LANMSFF）模型详解及代码复现

注意力机制：引入了一种新的注意力机制，能够有效地捕捉图像中的关键特征，提高模型的表达能力。多尺度特

清风AI·2025-02-17 00:02

AI：236-基于RCS-OSA的YOLOv8改进 | 增强空间对象注意力实现小物体检测精度提升

本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~文章目录1.通过RCS-OSA替换C2f实现暴力涨点2.理论

一键难忘·2025-02-16 13:14

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

以下是KTransformers的详细介绍：1.核心特点高性能优化：KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术，显著加速模型推理速度，降低硬件门槛。

魔王阿卡纳兹·2025-02-16 03:52

短视频矩阵系统源码接口新规搭建部署分享

用户粘性增强：短视频通常节奏快，信息量大，能够快速吸引并保持用户的注意力，形成持续的观看习惯。数据驱动运营：短视频平台提

会飞的程序猿丫·2025-02-15 13:42

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

论文链接：https://arxiv.org/pdf/2405.13956一、摘要总结：本文提出了一种新的注意力机制，名为Aaren，它将注意力视为一种特殊的递归神经网络（RNN），能够高效地计算其多对一

AI记忆·2025-02-15 03:17

发文新思路！双通道CNN的惊人突破，准确率接近100%！

沃恩智慧·2025-02-15 03:45

上下文扩展技术-详细解释Longformer和BigBird的主要创新；详细说明bert原理，并说一说他的上下文限制是怎么来的

答案LongformerLongformer是为有效处理长文本序列而设计的Transformer模型，它通过结合滑动窗口注意力机制和扩张注意力模式来捕捉局部和远距离的上下文信息，并通过全局注意力来捕捉整个文档的广泛背景和联系

AI生成曾小健·2025-02-14 12:22

Vue.js框架深度解析：构建现代Web应用

尤雨溪在开发Vue.js时，将注意力集中在视图层，旨在帮助开发者通过简洁的API设计快速构建交互丰富的网页应用。

Neovyij·2025-02-14 06:08

【Transformer】小白入门指南

目录1、简介2、Transformer解决问题技术概览核心组成自注意力机制（Self-AttentionMechanism）多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNeuralNetwork

静静喜欢大白·2025-02-14 04:18

大型语言模型的核心机制解析

随后，这些向量进入多头自注意力层，能够同时关注输入序列的不同部分。自注意力层的输出经过残差连接和层归一化处理，以增强模型的学习能力和稳定性。

耶耶Norsea·2025-02-13 23:05

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

Attention机制的基本原理数学表示应用总结为什么要使用注意力机制如何实现？简单注意力机制带训练权重的注意力机

Tasfa·2025-02-13 23:33

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

可能是指Multi-HeadLocalAttention，即多头局部注意力，这种机制通常用于减少计算量，特别是在处理长序列时，每个头只关注局部区域。

DukeYong·2025-02-13 19:38

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

Transformer具有多层架构，每层主要由多头自注意力机制和逐位置全连接前馈网络组成。

·2025-02-13 16:39

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

Transformer具有多层架构，每层主要由多头自注意力机制和逐位置全连接前馈网络组成。

·2025-02-13 15:31

DeepSeek-V2 论文解读：混合专家架构的新突破

论文链接：DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel目录一、引言二、模型架构（一）多头部潜在注意力

进一步有进一步的欢喜·2025-02-13 09:49

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

2.语义分割模型解析本项目采用ResNet和ViT结合的方式进行语义分割，并使用CBAM注意力机制增强特征提取能力。涉及的核心文件

高山仰星·2025-02-12 15:06

Transformer细节（九）——Transformer位置编码

二、为什么需要位置编码Transformer模型依赖于自注意力机制（self-attentionmechanism），该机制在计算时对序列中的所有位置一

多学学多写写·2025-02-12 04:25

Bahdanau 注意力

Bahdanau注意力（AdditiveAttention）Bahdanau注意力，也被称为加性注意力（AdditiveAttention），是一种广泛用于序列到序列（Seq2Seq）模型中的注意力机制

彬彬侠·2025-02-11 21:29

缩放点积注意力（Scaled Dot-Product Attention）

缩放点积注意力（ScaledDot-ProductAttention）缩放点积注意力（ScaledDot-ProductAttention）是自注意力（Self-Attention）机制的一种变体，它被广泛应用于现代的神经网络架构中

彬彬侠·2025-02-11 20:53

（少儿编程）关于讲解C++数据类型的思考与总结

前言：孩子们注意力集中时间比较短，课堂采取生活化比喻+互动实践的方式让孩子们学习数据类型知识，分为五个阶段学习。

在下陈平安·2025-02-11 16:19

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

博客主页：[青松]目录【NLP百面百过】大模型算法高频面题（全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调

青松ᵃⁱ·2025-02-11 13:37

Vue2+Echarts封装组件：专注逻辑，图表生成自动化

开发者能够将注意力集中在业务逻辑的开发上，而无需担心底层图表的创建和渲染过程。这样的表述既体现了组件的便捷性，也突出了它对提高开发效率的

努力奋斗小白·2025-02-11 13:06

DeepSeek关联PPT使用教程

无论是商务汇报、学术展示还是教学课件，一份出色的PPT都能让你的表达更加清晰、有力，吸引观众的注意力。

CodeJourney.·2025-02-11 10:42

Transformer：基于注意力机制的序列转换模型

Transformer：基于注意力机制的序列转换模型最近，我研究了一篇非常有趣的论文——《AttentionIsAllYouNeed》，由GoogleBrain团队的AshishVaswani等人撰写。

金外飞176·2025-02-11 09:07

StripedHyena 模型介绍

其核心目标是解决Transformer在处理长序列数据时的计算效率瓶颈（如自注意力机制的高复杂度），同时保持或提升模型在语言建模、长上下文理解等任务上的性能。

qq_27390023·2025-02-11 08:51

1.1 Attention机制终极指南：从数学推导到Transformer实战，解密大模型核心引擎

神经科学研究表明，人类在处理视觉信息时，注意力区域仅占视野的3-5°，却能精准识别关键目标。这种生物本能启发了AI领域最重要的突破——Attention机制。

少林码僧·2025-02-10 19:49

深度解析Transformer架构核心原理，让小白也懂

解密Transformer：从人类思维到机器智能的注意力革命引言：语言理解的本质困境在纽约地铁站，一个三岁孩童指着广告牌上的"Apple"问妈妈："这是吃的苹果还是爸爸的手机？"

python算法(魔法师版)·2025-02-10 07:00

ai大模型学习和实践

ai大模型学习和实践一、初探大模型：起源与发展1、预热篇：解码注意力机制1.1注意力机制最早是在哪个领域得到应用的1.2以下哪些方法被用于处理序列数据？

编程ID·2025-02-10 07:26

AI大模型系列之七：Transformer架构讲解

Transformer的代码架构自注意力机制是什么？多头注意力有什么用？

m0_74823683·2025-02-10 03:58

深度学习和机器学习的区别|自注意力机制和多头注意力机制的展示|售前面试题

深度学习和机器学习的区别|自注意力机制和多头注意力机制的展示|售前面试题分类机器学习是人工智能的一个分支深度学习是机器学习下的一个分支模型结构机器学习较为简单，可能就是几层，比如线性层深度学习较为复杂，

Red Red·2025-02-10 03:53

【电力负荷预测】时间卷积双向门控循环单元融合注意力机制TCN-BiGRU-Attention负荷多变量时间序列预测【含Matlab源码 4752期】

✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度

Matlab领域·2025-02-10 00:03

推荐频道

注意力

新发布原生稀疏注意力（NSA）机制，重新定义AI效率天花板

RadioTransformer：用于视觉注意力引导疾病分类的级联全局焦点Transformer

DeepSeek与ChatGPT：AI语言模型的全面对决

Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战

DeepSeek大模型的发展的十问十答

【有啥问啥】DeepSeek 技术原理详解

DeepSeek系列模型：高效能推理与多模态处理的技术突破与实践路径

【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；

《DeepSeek训练算法：开启高效学习的新大门》

DeepSeek推理模型架构以及DeepSeek爆火的原因

大语言模型（LLM）如何实现上下文的长期记忆？

Python中LLM的稀疏Transformer架构：Longformer与BigBird

《高效学习法：如何通过“案例学习法”提升应用能力？》

MobPush智能推送系统的用户行为分析：驱动精准运营的核心引擎

【深度学习基础】什么是注意力机制

【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

DeepSeek底层揭秘——多头潜在注意力MLA

第N11周：seq2seq翻译实战-Pytorch复现

AI大模型的技术突破与传媒行业变革

轻量级的注意力网络（LANMSFF）模型详解及代码复现

AI：236-基于RCS-OSA的YOLOv8改进 | 增强空间对象注意力实现小物体检测精度提升

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

短视频矩阵系统源码接口新规搭建部署分享

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

发文新思路！双通道CNN的惊人突破，准确率接近100%！

上下文扩展技术-详细解释Longformer和BigBird的主要创新；详细说明bert原理，并说一说他的上下文限制是怎么来的

Vue.js框架深度解析：构建现代Web应用

【Transformer】小白入门指南

大型语言模型的核心机制解析

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

DeepSeek-V2 论文解读：混合专家架构的新突破

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

Transformer细节（九）——Transformer位置编码

Bahdanau 注意力

缩放点积注意力（Scaled Dot-Product Attention）

（少儿编程）关于讲解C++数据类型的思考与总结

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

Vue2+Echarts封装组件：专注逻辑，图表生成自动化

DeepSeek关联PPT使用教程

Transformer：基于注意力机制的序列转换模型

StripedHyena 模型介绍

1.1 Attention机制终极指南：从数学推导到Transformer实战，解密大模型核心引擎

深度解析Transformer架构核心原理，让小白也懂

ai大模型学习和实践

AI大模型系列之七：Transformer架构讲解

深度学习和机器学习的区别|自注意力机制和多头注意力机制的展示|售前面试题

【电力负荷预测】时间卷积双向门控循环单元融合注意力机制TCN-BiGRU-Attention负荷多变量时间序列预测【含Matlab源码 4752期】