attention 第7页

每日Attention学习24——Strip Convolution Block

模块出处[TIP21][link]CoANet:ConnectivityAttentionNetworkforRoadExtractionFromSatelliteImagery模块名称StripConvolutionBlock

xiongxyowo·2025-02-27 22:08

浅析 DeepSeek 开源的 FlashMLA 项目

DeepSeek开源的FlashMLA项目DeepSeek开源周Day1（2025年2月24日）放出的开源项目——FlashMLA，是一款针对Hopper架构GPU高效多层级注意力(Multi-LevelAttention

X.Cristiano·2025-02-27 20:18

注意力机制（Attention Mechanism）详细分类与介绍

注意力机制（AttentionMechanism）是近年来在深度学习中非常流行的一种技术，特别是在自然语言处理（NLP）、计算机视觉等任务中，具有显著的效果。

Jason_Orton·2025-02-27 20:46

VIT（Vision Transformer）【超详细 pytorch实现

ViT的优势：ViT使用自注意力机制（Self-Attention），能够直接捕捉图像中所有patch（图像块）之间的全局关系。

周玄九·2025-02-27 17:54

云上玩转DeepSeek系列之五：实测优化16%, 体验FlashMLA加速DeepSeek-V2-Lite推理

DeepSeek-AI面向社区开源了其技术成果FlashMLA（https://github.com/deepseek-ai/FlashMLA），这是一个面向推理优化的高效多层注意力（Multi-HeadLatentAttention

·2025-02-27 00:41

大模型知识蒸馏：技术突破与应用范式重构——从DeepSeek创新看AI基础设施演进路径

大模型服务器厂商·2025-02-26 13:20

【YOLOv11改进[注意力]】引入YOLOv12的A2C2f模块改进v11

目录一YOLOv121区域注意力(AreaAttention)2R-ELAN(残差高效层聚合网络)3架构优化4实验二魔改YOLOv111整体修改

Jackilina_Stone·2025-02-25 19:20

阅读笔记：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Task

PretrainingTask-AgnosticVisiolinguisticRepresentationsforVision-and-LanguageTasksContribution提出ViLBERT模型（twostreamsmodel），由两个BERT结构分别对text和image进行学习，通过cross-attention

Araloak·2025-02-25 14:44

即插即用的注意力机制21种

提示：谬误之处请指出更正摘要随着深度学习特别是自然语言处理领域的飞速发展，注意力机制（AttentionMechanism）已成为提升模型表现的关键技术，本文主要记录了即插即用的注意力机制结构的功能、出处及核心代码

@Mr_LiuYang·2025-02-25 14:40

TMI‘24 | 注意力感知的非刚性图像配准加速磁共振成像

论文信息题目：Attention-AwareNon-RigidImageRegistrationforAcceleratedMRImaging注意力感知的非刚性图像配准加速磁共振成像作者：AyaGhoul

小白学视觉·2025-02-24 17:11

如何在Java中实现多头注意力机制：从Transformer模型入手

多头注意力机制（Multi-HeadAttention）是Transformer模型中的关键组件，广泛用于自然语言处理（NLP）任务中。

省赚客app开发者·2025-02-24 14:26

YOLOv8与DAttention机制的融合：复杂场景下目标检测性能的增强

文章目录1.YOLOv8简介2.DAttention(DAT)注意力机制概述2.1DAttention机制的工作原理3.YOLOv8与DAttention(DAT)的结合3.1引入DAT的动机3.2集成方法

向哆哆·2025-02-23 21:22

Transformer解析——（五）代码解析及拓展

本系列已完结，全部文章地址为：Transformer解析——（一）概述-CSDN博客Transformer解析——（二）Attention注意力机制-CSDN博客Transformer解析——（三）Encoder-CSDN

cufewxy2018·2025-02-23 04:19

VGG 改进：加入GAMAttention注意力机制提升对全局信息捕捉能力

目录1.GAMAttention注意力机制2.VGG加入GAMAttention模块3.完整代码Tips：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.GAMAttention

听风吹等浪起·2025-02-23 02:36

Vgg 改进：添加EMA注意力机制高效提升跨空间学习

目录1.EMAAttention模块2.vgg改进3.完整代码Tips：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.EMAAttention模块EMA（ExponentialMovingAverage

听风吹等浪起·2025-02-23 02:36

【特征融合】卷积神经网络中的特征融合方式有哪些？？让我们一起看看！

卷积神经网络中的特征融合方式总结与探索…文章目录【特征融合】卷积神经网络中的特征融合方式总结与探索...前言：1.串联（Concatenation）2.加法（Addition）3.乘法（Multiplication/Attention

985小水博一枚呀·2025-02-22 22:59

DeepSeek新作-Native Sparse Attention

NSA概述长文本建模的重要性与挑战长文本建模的重要性：长文本建模对于下一代语言模型至关重要。这意味着模型需要能够处理和理解长篇幅的文本内容，例如长篇文章、书籍、复杂的对话等，这对于语言模型的推理、生成和理解能力提出了更高的要求。标准注意力机制的挑战：传统的注意力机制（如Transformer中的全注意力机制）在处理长文本时面临巨大的计算成本。这是因为全注意力机制需要计算每个词与其他所有词之间的关系

数据分析能量站·2025-02-22 21:21

基于CNN-LSTM-Attention的回归预测算法（附Tensorflow框架下的代码）

基于CNN-LSTM-Attention的回归预测算法结合了卷积神经网络（CNN）、长短期记忆网络（LSTM）和注意力机制（Attention）三种强大的技术，通常用于时序数据的回归预测问题。

Jason_Orton·2025-02-22 20:08

Neat Vision：深度学习NLP注意力机制可视化工具教程

NeatVision：深度学习NLP注意力机制可视化工具教程neat-visionNeat(NeuralAttention)Vision,isavisualizationtoolfortheattentionmechanismsofdeep-learningmodelsforNaturalLanguageProcessing

纪亚钧·2025-02-22 11:57

【有啥问啥】DeepSeek NSA（Native Sparse Attention）：开启高效推理与降本增效的新篇章

DeepSeekNSA（NativeSparseAttention）：开启高效推理与降本增效的新篇章在人工智能领域，尤其是自然语言处理（NLP）和大语言模型（LLM）的浪潮中，性能与效率一直是研究者和开发者关注的焦点

有啥问啥·2025-02-22 09:46

SD模型微调之LoRA

好评笔记·2025-02-22 06:22

用deepseek学大模型08-用deepseek解读deepseek

公式推导及模块分析的详细解析：深入浅析DeepSeek-V3的技术架构1.核心架构概览DeepSeekR1的架构基于改进的Transformer，主要模块包括：稀疏多头自注意力（SparseMulti-HeadSelf-Attention

wyg_031113·2025-02-22 01:26

Transformer Decoder 详解

TransformerDecoder由N个相同的层堆叠而成，每个层包含以下组件（与Encoder不同，Decoder包含两种注意力机制）：Input(ShiftedOutput)│├─>MaskedMulti-HeadSelf-Attention

idealmu·2025-02-22 00:51

DeepSeek最新论文：原生稀疏注意力

昨天，DeepSeek团队新发布一篇论文，介绍了一种新的注意力机制NSA(NativelySparseAttention，原生稀疏注意力机制)。

大模型老炮·2025-02-22 00:18

YOLOv8与BiFormer注意力机制的融合：提升多场景目标检测性能的研究

文章目录保姆级YOLOv8改进：适用于多种检测场景的BiFormer注意力机制（Bi-levelRoutingAttention）1.YOLOv8的改进背景2.BiFormer注意力机制的核心原理2.1Bi-levelAttention

向哆哆·2025-02-21 09:12

DeepSeek和ChatGPT的全面对比

模型基础架构对比（2023技术版本）维度DeepSeekChatGPT模型家族LLAMA架构改进GPT-4优化版本参数量级开放7B/35B/120B闭源175B+位置编码RoPE+NTK扩展ALiBiAttention

陈皮话梅糖@·2025-02-20 12:00

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

本文是LLM系列文章，针对《LeaveNoContextBehind:EfficientInfiniteContextTransformerswithInfini-attention》的翻译。

UnknownBody·2025-02-20 05:00

从代码到专利：如何用自注意力机制实现高效序列转换？——深度解析Google的Transformer架构

US201816021971A，ATTENTION-BASEDSEQUENCETRANSDUCTIONNEURALNETWORKS一、技术问题：为什么需要自注意力机制？

CodePatentMaster·2025-02-19 21:53

flash_atten库安装失败

地址：https://github.com/Dao-AILab/flash-attention/releases?page=52.安装，这里我选择abiFALSE版本的才

心平气和不要慌·2025-02-19 18:02

flash-attention安装教程

flash-attention不仅能加快速度，还可以节省显存。安装方法如下：首先搞清楚你的python什么版本，torch什么版本，cuda什么版本，操作系统是什么。

深度求索者·2025-02-19 18:00

【有啥问啥】DeepSeek 技术原理详解

是一款具有突破性技术的大型语言模型，其背后的技术原理涵盖了多个方面，以下是对其主要技术原理的详细介绍：架构创新多头潜在注意力机制（MLA）传送门链接:DeepSeekV3中的Multi-HeadLatentAttention

有啥问啥·2025-02-18 19:34

【深度学习基础】什么是注意力机制

从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中，注意力机制（AttentionMechanism

我的青春不太冷·2025-02-17 14:26

＜Attention Is All You Need＞：全网首次提出Transformer模型论文中英文对照学习

论文摘要英文Thedominantsequencetransductionmodelsarebasedoncomplexrecurrentorconvolutionalneuralnetworksthatincludeanencoderandadecoder.Thebestperformingmodelsalsoconnecttheencoderanddecoderthroughanattenti

kingking44·2025-02-17 12:08

DeepSeek底层揭秘——多头潜在注意力MLA

难点挑战暨含解决方案5.技术路径6.应用场景7.实际案例：DeepSeek8.最新研究与技术进展9.未来趋势猫哥说1.多头潜在注意力（MLA）(1)定义“多头潜在注意力（Multi-HeadLatentAttention

9命怪猫·2025-02-17 11:33

InfiniteHiP - 在单个GPU上扩展 LLM 上下文至300万tokens

ExtendingLanguageModelContextUpto3MillionTokensonaSingleGPUPaper:https://huggingface.co/papers/2502.08910Sourcecode:https://github.com/DeepAuto-AI/hip-attention

伊织code·2025-02-16 14:18

Transformer

1.TransformerTransformer是一种新的、基于attention机制来实现的特征提取器，可用于代替CNN和RNN来提取序列的特征。

AI专题精讲·2025-02-15 18:18

【JCR一区级】雾凇算法RIME-CNN-BiLSTM-Attention故障诊断分类预测【含Matlab源码 5471期】

Matlab武动乾坤博客之家

Matlab武动乾坤·2025-02-14 10:40

【SCI2区】雾凇优化算法RIME-CNN-GRU-Attention用电需求预测Matlab实现

✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机

matlab科研帮手·2025-02-14 10:40

ViT和Transformer

AttentionIsAllYouNeedVit在图像领域直接使用transformer，如果将2d图像直接转为一维向量，会面临参数两过大的问题。

Landon9·2025-02-14 06:37

【Transformer】小白入门指南

目录1、简介2、Transformer解决问题技术概览核心组成自注意力机制（Self-AttentionMechanism）多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNeuralNetwork

静静喜欢大白·2025-02-14 04:18

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

从零开始学习大模型GPT(1)-BuildaLargeLanguageModel(FromScratch)BuildaLargeLanguageModel背景第1章：理解大型语言模型第2章：处理文本数据第3章：编码Attention

Tasfa·2025-02-13 23:33

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

可能是指Multi-HeadLocalAttention，即多头局部注意力，这种机制通常用于减少计算量，特别是在处理长序列时，每个头只关注局部区域。

DukeYong·2025-02-13 19:38

transformer

导语：2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer模型，彻底改变了自然语言处理（NLP）领域的格局。

我爱派生·2025-02-13 04:45

Transformer细节（九）——Transformer位置编码

二、为什么需要位置编码Transformer模型依赖于自注意力机制（self-attentionmechanism），该机制在计算时对序列中的所有位置一

多学学多写写·2025-02-12 04:25

Bahdanau 注意力

Bahdanau注意力（AdditiveAttention）Bahdanau注意力，也被称为加性注意力（AdditiveAttention），是一种广泛用于序列到序列（Seq2Seq）模型中的注意力机制

彬彬侠·2025-02-11 21:29

缩放点积注意力（Scaled Dot-Product Attention）

缩放点积注意力（ScaledDot-ProductAttention）缩放点积注意力（ScaledDot-ProductAttention）是自注意力（Self-Attention）机制的一种变体，它被广泛应用于现代的神经网络架构中

彬彬侠·2025-02-11 20:53

LLM推理优化——PagedAttention初识篇（vLLM初识（二））

LLM推理优化——PagedAttention初识篇（vLLM初识（二））前言在LLM推理优化——KVCache篇（百倍提速）中，我们已经介绍了KVCache技术的原理，从中我们可以知道，KVCache

荼荼灰·2025-02-11 15:44

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

博客主页：[青松]目录【NLP百面百过】大模型算法高频面题（全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调

青松ᵃⁱ·2025-02-11 13:37

云上一键部署 DeepSeek-V3 模型，阿里云PAI Model Gallery 最佳实践

为了实现高效的推理和成本效益的训练，DeepSeek-V3采用了MLA（Multi-headLatentAttention）和DeepSeekMoE架构。

·2025-02-11 11:44

Transformer：基于注意力机制的序列转换模型

Transformer：基于注意力机制的序列转换模型最近，我研究了一篇非常有趣的论文——《AttentionIsAllYouNeed》，由GoogleBrain团队的AshishVaswani等人撰写。

金外飞176·2025-02-11 09:07

推荐频道

attention