Attention注意力机制

轻量级模型解读——轻量transformer系列

谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考

lishanlu136·2024-09-16 01:18

深度学习-13-小语言模型之SmolLM的使用

文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask

皮皮冰燃·2024-09-15 10:48

transformer架构(Transformer Architecture)原理与代码实战案例讲解

transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术

AI架构设计之禅·2024-09-14 16:47

vllm在线推理踩坑记

懂点投资的码农·2024-09-14 12:14

大模型框架：vLLM

它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。二、安装vLLM2.1使用GPU进行安装vLLM是一个Py

m0_37559973·2024-09-14 11:41

思考：怎样让自己每天都精力充沛

让自己方向坚定，精力充沛的能量法则：Habit习惯能量的倍增Energy精力，能量的来源Attention注意力，能量的转化Target目标，能量的积累这是读张家瑞老师的《能量法则》最重要的四句话。

廷伟·2024-09-13 22:45

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.25-2024.08.01

文章目录～1.PayingMoreAttentiontoImage:ATraining-FreeMethodforAlleviatingHallucinationinLVLMs2.MTA-CLIP:Language-GuidedSemanticSegmentationwithMask-TextAlignment3

小小帅AIGC·2024-09-12 06:37

论文学习笔记 VMamba: Visual State Space Model

特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现

Wils0nEdwards·2024-09-11 23:47

计算机视觉中，如何理解自适应和注意力机制的关系？

Wils0nEdwards·2024-09-11 23:45

《自然语言处理 Transformer 模型详解》

它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）架构，完全基于注意力机制，在机器翻译、文本生成、问答系统等众多任务中取得了卓越的性能。

黑色叉腰丶大魔王·2024-09-11 21:02

验证resneXt，densenet，mobilenet和SENet的特色结构

SENet：注意力机制。简单起见，使用了[1]的代码，注释掉layer4，作为基本框架resnet14。然后改变局部结构，验证分类效果。实验结果GPU：gtx107

dfj77477·2024-09-11 20:55

大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

大模型：位置编码有哪些？介绍LoRA与QLoRARAG和微调的区别是什么？哪些因素会导致LLM的偏见？什么是思维链（CoT）提示？Tokenizer的实现方法及原理解释一下大模型的涌现能力？解释langchainAgent的概念langchain有哪些替代方案？RLHF完整训练过程是什么？为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?RAG和微调的区别是什么？有了解过什么是稀疏微调

剑圣土豆·2024-09-10 15:57

微积分在神经架构搜索中的应用

微积分在神经架构搜索中的应用1.背景介绍随着深度学习技术的飞速发展,神经网络模型的复杂度也在不断提高,从最初的简单全连接网络,到如今的卷积神经网络、循环神经网络、注意力机制等各种复杂的神经网络架构。

光剑书架上的书·2024-09-10 03:34

CA：新注意力机制，助力分类/检测/分割涨点！

摘要最近关于移动网络设计的研究已经证明了通道注意(例如，挤压和激发注意)对于提升模型性能的显著效果，但是它们通常忽略位置信息，而位置信息对于生成空间选择性注意图是重要的。本文提出了一种新的移动网络注意机制，将位置信息嵌入到信道注意中，我们称之为“协同注意”。与通过2D全局汇集将特征张量转换为单个特征向量的通道注意力不同，坐标注意力将通道注意力分解为两个1D特征编码过程，这两个过程分别沿两个空间方向

Akita·wang·2024-09-08 22:38

Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用

它引入了注意力机制（Self-Attention）

Funhpc_huachen·2024-09-08 17:38

大模型推理框架 RTP-LLM 架构解析

RTP-LLM与当前广泛使用的多种主流模型兼容，使用高性能的CUDAkernel,包括PagedAttention、FlashAttention、FlashDecoding等，支持多模态、LoRA、P-Tuning

阿里技术·2024-09-07 23:32

Transformer+目标检测，这一篇入门就够了

VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention

BIT可达鸭·2024-09-07 21:19

GLM-4 (1) - 推理+概览

系列文章目录GLM-4(1)-推理+概览GLM-4(2)-RoPEGLM-4(3)-GLMBlockGLM-4(4)-SelfAttentionGLM-4(5)-API&FunctionCallingGLM

戴昊光·2024-09-07 02:38

Transformer模型在文本摘要任务中的应用与性能分析

1.Transformer模型简介Transformer模型是一种基于自注意力机制的神经网络架构，它摆脱了传统的

liuxin33445566·2024-09-06 20:59

昇腾Ascend C算子开发学习笔记

FlashAttention类，MOEFFN类NN算子库：NN（Neu

回到唐朝当王爷·2024-09-06 06:21

爆改YOLOv8|利用yolov10的PSA注意力机制改进yolov8-高效涨点

1，本文介绍PSA是一种改进的自注意力机制，旨在提升模型的效率和准确性。传统的自注意力机制需要计算所有位置对之间的注意力，这会导致计算复杂度高和训练时间长。

不想敲代码！！！·2024-09-05 20:18

【笔记】Encoder-Decoder模型

Encoder-DecoderFrameworkEncoder-DecoderEncoderDecoderDecoderwithAttention参考Encoder-DecoderEncoder输入:X

808130260·2024-09-05 19:42

You Only Cache Once: Decoder-Decoder Architectures for Language Models

以下是其核心内容的总结：YOCO架构关键特点：双重解码器结构：YOCO由自解码器和交叉解码器两部分组成，自解码器生成全局键值（KV）缓存，交叉解码器通过交叉注意力机制重用这些缓存。

YiHanXii·2024-09-05 19:08

6、关于Medical-Transformer

6、关于Medical-TransformerAxial-Attention原文链接：Axial-attentionMedical-Transformer原文链接：Medical-TransformerMedical-Transformer

安逸sgr·2024-09-05 14:05

Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining

Cross-ScaleNon-Local(CS-NL)Attention文中最重要的跨尺度非局部模块就是公式(4)，这里内积通过滤波实现，图中的Deconvolution实际上是转置卷积，解卷积和转置卷积是完全不同的概念

phoenix@Capricornus·2024-09-05 08:54

深度学习算法——Transformer

参考教材：动手学pytorch一、模型介绍Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。

fw菜菜·2024-09-04 18:31

2单元复盘

Part11，从本单元中我学到的最重要的理念精读Weshouldpayattentiontosafety2，我在本片文章／音频／视频中学到的怦然心动的单词textAtextB3，在本片文章／音频／视频中我最喜欢的一句话

黄静怡·2024-09-04 05:25

计算机视觉之 GSoP 注意力模块

计算机视觉之GSoP注意力模块一、简介GSopBlock是一个自定义的神经网络模块，主要用于实现GSoP（GlobalSecond-orderPooling）注意力机制。

Midsummer-逐梦·2024-09-03 12:18

[论文笔记] LLM模型剪枝

AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer

心心喵·2024-09-03 08:53

大语言模型诞生、探索和爆发阶段

2017年：Google发表了Transformer架构，这是一种基于自注意力机制的神经网络架构，它彻底改变了自然语言处理（NLP）领域，使得大规模并行化处理成为可能，

花开盛夏^.^·2024-09-02 10:38

图神经网络实战（18）——消息传播神经网络

框架小结系列链接0.前言我们已经学习了多种图神经网络(GraphNeuralNetworks,GNN)变体，包括图卷积网络(GraphConvolutionalNetwork,GCN)、图注意力网络(GraphAttentionNetworks

盼小辉丶·2024-09-02 05:06

Transformer面试真题详解——覆盖99%的Transformer面试问题（建议收藏）

文章目录1.请简述一下Transformer的基本结构和原理2.Transformer为什么使用多头注意力机制3.Transformer计算attention为什么选择点乘而不是加法？

爱睡觉的咋·2024-09-02 05:34

【论文笔记】Training language models to follow instructions with human feedback B部分

TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制

Ctrl+Alt+L·2024-09-02 01:12

095.Pay close attention to the bottom right corner

095、Paycloseattentiontothebottomrightcorner仔细看右下角Paycloseattentiontotheblackboard!

飞帅记忆·2024-09-01 23:16

【HuggingFace Transformers】BertIntermediate 和 BertPooler源码解析

源码解析2.1BertIntermediate源码解析2.2BertPooler源码解析1.介绍1.1位置与功能(1)BertIntermediate位置：位于BertLayer的注意力层（BertSelfAttention

CS_木成河·2024-09-01 17:25

unet各模块内容的理解（包含注意力机制、残差、以及数据维度的变化）

文章目录attention机制Unet的各个模块的设计①残差块②下块做一次残差，做一次自注意力③上块：这里做了skipconnect，做一次残差，做一次注意力④中块：做两次残差和一次自注意力⑤上采样：通道数不变

云梦之上·2024-09-01 13:57

2019-09-23 A lovable eccentric

Trueeccentricsneverdeliberatelysetouttodrawattentiontothemselves.Theydisregardsocialconventionswithoutbeingconsciousthattheyaredoinganythingextraordinary.Thisinvariablywinsthemtheloveandrespectofother

RoadToGood·2024-08-31 23:58

总结：大模型技术栈---算法与原理

word-levelchar-levelsubword-levelBPEWordPieceUniLMSentencePieceByteBPE2.positionencoding绝对位置编码ROPEAliBi相对位置编码Transformer-XLT5/TUPEDeBERTa3.注意力机制

lichunericli·2024-08-31 22:26

YOLOv9独家改进：一种高效移动应用的卷积加性自注意Vision Transformer

构建了一个新颖且高效实现方式——卷积加性相似度函数，并提出了一种名为卷积加性标记混合器（CATM）的简化方法来降低计算开销《YOLOv9魔术师专栏》将从以下各个方向进行创新：【原创自研模块】【多组合点优化】【注意力机制

AI小怪兽·2024-08-31 17:28

自己设计一个Transformer模型

Transformer模型在2017年被Google提出，直接基于self-attention结构，不再依赖于RNN、LSTM或者CNN，是一种Seg2Seg模型。

郑不凡·2024-08-31 13:23

Unet改进10：在不同位置添加CPCA||通道先验卷积注意力机制

本文内容：在不同位置添加CPCA注意力机制目录论文简介1.步骤一2.步骤二3.步骤三4.步骤四论文简介低对比度和显著的器官形状变化等特征经常出现在医学图像中。

AICurator·2024-08-31 12:46

YOLOv8改进 | 注意力篇 | YOLOv8引入SimAM注意力机制

1.SimAM介绍1.1摘要：在本文中，我们提出了一个概念上简单但非常有效的卷积神经网络（ConvNets）注意力模块。与现有的通道和空间注意力模块相比，我们的模块为层中的特征图推断3D注意力权重，而不向原始网络添加参数。具体来说，我们基于一些著名的神经科学理论，提出优化能量函数来找到每个神经元的重要性。我们进一步推导了能量函数的快速封闭式解决方案，并表明该解决方案可以用不到十行代码来实现。该模块

小李学AI·2024-08-31 05:33

MasaCtrl:Tuning-free mutual self-attention control for consistent image synthesis and editing

https://github.com/TencentARC/MasaCtrl/issues/13https://github.com/TencentARC/MasaCtrl/issues/13QuestionaboutMask·Issue#31·TencentARC/MasaCtrl·GitHub

Kun Li·2024-08-30 21:38

「Apollo」直接在docker内部安装miniconda失败

ATTENTION:因为公司原因，该条blog展示的解决方法可能仅适用于本人，作为debug记录背景安装失败的步骤：从conda官网下载了安装conda的sh文件Miniconda3-py37_4.11.0

Liiipseoroinis·2024-08-30 08:45

YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合EMAttention和ParNetAttention形成全新的EPA注意力机制和C2f_EPA(全网独家创新)

1.EPAAttention介绍EPAAttention注意力机制综合了EMAttention和ParNetAttention的优势，能够更有效地提取图像特征。

小李学AI·2024-08-30 05:54

大模型训练和推理

文章目录一、NLP基础1.Tokenizer2.positionencoding3.注意力机制与transformer架构二、大模型训练1.SFT训练2.RLHF训练3.分布式并行训练技术（1）模型并行

李明朔·2024-08-30 01:27

爆改yolov8|利用BSAM改进YOLOv8，高效涨点

BSAM（BiLevelSpatialAttentionModule）是一个用于提升深度学习模型在空间特征处理中的能力的模块。它主要通过双层注意力机制来增强模型对重要空间信息的关注，从而提升任务性能。

不想敲代码！！！·2024-08-29 22:37

爆改YOLOv8 | yolov8添加MSDA注意力机制

1，本文介绍MSDA（多尺度扩张注意力）模块通过自注意力机制在不同尺度上有效地捕捉特征的稀疏性。它首先通过线性投影生成特征图(X)的查询、键和值。

不想敲代码！！！·2024-08-29 22:06

爆改YOLOv8 | yolov8添加GAM注意力机制

1，本文介绍GAM（GlobalAttentionMechanism）旨在改进传统注意力机制的不足，特别是在通道和空间维度上的信息保留问题。它通过顺序的通道-空间注意力机制来解决这些问题。

不想敲代码！！！·2024-08-29 22:36

[从0开始AIGC][LLM]：Pre-Norm or Post-Norm？训练效率还是训练效果？

Pre-NormorPost-NormPre-NormorPost-Norm1.什么是Pre-Norm和Post-Norm2.为什么Pre-Norm比Post-Norm易于训练2.1Transformer：Attentionisallyourneed-PostNorm2.2Pre-Norm

Way_X·2024-08-29 05:42

推荐频道