Self-Attention 第3页

人工智能-注意力机制之Transformer

Transformer比较了卷积神经网络（CNN）、循环神经网络（RNN）和自注意力（self-attention）。值得注意的是，自注意力同时具有并行计算和最短的最大路径长度这两个优势。

白云如幻·2023-11-26 09:42

FlashAttention计算过程梳理

PagedAttention,如何进一步优化Attention性能FlashAttention图解（如何加速Attention）FlashAttention开源代码TransformerBlock运算量解析在self-attention

胖胖大海·2023-11-21 03:05

机器学习笔记

目录机器学习基本概念介绍深度学习反向传播前向传播反向传播pytorch梯度下降算法卷积神经网络（CNN）卷积层池化层自注意力机制（self-attention）循环神经网络（RNN）长短期记忆递归神经网络

czyxw·2023-11-21 01:57

Self-Attention原理

Self-Attention原理论文《AttentionIsAllYouNeed》中公布的Transformer示意图整体还是Encoder-Decoder结构。

zzZ_CMing·2023-11-19 23:47

Self-Attention真的是必要的吗？微软&中科大提出Sparse MLP，降低计算量的同时提升性能！...

在这项工作中，作者探究了Transformer的自注意（Self-Attention）模块是否是其实现图像识别SOTA性能的关键。

我爱计算机视觉·2023-11-15 15:36

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal论文阅读

空间上，用cross-attention让每个BEVquery从roiacrosscameraviews中提取空间特征；时间上，用self-attention循环融合历史BEV信息。

北极与幽蓝·2023-11-12 13:36

注意力机制QKV在GAT（Graph Attention Network）的体现

在自注意力机制self-attention中，Q、K和V是通过线性变换从同一个特征向量中获得的，是同一个特征矩阵X同源的，也就是Q、K、V都是来源于同一个特征矩阵X，只不过Q、K、V是同一个特

重剑DS·2023-11-11 17:38

2022最新版-李宏毅机器学习深度学习课程-P34 自注意力机制类别总结

在课程的transformer视频中，李老师详细介绍了部分self-attention内容，但是self-attention其实还有各种各样的变化形式：一、Self-attention运算存在的问题在self-attention

QwQllly·2023-11-09 07:06

Learning Spatio-Temporal Transformer for Visual Tracking

encoder的输入是初始目标、当前图像和一个动态更新的模板，self-attention能够建立起他们空间上的关系，由于模板是动

lightning980729·2023-11-09 02:46

ACmix:卷积和self-attention的结合，YOLOv5改进之ACmix

目录一、ACmix理论部分二、代码三、YOLOv5改进ACC3一、ACmix理论部分论文地址：2111.14556.pdf(arxi

这糖有点苦·2023-11-08 05:32

GPT-2 面试题

它是基于变压器（Transformer）模型的，使用了自注意力（Self-Attention）机制来处理文本序列。GPT-2的目标是生成与人类语言相似的文本，它可以用于翻译、问答、摘要等多种任务。

onlyfansnft.art·2023-11-06 14:24

Transformer的Q、K、V和Mutil-Head Self-Attention（超详细解读）

目录一.什么是Q、K、V二.Mutil-HeadSelf-AttentionTransformer大行其道，在众多领域取得了不可忽视的成就。如今大火的语言大模型LLM也都是基于Transformer，但是Transformer中的Q、K、V和多头注意力到底是什么呢？这里简单做个学习记录，进行再一次认识和掌握。一.什么是Q、K、VTransformer中的Q、K和V是指在自注意力机制（self-at

陈子迩·2023-11-03 07:20

小目标检测3_注意力机制_Self-Attention

主要参考：(强推)李宏毅2021/2022春机器学习课程P38、39李沐老师：64注意力机制【动手学深度学习v2】手把手带你Yolov5(v6.1)添加注意力机制(一)（并附上30多种顶会Attention原理图）（文中截图多来源于上述链接）改进部分参考：YOLOAir：YOLO系列科研改进论文推荐|改进组合上千种搭配，包括Backbone,Neck,Head,注意力机制,适用于YOLOv5、YO

zxm_·2023-11-02 21:39

vivo前端智能化实践：机器学习在自动网页布局中的应用

Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统作者：vivo互联网前端团队-SuNing在设计稿转网页中运用基于self-attention机制设计的机器学习模型进行设

虚幻私塾·2023-10-31 14:56

本科生学深度学习-Attention机制

很久没有写了，今天想学习下Bert，发现其中一个很重要的机制是self-Attention，在查self-attention的时候又回归到Attention机制，记录下。

香菜+·2023-10-30 22:56

【SIGIR 2022】面向长代码序列的Transformer模型优化方法，提升长代码场景性能

由于self-attention模块的复杂度随序列长度呈次方增长，多数编程预训练语言模型（Programming-basedPretrainedLan

阿里云大数据AI技术·2023-10-30 18:12

Self-Attention模型(李宏毅)

Self-Attention的由来Self-Attention的由来就是用来处理输入是N个向量(vectorsequences)，输出也是N个向量的问题。

人鱼线·2023-10-30 12:07

深度学习中Transformer的简单理解

每一层Encoder编码器都由很多层构成的，编码器内又是self-attention和前馈网络构成的。Self-attention是用来做加权平均，前馈网络用来组合。

Jackie_Yongzhi Huang·2023-10-29 19:11

超超超超超简单！从结果推导RoPE旋转位置编码

位置编码介绍与绝对位置编码我们知道，主流大语言模型使用的自注意力机制(self-attention)技术中，缺少位置的信息。

inannanxx·2023-10-28 13:54

《动手学深度学习 Pytorch版》 10.6 自注意力和位置编码

由于查询、键和值来自同一组输入，因此被称为自注意力（self-attention），也被称为内部注意力（intra-attention）。

AncilunKiang·2023-10-27 14:58

一文搞定自注意力机制（Self-Attention）

自注意力机制（Self-Attention）作为注意力机制中的一种，也被称为intraAttention（内部Attention），是大名鼎鼎的Transformer重要组成部分，今天张张将详细介绍自注意力机制

markconca的博客·2023-10-26 14:01

浅谈Transformer

目录Transformer模型回顾简述Transformer的输入单词Embedding位置EmbeddingSelf-Attention结构Q，K，V的计算Self-Attention的输出Multi-HeadAttentionEncoder

43v3rY0unG·2023-10-26 08:01

Vision Transformer 入门到继续入门2022

-知乎关于Transformer的那些个为什么-知乎最近两年借助self-attention的Transformer一下火了，不看不行。问题1:TransForms是什么？相对于传统RNN

为什么先生2012·2023-10-26 00:54

多头注意力（Multi-Head Attention）和交叉注意力（Cross-Attention）是两种常用的注意力机制的原理及区别

多头注意力机制多头注意力(Multi-HeadAttention)是一种基于自注意力机制(self-attention)的改进方法。

ywfwyht·2023-10-24 23:56

CVPR 2021 | Involution：超越 Convolution 和 Self-attention 的神经网络新算子

本文是对我们CVPR2021被接收的文章Involution:InvertingtheInherenceofConvolutionforVisualRecognition的解读，同时也分享一些我们对网络结构设计（CNN和Transformer）的理解。这篇工作主要是我和SENet的作者胡杰一起完成的，也非常感谢HKUST的两位导师陈启峰和张潼老师的讨论。作者：青源研究组成员李铎论文地址：arxiv

智源社区·2023-10-24 17:16

CV全新范式！LSTM在CV领域杀出一条血路！Sequencer：超越Swin、ConvNeXt等网络

DeepLSTMforImageClassification论文：https://arxiv.org/abs/2205.01972在最近的计算机视觉研究中，ViT的出现迅速改变了各种架构设计工作:ViT利用自然语言处理中的Self-Attention

Amusi（CVer）·2023-10-23 13:46

基于self-attention的LSTM时间序列预测Python程序

基于self-attention的LSTM时间序列预测Python程序特色：1、单变量，多变量输入，自由切换2、单步预测，多步预测，自动切换3、基于Pytorch架构4、多个评估指标（MAE,MSE,R2

黑科技小土豆·2023-10-23 11:27

11 Self-Attention相比较 RNN和LSTM的优缺点

博客配套视频链接:https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0b站直接看配套github链接：https://github.com/nickchen121/Pre-training-language-model配套博客链接：https://www.cnblogs.com/nickchen121/p/15105048.ht

沧海之巅·2023-10-23 11:26

transformer和self-attention的关系

Transformer是一种深度学习模型架构，而self-attention（自注意力机制）是Transformer模型中的一个核心组件。

Chen_Chance·2023-10-22 19:04

Self-Attention和CNN和RNN的区别

Self-Attention、CNN（卷积神经网络）和RNN（循环神经网络）是深度学习中不同的神经网络层或机制，它们在处理数据和建模依赖关系时具有不同的特点。

Chen_Chance·2023-10-22 19:01

自然语言处理---Transformer机制详解之Decoder详解

1Decoder端的输入解析1.1Decoder端的架构Transformer原始论文中的Decoder模块是由N=6个相同的DecoderBlock堆叠而成，其中每一个Block是由3个子模块构成，分别是多头self-attention

lichunericli·2023-10-22 19:49

transformer理解

self-attention首先利用自身embeddingq，所有embeddingk乘积得到的是自身embedd

yyfhq·2023-10-22 14:25

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词

解码器的Self-Attention在编码已经生成的单词假如目标词“我是一个学生”—》maskedSelf-Attention训练阶段：目标词“我是一个学生”是

沧海之巅·2023-10-22 10:02

notes_NLP

RNNLSTMinput+forget+putput；GRUreset+update；参数比LSTM少，计算效率更高；循环神经网络（RNN/LSTM/GRU）人人都能看懂的GRUtransformer>self-attention

子诚之·2023-10-22 04:27

14 Positional Encoding （为什么 Self-Attention 需要位置编码）

博客配套视频链接:https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0b站直接看配套github链接：https://github.com/nickchen121/Pre-training-language-model配套博客链接：https://www.cnblogs.com/nickchen121/p/15105048.ht

沧海之巅·2023-10-22 01:05

13 Multi-Head Self-Attention（从空间角度解释为什么做多头）

博客配套视频链接:https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0b站直接看配套github链接：https://github.com/nickchen121/Pre-training-language-model配套博客链接：https://www.cnblogs.com/nickchen121/p/15105048.ht

沧海之巅·2023-10-22 01:35

Transformer模型 | Transformer模型描述

Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分发掘DN

算法如诗·2023-10-21 07:23

nn.TransformerEncoderLayer中的src_mask，src_key_padding_mask解析

attentionmask要搞清楚src_mask和src_key_padding_mask的区别，关键在于搞清楚在self-attention中attent

风吹草地现牛羊的马·2023-10-21 00:01

Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention论文阅读笔记

-cvpr2023-当前attention机制存在的问题：①利用im2col方式计算localattention需要消耗很大的计算资源②windowattention存在固定的设计模式，如窗口应该如何移动，引入人工干涉。-Method-.ShiftasDepthwiseConvolution作者首先从新的角度上剖析了im2col的原理，并用深度卷积重新实现localattention机制。①im2

我来了！！！·2023-10-20 04:46

“注我“ - 从社交软件夺回人们自己的注意力

不可能三角：效率=其乐=Keywords:workflow,self-attention,high-efficiency,focus.AI里面的Transformer得益于attention有不错的效果

思考实践·2023-10-20 03:40

LLM大模型训练加速利器FlashAttention详解

FlashAttention论文地址：https://arxiv.org/pdf/2205.14135.pdf1.背景介绍因为Transformer的自注意力机制(self-attention)的计算的时间复杂度和空间复杂度都与序列长度有关

MLTalks·2023-10-18 02:20

阿里 - 淘宝 - 精排模型发展趋势

一、DIN网络2018年7月19日，提出attention结构用在用户序列特征上，这种attention不是self-attention，而是预估item用来当做query，用户序列中的每个item作为

learner_ctr·2023-10-17 20:04

视频理解学习笔记（四）

视频理解学习笔记（四）3DCNNC3DI3DNon-local算子（Self-attention替换掉LSTM）R(2+1)DSlowFastVideoTransformerTimeSformer总结Reference3DCNN

不废江河954·2023-10-17 11:03

Transformer 系列 Interpret Vision Transformers as ConvNets with Dynamic Convolutions 论文阅读笔记

InterpretVisionTransformersasConvNetswithDynamicConvolutions论文阅读笔记一、Abstract二、引言三、相关工作VisionTransformers动态卷积Transformer和CNN的联系四、统一的视角4.1基础：自注意力4.2将Self-Attention

乄洛尘·2023-10-13 09:58

阅读《QAnet》QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION Ad

因此，提出的QANet模型，无需循环网络，其encoder=卷积+self-attention，提升了训练速度(3x->13x)和推理速度(4x->9x)。进而，可以训练更多数据。

qq_48566899·2023-10-11 22:59

论文阅读2：《LayoutTransformer: Layout Generation and Completion with Self-attention》主题：Layout Generation..

Background 这篇文章想解决的问题是复杂场景的布局生成 1.复杂场景可以理解为由较小的“原子”构成，生成一个好的布局需要对这些原子之间的关系有非常好的理解。 2.引言中提到了认知科学的概念，对于一个场景有“感知”和“理解”，感知是浅层的，理解是深层的，比如天空在地的上方，马不会骑车。在合成场景中，有两个关键因素即layout和appearance，只有这两个因素都好生成的场景才好

思念殇千寻·2023-10-10 21:59

基于self-attention的GRU时间序列预测Python程序

基于self-attention的GRU时间序列预测Python程序特色：1、单变量，多变量输入，自由切换2、单步预测，多步预测，自动切换3、基于Pytorch架构4、多个评估指标（MAE,MSE,R2

黑科技小土豆·2023-10-10 20:51

NLP：Attention和self-attention的区别

Self-attention：它帮助模型捕获输入序列内部的关系，无论这些关系的距离有多远。计算：Attention：权重是基于当前的输出（或解码器状态）和所有的输入（或编码器状态）来计算的。

坠金·2023-10-07 16:51

ChatGLM2-6B的通透解析：从FlashAttention、Multi-Query Attention到GLM2的微调、源码解读

Multi-QueryAttention第二部分FlashAttention：减少内存访问提升计算速度——更长上下文的关键2.1FlashAttention相关的背景知识2.1.1Transformer计算复杂度：编辑——Self-Attention

v_JULY_v·2023-10-07 03:04

大佬博客记录

Transformer系列博客记录全Transformer拆解，包含Seq2Seq,attention,self-attention,multi-headedattention,PositionalEncoding

BoringFantasy·2023-10-06 15:56

推荐频道

Self-Attention

人工智能-注意力机制之Transformer

FlashAttention计算过程梳理

机器学习笔记

Self-Attention原理

Self-Attention真的是必要的吗？微软&中科大提出Sparse MLP，降低计算量的同时提升性能！...

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal论文阅读

注意力机制QKV在GAT（Graph Attention Network）的体现

2022最新版-李宏毅机器学习深度学习课程-P34 自注意力机制类别总结

Learning Spatio-Temporal Transformer for Visual Tracking

ACmix:卷积和self-attention的结合，YOLOv5改进之ACmix

GPT-2 面试题

Transformer的Q、K、V和Mutil-Head Self-Attention（超详细解读）

小目标检测3_注意力机制_Self-Attention

vivo前端智能化实践：机器学习在自动网页布局中的应用

本科生学深度学习-Attention机制

【SIGIR 2022】面向长代码序列的Transformer模型优化方法，提升长代码场景性能

Self-Attention模型(李宏毅)

深度学习中Transformer的简单理解

超超超超超简单！从结果推导RoPE旋转位置编码

《动手学深度学习 Pytorch版》 10.6 自注意力和位置编码

一文搞定自注意力机制（Self-Attention）

浅谈Transformer

Vision Transformer 入门到继续入门2022

多头注意力（Multi-Head Attention）和交叉注意力（Cross-Attention）是两种常用的注意力机制的原理及区别

CVPR 2021 | Involution：超越 Convolution 和 Self-attention 的神经网络新算子

CV全新范式！LSTM在CV领域杀出一条血路！Sequencer：超越Swin、ConvNeXt等网络

基于self-attention的LSTM时间序列预测Python程序

11 Self-Attention相比较 RNN和LSTM的优缺点

transformer和self-attention的关系

Self-Attention和CNN和RNN的区别

自然语言处理---Transformer机制详解之Decoder详解

transformer理解

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词

notes_NLP

14 Positional Encoding （为什么 Self-Attention 需要位置编码）

13 Multi-Head Self-Attention（从空间角度解释为什么做多头）

Transformer模型 | Transformer模型描述

nn.TransformerEncoderLayer中的src_mask，src_key_padding_mask解析

Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention论文阅读笔记

“注我“ - 从社交软件夺回人们自己的注意力

LLM大模型训练加速利器FlashAttention详解

阿里 - 淘宝 - 精排模型发展趋势

视频理解学习笔记（四）

Transformer 系列 Interpret Vision Transformers as ConvNets with Dynamic Convolutions 论文阅读笔记

阅读《QAnet》QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION Ad

论文阅读2：《LayoutTransformer: Layout Generation and Completion with Self-attention》主题：Layout Generation..

基于self-attention的GRU时间序列预测Python程序

NLP：Attention和self-attention的区别

ChatGLM2-6B的通透解析：从FlashAttention、Multi-Query Attention到GLM2的微调、源码解读

大佬博客记录