cross-attention

Flux 中的 cross-attention / mm-attention / joint-attention 详解，附代码和图片参考

【扩散模型（七）】StableDiffusion3diffusers源码详解2-DiT与MMDiT相关代码（上）【扩散模型（八）】StableDiffusion3diffusers源码详解2-DiT与MMDiT相关代码（下）【整流模型（一）/扩散模型（十一）】SD1.5/SDXL/SD3/Flux整体区别梳理汇总，扩散与整流（RectifiedFlow）的区别在之前的文章中介绍过Flux的两种Di

多恩Stone·2025-06-12 02:52

Transformer 架构 - 解码器 (Transformer Architecture - Decoder)

每层包含三个核心子模块（图1）1512：带掩码的多头自注意力层（MaskedMulti-HeadSelf-Attention）编码器-解码器注意力层（Encoder-DecoderAttention/Cross-Attention

LIUDAN'S WORLD·2025-04-18 22:33

论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL

几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。

寻丶幽风·2025-03-23 22:02

阅读笔记：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Task

PretrainingTask-AgnosticVisiolinguisticRepresentationsforVision-and-LanguageTasksContribution提出ViLBERT模型（twostreamsmodel），由两个BERT结构分别对text和image进行学习，通过cross-attention

Araloak·2025-02-25 14:44

SD模型微调之LoRA

好评笔记·2025-02-22 06:22

transformer之Attention机制及代码实现

Cross-Attention：一种Attention机制，用于处理两个或多个输入序列之间的依赖关系。Gated

AIVoyager·2025-02-02 15:30

Video-P2P：通过控制 cross-attention 编辑视频

Paper:LiuS,ZhangY,LiW,etal.Video-p2p:Videoeditingwithcross-attentioncontrol[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2024:8599-8608.Introduction:https://video-p2p.gi

ScienceLi1125·2025-01-24 13:30

stable diffusion工作原理

条件化(conditioning)文本条件化（文本到图像）分词器嵌入将嵌入向量输入噪声预测器交叉注意力(Cross-attention)其他条件化逐步理解StableDif

山鬼谣me·2023-12-24 00:19

Prompt-to-Prompt：基于 cross-attention 控制的图像编辑技术

HertzA,MokadyR,TenenbaumJ,etal.Prompt-to-promptimageeditingwithcrossattentioncontrol[J].arXivpreprintarXiv:2208.01626,2022.Prompt-to-Prompt是Google提出的一种全新的图像编辑方法，不同于任何传统方法需要用户指定编辑区域，Prompt-to-Prompt只需要

ScienceLi1125·2023-12-22 14:06

DAB-Deformable-DETR源码学习记录之模型构建（二）

其实Deformable-DETR最大的创新在于其提出了可变形注意力模型以及多尺度融合模块：其主要表现在Backbone模块以及self-attention核cross-attention的计算上。

彭祥.·2023-12-03 03:00

Whisper

文章目录使后感PaperReview个人觉得有趣的LogMelspectrogram&STFTTrainingcross-attention输入cross-attention输出positionalencoding

EmoC001·2023-12-01 17:58

【论文阅读笔记】Prompt-to-Prompt Image Editing with Cross-Attention Control

【论文阅读笔记】Prompt-to-PromptImageEditingwithCross-AttentionControl个人理解思考基本信息摘要背景挑战方法结果引言方法论结果讨论引用个人理解通过将caption的注意力图注入到目标caption注意力中影响去噪过程以一种直观和便于理解的形式通过修改交叉注意力的交互来实现文本驱动图像编辑思考基于掩码的修改如果在修改的同时逐步融合新的Token是否

LuH1124·2023-11-29 05:15

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal论文阅读

空间上，用cross-attention让每个BEVquery从roiacrosscameraviews中提取空间特征；时间上，用self-attention循环融合历史BEV信息。

北极与幽蓝·2023-11-12 13:36

多头注意力（Multi-Head Attention）和交叉注意力（Cross-Attention）是两种常用的注意力机制的原理及区别

多头注意力和交叉注意力多头注意力和交叉注意力都是在自注意力机制的基础上发展而来的，它们的主要区别在于注意力矩阵的计算方式不同。以下是它们的原理和区别。多头注意力机制多头注意力(Multi-HeadAttention)是一种基于自注意力机制(self-attention)的改进方法。自注意力是一种能够计算出输入序列中每个位置的权重，因此可以很好地处理序列中长距离依赖关系的问题。但在应用中，可能存在多

ywfwyht·2023-10-24 23:56

transformer架构中 encoder decoder self-attention cross-attention的作用

Self-Attention（自注意力）和Cross-Attention（交叉注意力）是Transformer中的关键组件，用于实现序列建模和特征提取。

木禾DING·2023-09-29 19:17

self-attention和cross-attention

为什么Self-Attention要通过线性变换计算QKV，背后的原理或直观解释是什么？-知乎回答题主问题题主的问题:在attention中都经过一个映射，那么建模的相似度是否就没有意义了？个人感觉这…https://www.zhihu.com/question/592626839/answer/2965200007Cross-AttentioninTransformerArchitectureM

Kun Li·2023-09-27 21:24

深度学习：cross-attention介绍以及与self-attention的区别

Cross-attention将两个相同维度的嵌入序列不对称地组合在一起，而其中一个序列用作查询Q输入，而另一个序列用作键K

小宋加油啊·2023-09-19 13:26

NLP（2）--Transformer

七、ATvsNAT八、Cross-attention一、Transformer概述Transformer模型发表于2017年Google团队的AttentionisAllyouneed这篇论文，完全基于自注意力机制模型和前馈神经网络绘制输入和输出之间的全局依赖关系

Struart_R·2023-09-06 15:26

【DETR】3、Conditional DETR | 拆分 content 和 spatial 来实现对 DETR 的加速

文章目录一、ConditionalDETR是怎么被提出来的二、ConditionalDETR的具体实现2.1框架结构2.2DETR的cross-attention和ConditionalDETR的cross-attention

呆呆的猫·2023-08-29 06:05

Self-Attention && Cross-Attention

transformer的细节到底是怎么样的？Transformer连环18问！4.1从功能角度，TransformerEncoder的核心作用是提取特征，也有使用TransformerDecoder来提取特征。例如，一个人学习跳舞，Encoder是看别人是如何跳舞的，Decoder是将学习到的经验和记忆，展现出来4.2从结构角度，如图5所示，TransformerEncoder=Embedding

牛奶还是纯的好·2023-07-15 00:58

论文阅读 | Cross-Attention Transformer for Video Interpolation

前言：ACCV2022wrokshop用transformer做插帧的文章，q，kv，来自不同的图像代码：【here】Cross-AttentionTransformerforVideoInterpolation引言传统的插帧方法多用光流，但是光流的局限性在于第一：它中间会算至少两个costvolumes，它是四维的，计算量非常大第二：光流不太好处理遮挡（光流空洞）以及运动的边缘（光流不连续）对大

btee·2023-04-21 12:43

图解cross attention

英文参考链接：https://vaclavkosar.com/ml/cross-attention-in-transformer-architecture交叉注意力与自我注意力除了输入，cross-attention

子燕若水·2023-02-02 16:42

transformer ViT DERT

Transformer中有两种注意力机制，self-attention和cross-attention。主要区别是q

bigliu666·2023-01-31 15:42

翻读：CAT: Cross-Attention Transformer for One-Shot Object Detection

论文：CAT：用于单次物体检测|的交叉注意力转换器带代码的论文(paperswithcode.com)https://paperswithcode.com/paper/cat-cross-attention-transformer-for-one-shot摘要给定来自一个新类的querypatch，单阶段目标检测旨在通过语义相似性比较检测目标图像中该类的所有实例。然而，由于新类中的指导极其有限，以

我想学CV·2023-01-25 07:16

【学习周报】10.10~10.15

DiverseVideoCaptioningbyAdaptiveSpatio-temporalAttention（CVPR2022），一种基于BERT的采用自适应时空注意生成多样性字幕的方法，其中涉及到了tokenizer，embedding，cross-attention

Bohemian_mc·2023-01-04 13:36

Transformer里面的缓存机制

这里我们只关注attention的计算，encoder的每一层里面只有self-attention，decoder的每一层里面首先是self-attention，然后是cross-attention。

人工智能与算法学习·2022-12-31 12:29

论文笔记High-Resolution Image Synthesis with Latent Diffusion Models

另一方面，该论文使用cross-attention机制为扩散模型引入条件，条件可以文

冰冰冰泠泠泠·2022-12-20 17:31

高光谱图像的光谱超分辨（HSI-SR)

无监督的光谱超分辨创新点CoupledUnmixingNetswithCross-Attention模型总览输入/出介绍基本假设退化假设混合假设约束网络架构双编码器Cross-Attention空间光谱一致性损失函数代码

段世尧·2022-12-16 16:01

Cross-Attention in Coupled Unmixing Nets for Unsupervised Hyperspectral Super-Resolution

代码：GitHub-danfenghong/ECCV2020_CUCaNet:Cross-AttentioninCoupledUnmixingNetsforUnsupervisedHyperspectralSuper-Resolution,ECCV,2020.(PyTorch)https://github.com/danfenghong/ECCV2020_CUCaNet模型数学支撑：基本假设：X图

CCRJ·2022-12-05 22:25

[论+1]【CAFGCN】Cross-Attention Fusion Based Spatial-Temporal Multi-Graph Convolutional Network for

⭐️Cross-AttentionFusionBasedSpatial-TemporalMulti-GraphConvolutionalNetworkforTrafficFlowPrediction原文链接，见这里作者：KunYu,XizhongQin*,ZhenhongJia,YanDuandMengmengLin期刊：MDPI，Sensors关键字：交通流预测；数据多样性；交叉注意；时空多图相

panbaoran913·2022-11-27 14:30

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification感想（速读）

是谁？除夕还在看论文呀？哦~~是我自己刚刚洗完菜贴完对联切好肉blabla。。。实在没时间细看它了，所以也是速读啦！顺便也是需要练一下自己的迅速get内容的能力呀！我七点半就打开打算写了呢！然后现在全家都回荡着我的名字~诶呀呀，当东道主就是比较辛苦嘛，但是累并快乐着！正好自己确实也会照顾人，哈哈哈哈，其实还是挺喜欢照顾别人的~~~顺便！最近心情有些波动，致谢最近被我唠唠的小伙伴们！能有你们真是太幸

安之若醇·2022-11-25 12:23

Cross-Attention Fusion Based Spatial-Temporal Multi-GraphConvolutional Network for Traffic Flow Pre

LinM.Cross-AttentionFusionBasedSpatial-TemporalMulti-GraphConvolutionalNetworkforTrafficFlowPrediction[J].Sensors,2021,21.SCI三区论文的详细梳理有个博主整理的很好:(85条消息)[论]Cross-AttentionFusionBasedSpatial-TemporalMult

Raining.Chan·2022-11-25 12:52

【Cross-attention in DETR】

Cross-attentionModule理解浅理解一下通过读DETR&ConditionalDETR中引发对cross-attention的理解。

gesshoo·2022-11-25 12:45

Self -Attention、Cross-Attention？

Self-Attention上图是论文中Transformer的内部结构图，左侧为Encoderblock，右侧为Decoderblock。红色圈中的部分为Multi-HeadAttention，是由多个Self-Attention组成的，可以看到Encoderblock包含一个Multi-HeadAttention，而Decoderblock包含两个Multi-HeadAttention(其中有

大鹏的NLP博客·2022-11-25 12:11

Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification

paperlink,CVPR2022Abstract自我注意力机制能够捕获序列特征和全局信息，被广泛应用于各种NLP和CV任务中，并提高了其性能。本工作致力于研究若何将自我注意力机制进行扩展以更好地在识别细粒度物体（如不同种类的鸟或人的身份识别）时更好地对微妙的嵌入特征进行学习。为此，我们提出了与自我注意力学习相配合的双交叉注意力学习（DCAL）算法。首先，我们提出了全局-局部交叉注意力来促进全局

Howie_tzh·2022-11-23 15:16

浅谈BERT/Transformer模型的压缩与优化加速

并且，相比于卷积操作的局部特征提取能力、以及平移不变性，Self-Attention/Cross-Attention的全局Context信息编码或长时依赖建模能力，能够使图像/视觉模型具备更强的相关性建模能力

PaperWeekly·2022-11-21 23:40

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification（论文阅读笔记）

论文来源：arxiv.org本文作者：李炎，硕士研究生，目前研究方向为深度学习、计算机视觉。目录摘要问题描述本文核心工作模型实验总结其他相关文章参考文献摘要本文基于纯自注意力机制设计了一种双分支的Transformer模块用于图像分类任务，双分支的Transformer模块可以更好的提取不同尺度的特征；并重点设计了一种针对双分支Transformer的融合多尺度特征的方法，该融合方法有效且计算代价

木子李0306·2022-11-21 19:20

【科研】浅学Cross-attention？

Cross-AttentioninTransformerArchitecture最近，CrossViT让我所有思考，这种能过够跨膜态的模型构建？浅学一下吧!目录1.Crossattention概念2.Cross-attentionvsSelf-attention3.Cross-attention算法4.Cross-Attention案例-感知器IO1.Crossattention概念Transfo

MengYa_DreamZ·2022-11-20 06:03

【论文笔记7】CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classificatio阅读笔记

系列文章目录论文阅读笔记(1)：DeepLabv3论文阅读笔记(2):STA手势识别论文阅读笔记(3):ST-GCN论文阅读笔记（5）:图上的光谱网路和深度局部链接网络论文阅读笔记（6）:GNN-快速局部光谱滤波论文阅读笔记（8）:图卷积半监督分类文章目录系列文章目录Abstract目标方法一、Introduction1.相关论文：2.本文特点二、RelatedWorks三种类别的相关工作三、Me

梅津太郎·2022-11-19 12:22

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification

[Paper]CrossViT:Cross-AttentionMulti-ScaleVisionTransformerforImageClassification目录Motivation扩展：多尺度特征扩展：受到多分支CNN架构的启发：OctConv-篇幅较长另起方法2.1.VisionTransformer的概述2.2.多尺度VisionTransformer2.3.多尺度特征融合All-Att

MengYa_DreamZ·2022-11-19 12:16

CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for Robust 3D Object Detection论文笔记

原文链接：https://arxiv.org/abs/2210.092671.引言图像和平面雷达在相互垂直的维度上缺失了信息：图像缺乏深度信息而雷达缺乏高度（俯仰角）信息，这使得相机数据与雷达数据的对应属于多对多的关系，仅靠几何条件难以找到准确的匹配。本文提出3种可能的融合方案：以透视图为主：相信图像的深度估计，将图像提升到3D空间，然后寻找最近的雷达点（不考虑高度）；若未知深度，则将像素投影为射

byzy·2022-11-13 14:39

Bert/Transformer模型压缩与优化加速