GroupMixFormer:Advancing Vision Transformers with Group-Mix Attention论文学习笔记
论文地址:https://arxiv.org/pdf/2311.15157.pdf代码地址:https://github.com/AILab-CVC/GroupMixFormer摘要:ViT已被证明可以通过使用多头自注意力(MHSA)对远程依赖关系进行建模来增强视觉识别,这通常被表述为Query-Key-Value计算。但是,从“Query”和“Key”生成的注意力图仅捕获单个粒度的token-t