DAT:Vision Transformer with Deformable Attention

DAT:Vision Transformer with Deformable Attention_第1张图片
DAT:Vision Transformer with Deformable Attention_第2张图片

这篇文章是相对于Swin-Transformer和PVT进行改进,加入了可变形机制,同时控制网络不增加太多的计算量,作者认为,缩小q对应的k的范围,能够减少无关信息的干扰,增强信息的捕捉,于是引入了DCN机制到注意力模块中,提出了一种新的注意力模块:可变形多头注意力模块——对k和v进行DCN偏移后再计算注意力。将这个模块替换到Swin-Transformer的第三四阶段的滑动窗口注意力部分,获得了较好的实验性能。

原文链接:Vision Transformer with Deformable Attention
源码地址:https://github.com/LeapLabTHU/DAT

Vision Transformer with Deformable Attention

  • Abstract
  • 1 Introduction<

你可能感兴趣的:(Transformer,transformer,深度学习,人工智能,算法,计算机视觉)