ECCV 2022 | 清华&字节提出ScalableViT:重新思考视觉Transformer面向上下文的泛化
点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>CV微信技术交流群转载自:CV技术指南前言论文提出了一种可伸缩自我注意(ScalableSelf-Attention,SSA)机制,该机制利用两个可伸缩因子来释放查询、键和值矩阵的维度,同时解除它们与输入的绑定。此外,还提出了一种基于交互式窗口的自我注意(IWSA),通过重新合并独立的值标记和聚集相邻窗口的空间信息来建