三十七章:Slide-Transformer:Hierarchical Vision Transformer with Local Self-Attention ——具有局部自注意力的分层视觉的TF
0.摘要自注意机制是VisionTransformer(ViT)最近进展的关键因素,它能够从全局上下文中进行自适应特征提取。然而,现有的自注意方法要么采用稀疏的全局注意力,要么采用窗口注意力来降低计算复杂度,这可能会损害局部特征的学习或者受到一些手工设计的限制。相比之下,局部注意力将每个查询的感受野限制在其相邻像素上,同时享受卷积和自注意力的优势,即局部归纳偏差和动态特征选择。然而,当前的局部注意