计算机视觉论文速递(十)ViT-LSLA:超越Swin的Light Self-Limited-Attention
Transformer在广泛的视觉任务中表现出了竞争性的表现,而全局自注意力的计算成本非常高。许多方法将注意力范围限制在局部窗口内,以降低计算复杂性。然而,他们的方法无法节省参数的数量;同时,自注意力和内部位置偏差(在softmax函数内部)导致每个query都集中在相似和接近的patch上。因此,本文提出了一种LightSelf-Limited-Attention(LSLA),它包括轻Light