VAN(大核注意力机制)

Visual-Attention-Network/VAN-Classification (github.com)

transformer在视觉领域得到良好的效果,是因为它可以捕捉长距离的信息。在视觉领域,通常有两种办法去获得长距离的信息,一是基于transformer的自注意力机制 ,二是大内核卷积。自注意力机制源于NLP,虽然在视觉领域得到很好的效果,但是仍然存在一些问题。比如说自注意力机制将2维的图像数据展开破坏了图像2D结构,而且其计算量和内存占用也比较大。大内核卷积,会引入大量的参数和计算量。作者基于这些问题,提出了大核注意力机制(LKA)。大内核注意力机制结合了卷积运算的局部感受野和旋转不变性和自注意力机制的长距离信息。

LKA

VAN(大核注意力机制)_第1张图片

 类似于mobilenet的深度可分离卷积,将一个大内核卷积分解。

将一个卷积核大小为K的卷积分解为三个卷积的和,分别是卷积核大小为K/d的深度卷积、卷积核大小为(2d-1)膨胀率为d的深度膨胀卷积,通道卷积(1*1卷积)。

下表介绍了卷积,自注意力机制,LKA(大核注意力机制)的特点

你可能感兴趣的:(深度学习,python,人工智能,深度学习)