文献阅读(52)—— Integration self-attention and convolution

文献阅读(52)—— Integration self-attention and convolution

文章目录

  • 文献阅读(52)—— Integration self-attention and convolution
    • 先验知识/知识拓展
    • 文章结构
    • 背景
    • 文章方法
      • 1. Relating Self-Attention with Convolution
    • 文章结果
      • 1.分类
      • 2. 分割
      • 3. 物体检测
      • 4. 消融实验
        • (1)combination block compared with single block
        • (2)group convolution kernels
        • (3)超参数
    • Contributions
    • 总结
    • 可借鉴点/学习点?

On the Integration of Self-Attention and Convolution
文献阅读(52)—— Integration self-attention and convolution_第1张图片
CVPR

先验知识/知识拓展

  • 卷积网络

    • 优点

      • 参数共享:卷积核在整个图像上移动,共享参数可以减少模型的参数数量,从而大大降低了训练时间和内存消耗。
      • 局部感知性:卷积操作只关注局部区域的特征,不受全局噪声的影响,提高了特征的鲁棒性。
      • 空间不变性:卷积操作在整个图像上平移具有相同的效果,因此CNN在处理图像时具有一定的空间不变性。
    • 缺点

      • 大规模卷积核:CNN需要大规模卷积核来捕获更复杂的特征,这会导致模型参数过多,容易出现过拟合。
      • 固定感受野:由于卷积核大小和步长是固定的,CNN只能感知固定大小的区域,可能无法捕获所有的特征
  • 自注意力机制

    • 优点

      • 动态性:注意力机制可以根据输入数据的不同部分调整权重,使模型可以针对不同的任务集中于不同的特征。
      • 灵活性:注意力机制可以与各种神经网络结构集成,如CNN、RNN和Transformer等
    • 缺点

      • 计算复杂度:由于需要计算每个特征的重要性,注意力机制增加了一定的计算负担,可能导致模型训练时间过长。
      • 对抗样本:注意力机制可能降低模型对抗样本的鲁棒性,因为它可能太过集中于某些重要的特征,而忽略其他的特征。
  • 两者之间

    • 卷积操作是一种固定的操作,它在整个图像上提取特征。而注意力机制是一种动态的操作,它可以根据输入数据的不同部分为模型分配不同的权重。此外,卷积操作只能处理局部信息,而注意力机制可以捕获全局信息
    • 传统的卷积利用卷积滤波器权值利用局部感受野上的聚合函数,这在整个特征图中共享。其内在特征对图像处理施加了重要的归纳偏差。相比之下,自注意模块采用基于输入特征上下文的加权平均操作,其中注意权值通过相关像素对之间的相似性函数动态计算。这种灵活性使注意力模块能够自适应地关注不同的区域,并捕获更多的信息特征

文章结构

  • abstract
  • related work
  • revisiting convolution and self-attention
  • method★
  • experiments
  • conclusion

背景


提出问题:

  • 卷积更多在考虑局部信息是一种固态的权重,注意力机制是一种动态的权重。但是两者间是有潜在联系的
  • 通过分解可以发现他们均依赖相同的 1*1卷积操作

基于这个样的发现,作者开发了一个混合模型,用最小的计算成本巧妙的整合了自注意力和卷积


文章方法

ACmix
文献阅读(52)—— Integration self-attention and convolution_第2张图片

1. Relating Self-Attention with Convolution

  • 卷积过程 文献阅读(52)—— Integration self-attention and convolution_第3张图片

  • 自注意力过程
    文献阅读(52)—— Integration self-attention and convolution_第4张图片
    文献阅读(52)—— Integration self-attention and convolution_第5张图片
    文献阅读(52)—— Integration self-attention and convolution_第6张图片
    由上面的推断可以看出:

  • 卷积和自注意力在通过1*1卷积map输入特征时,实际是相同的操作,也是这一步骤开销最大。

  • 两者的stage2对于捕获语义特征至关重要,但是其实是轻量级的,没有额外的学习参数。

整体设计
文献阅读(52)—— Integration self-attention and convolution_第7张图片

最终两者学到的特征是两者的和(其权重是可学习的):
在这里插入图片描述

文章结果

1.分类

文献阅读(52)—— Integration self-attention and convolution_第8张图片

2. 分割

文献阅读(52)—— Integration self-attention and convolution_第9张图片

3. 物体检测

文献阅读(52)—— Integration self-attention and convolution_第10张图片
文献阅读(52)—— Integration self-attention and convolution_第11张图片

4. 消融实验

(1)combination block compared with single block

作者比较了只使用attention,只使用convolution,以及将两者组合的参数量,Flops已经模型的性能。
文献阅读(52)—— Integration self-attention and convolution_第12张图片

(2)group convolution kernels

文献阅读(52)—— Integration self-attention and convolution_第13张图片

(3)超参数

文献阅读(52)—— Integration self-attention and convolution_第14张图片
可以看到在transformer 模型的早期阶段,卷积可以提取更好的特征。在最后的阶段,注意力机制可以提供更好的特征。

Contributions

  1. 揭示了自注意力和卷积之间强烈的潜在关系,为深入理解两者提供了新的视角
  2. 提出了一种很好的结合两者优点的模块。消融实验也表明混合模型的效果比单个用其中任意一个效果更加。

总结

从作者的消融实验,效果还是蛮喜人的,是一个新视角,值得学习!

可借鉴点/学习点?

都给我去看!

你可能感兴趣的:(文献阅读,深度学习,计算机视觉,神经网络)