阅读ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

前面学习了SENet为代表的通道注意力机制来提高网络性能,但是该网络模型涉及降维以控制模型复杂性。但是作者实验中显示维度减少对通道注意预测产生了副作用,因为其将通道特征投影到低维空间,然后将其映射回来,使通道与其权重之间的对应关系成为间接的,并且捕获所有通道之间的依赖关系是低效且不必要的。因此作者设计了ECA模块,该模块避免了维度缩减,并以有效的方式捕获跨通道交互。

1.模块结构:首先自适应地确定核大小,然后执行1D卷积,然后执行Sigmoid函数。最后作用到原图上。

阅读ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks_第1张图片

 (1)避免降维

文中将SE模块与三种变体比较,表明避免维度降低有助于学习有效的通道注意。给定聚合特征y∈rc在没有降维的情况下,通道注意可以通过ω=σ(Wy)来学习,文中列出两种方法,阅读ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks_第2张图片

 区别在于SE-V ar3考虑了跨信道交互,而SEV ar2不考虑,结果表明,跨渠道互动有利于学习渠道注意。然而,SEVar3需要大量参数,导致模型复杂度高。折中方案是分组,

阅读ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks_第3张图片

将通道划分为G组,每个组包括C/G通道,并独立学习每个组中的通道注意,以本地方式捕获跨通道交互。从卷积的角度来看以上分别视为深度可分离卷积、FC层卷积和分组卷积。但是这种分组完全抛弃了不同组之间的依赖关系,效果不好。

(2)核心思想:频带矩阵和计算过程

阅读ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks_第4张图片 

 式(6)中的Wk涉及k×C参数,通常小于式(5)中的参数。此外,式(6)避免了式(5)中不同组之间的完全独立性。计算公式:

更有效的方法是使所有通道共享相同的学习参数

 

这种策略可以通过核大小为k的快速1D卷积来实现

 (3)范围取值:

最简单的映射是线性函数φ(k)=γ∗k−b

非线性

然后,在给定信道维数C的情况下, 

 

 

 

 

你可能感兴趣的:(深度学习,计算机视觉)