在图像中最早使用注意力机制的忘了就是SENet。SENet是Squeeze-and-Excitation Networks的简称,由Momenta公司所作并发于2017CVPR,论文中的SENet赢得了ImageNet最后一届(ImageNet 2017)的图像识别冠军,SENet主要是学习了channel之间的相关性,筛选出了针对通道的注意力,稍微增加了一点计算量,但是效果比较好。
论文地址:https://arxiv.org/pdf/1709.01507.pdf
官方代码地址:https://github.com/hujie-frank/SENet
Pytorch实现代码:https://github.com/moskomule/senet.pytorch
Sequeeze:顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野。具体操作就是对原特征图C * W * H 进行global average pooling,然后得到了一个 1 * 1 * C 大小的特征图,这个特征图具有全局感受野。
Excitation :输出的1x1xC特征图,再经过两个全连接神经网络,最后用一个类似于循环神经网络中门的机制。通过参数来为每个特征通道生成权重,其中参数被学习用来显式地建模特征通道间的相关性(论文中使用的是sigmoid)。
如上图所示,将特征为 Y ∗ W ∗ C Y*W*C Y∗W∗C的特整图,经过全局池化后变为 1 ∗ 1 ∗ C 1*1*C 1∗1∗C的特征,然后将 1 ∗ 1 ∗ C 1*1*C 1∗1∗C的特征缩减为原来的 r r r分之一倍,减少全连接层的计算量,网络经过ReLU激活函数后,再次经过第二个全连接层将特征从 1 ∗ 1 ∗ C / r 1*1*C/r 1∗1∗C/r再扩充为 1 ∗ 1 ∗ C 1*1*C 1∗1∗C,最终经过Sigmoid函数求出各层卷积的权重。
特征重标定:使用Excitation 得到的结果作为权重,然后通过乘法逐通道加权到U的C个通道上,完成在通道维度上对原始特征的重标定,并作为下一级的输入数据。这种结构的原理是想通过控制scale的大小,把重要的特征增强,不重要的特征减弱,从而让提取的特征指向性更强。
SENet 通俗的说就是:通过对卷积之后得到的feature map进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将改动之后的分数通过乘法逐通道加权到原来对应的通道上,最后得到输出结果,就相当于在原有的基础上只添加了一个模块而已。
Pytorch代码实现上述该模块:
class SELayer(nn.Module):
def __init__(self, channel, reduction=16):
super(SELayer, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.fc = nn.Sequential(
nn.Linear(channel, channel // reduction, bias=False),
nn.ReLU(inplace=True),
nn.Linear(channel // reduction, channel, bias=False),
nn.Sigmoid()
)
def forward(self, x):
b, c, _, _ = x.size()
y = self.avg_pool(x).view(b, c)
y = self.fc(y).view(b, c, 1, 1)
return x * y.expand_as(x)
代码比较简单,仅仅输入特征与通道数就可以进行直接插入操作,非常方便快捷。其中参数reduction
为缩减率。
在SENet中引入的缩减率r是一个重要的超参数,也就是代码中reduction=16
。它允许改变模型中SE块的容量和计算成本。为了研究这种关系,基于SE-ResNet-50架构进行了一系列不同rr值的实验。表5中的比较表明,性能并没有随着容量的增加而单调上升。这可能是使SE块能够过度拟合训练集通道依赖性的结果。尤其是发现设置r=16在精度和复杂度之间取得了很好的平衡,因此将这个值用于所有的实验。
在选择压缩操作的激活函数时,考察了使用全局平均池而不是全局最大池的重要性(因为这种方法很有效,所以没有考虑更复杂的替代方案)。结果见表11。最大池和平均池都是有效的,但平均池的性能稍好一些,这说明选择平均池作为挤压操作的依据。
论文评估了激励机制的非线性选择。考虑两个进一步的选择:ReLU和tanh,并实验用这些可选的非线性替换sigmoid。结果见表12。将sigmoid替换为tanh会略微降低性能,而使用ReLU则会显著降低性能,实际上会导致SE-ResNet-50的性能低于ResNet-50基线的性能。这表明,为了使SE块有效,谨慎地构造激励算子是重要的。
如上图所示,通过将SE块逐级集成到ResNet-50中,探讨了SE块在不同阶段的影响。具体来说,将SE块添加到中间阶段:阶段2、阶段3和阶段4,并将结果报告在表13中。观察到SE块在体系结构的每个阶段引入时会带来性能上的好处。此外,SE区块在不同阶段所带来的收益是互补的,也就是说,它们可以有效地结合在一起,进一步提升网络性能。
加粗样式
最后进行消融研究,以评估SE块的位置影响时,将其集成到现有的架构。除了提出的SE设计,考虑了三种变体:(1)SE- pre块,其中SE块移动到剩余单元之前;(2) SE- post块,其中SE单元与恒等分支(ReLU后)求和后移动;(3)SE- identity块,其中SE单元与剩余单元平行放置在恒等连接上。这些变体如图5所示,每个变体的性能报告在表14中。观察到SE- pre、SE- identity和提出的SE块的性能相似,而使用SE- post块会导致性能下降。这个实验表明,SE单元产生的性能改进对于它们的位置是相当稳健的,前提是它们在分支聚合之前被应用。
上图展示了SENet识别结果的,通过对比能够看出,识别准确度存在一定的提升。
前大多数的主流网络都是基于这两种类似的单元通过repeat方式叠加来构造的。由此可见,SE模块可以嵌入到现在几乎所有的网络结构中。通过在原始网络结构的building block 单元中嵌入SE模块,可以获得不同种类的SENet 。如SE-BN-Inception、SE-ResNet 、SE-ReNeXt、SE-Inception-ResNet-v2等等。