2017
卷积神经网络在很多领域上都取得了巨大的突破。卷积核作为卷积神经网络的核心,它使网络能够通过融合每一层的局部感受野内的空间(spatial)和通道信息(channel-wise)来构建信息特征。卷积神经网络由一系列卷积层、非线性层和下采样层构成,这样它们能够从理论全局感受野上去捕获图像的特征来进行图像的描述。
计算机视觉研究的一个中心主题是寻找更强大的表示,捕捉图像中对给定任务最显著的属性,从而提高性能。
最近的研究表明,CNN产生的特征表示可以通过将学习机制集成到网络中来加强,这有助于捕捉特征之间的空间相关性。这样做的有, Inception 系列结构中嵌入了多尺度信息,聚合多种不同感受野上的特征来获得性能增益;在 Inside-Outside 网络中考虑了空间中的上下文信息;还有将 Attention 机制引入到空间维度上等等。
VGG:增加网络深度可以显著提高特征学习的表示质量
Inception结构:多尺度卷积及融合,提取特征
Batch Normalization(BN批归一化):加快深度网络训练学习,增加学习过程中的稳定性
ResNet:引入跳跃连接加深学习过程
Highway Network:引入一种门控机制来调节信息流。
分组卷积(ResNeXt):让网络学习到不同的特征,获取更丰富信息,提高学习变换基数的流行方法。
Network in Network(NIN):采用1*1卷积,舍弃FC层,压缩特征图厚度,大大减少网络参数
这项研究的大部分集中在降低模型和计算复杂性的目标上,反映了一种假设,即通道关系可以表述为具有局部感受野的实例不可知函数的组合。相反,我们声称,为单元提供一种机制,使用全局信息显式地建模通道之间的动态非线性依赖关系,可以简化学习过程,并显著增强网络的代表性
注意可以被解释为将可用计算资源的分配偏向于信号中信息量最大的分量的一种方法。SE块包含一个轻量级选通机制,该机制通过以高计算效率的方式建模信道关系来增强网络的表示能力
本文注意到了通道间的关系,同时,卷积操作的输出是通过所有通道的和来产生的,通道依赖性被隐式地嵌入到卷积核c中,但是这些依赖性与滤波器捕获的空间相关性纠缠在一起。
为了确保能够提高网络对信息特征的敏感度,以便后续转换可以利用这些功能,并抑制不太有用的功能。我们建议通过显式建模通道依赖性来实现这一点,以便在进入下一个转换之前通过两步重新校准滤波器响应,
由此设计了Squeeze-and- Excitation (SE) block结构。其目标是通过显式调整其变化特征的通道之间的相互依赖性,自适应地重新校准通道方向的特征响应,来提高由网络产生的特征表示的质量。
没有引入一个新的空间维度来进行特征通道间的融合,而是采用了一种全新的**「特征重标定**」策略。具体来说,就是通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。
为了解决利用通道依赖性的问题,我们首先考虑输出特征中每个通道的信号。每个学习到的滤波器都对局部感受野进行操作,因此变换输出UU的每个单元都无法利用该区域之外的上下文信息。在网络较低的层次上其感受野尺寸很小,这个问题变得更严重。
为了减轻这个问题,我们提出将全局空间信息压缩成一个通道描述符。这是通过使用全局平均池化生成通道统计实现的。
U的输出可以解释为局部描述符的集合,这些描述符的统计信息表示整个图像。
为了利用压缩操作中汇聚的信息,我们接下来通过第二个操作来全面捕获通道依赖性。
要求1 必须能够学习通道之间的非线性交互;2它必须学习一个非互斥的关系,即非独热,允许强调多个通道。
为了限制模型复杂度和辅助泛化,我们通过在非线性周围形成两个全连接(FC)层的瓶颈来参数化门机制,即降维层参数为W1 降维比例为r 一个ReLU,然后是一个参数为W2的升维层。
s 是c个重要度的数。
网络经过上述Excitation之后,就获得了输入特征图U的各个通道的权重,剩下的就是将权重和原始的特征融合了,就是简单的乘法运算:
Fscale(uc,sc)指的是特征映射uc∈RW×H和标量sc之间的对应通道乘积
激活作为适应特定输入描述符z的通道权重。在这方面,SE块本质上引入了以输入为条件的动态特性,有助于提高特征辨别力。
SE-ResNet-50需要∼ 3.87 GFLOP,相对于原始的ResNet-50只相对增加了0.26%
推理时间:对于224×224像素的输入图像,ResNet-50花费了164ms,相比之下,SE-ResNet-50花费了167ms。
接下来,我们考虑所提出的块引入的附加参数。所有附加参数都包含在门机制的两个全连接层中,构成网络总容量的一小部分。更确切地说,引入的附加参数的数量由下式给出:
其中r为缩放参数,N_s\ 为s层重复的次数,C_s为s层的通道数。
SE 添加stage位置
依旧以ResNet为实验对象,发现在每个层级添加SE模块的表现是最好的。
论文还详细分析了E模块输出激活的分布特点。作者对训练好的结构用以下4个分类的图片做测试,每个分类50张图片,统计SE-ResNet-50在5个不同层级上,excitation输出的分布。SE_2_3是按SE_stageID_blockID的方法取名的,纵坐标是每个分类50张图片scale的平均值。这个图中越往后的图的层级越靠后,all曲线是全部1000个分类的平均值,用来和4个分类的曲线作比较。
可以看出靠前的层级(SE_2_3和SE_3_4)各个分类的曲线差异不大,这说明了在较低层级各通道激活的分布和输入的类别无关;随着层级的加深,不同类别的曲线开始出现了差别(SE_4_6和SE_5_1),这说明靠后的层级的scale大小和输入的类别强相关;到了SE_5_2后几乎所有的激活都饱和,输出为1,只有一个通道为0;而最后一层SE_5_3的通道的激活基本相同。因此,最后两层的激活因为基本都相等,为了节省计算量可以把它们去掉。
ref
翻译
https://blog.csdn.net/Jwenxue/article/details/107849616
https://blog.csdn.net/weixin_40546602/article/details/102453563