【CVPR2018】Squeeze-and-Excitation Networks (SEnet)

这篇文章发表于CVPR2018,我在2018年就现场听过作者讲这篇文章(因为拖延症,现在才写博客)。这是当年的oral文章,也算Momenta团队近几年最后一个重磅点儿的学术工作了。国际惯例,先给出论文标题和链接。

标题:Squeeze-and-Excitation Networks

链接:https://arxiv.org/abs/1709.01507


话说,在2018年以前,各种CNN结构百花齐放,从Alexnet,VGG,Inception到ResNet,DenseNet,到最后的SEnet。自SEnet以后,就没什么backbone成为了主流关注对象。当时听论文分享的时候,SEnet作者就说:现在base model没什么搞头了

确实是,现在很多VGG和res这种远古的结构依然活跃在各个项目中,backbone一定要挑合适的,不一定挑最新的。

这篇论文很简单,看个图就能明白个七七八八:

【CVPR2018】Squeeze-and-Excitation Networks (SEnet)_第1张图片

比较赏心悦目的idea就是简单但实用,就像resnet我就很喜欢。 不需要故意把简单的东西说复杂来体现“高级感”,现在很多文章都会犯这种错。SEnet主要是发明了一种SE结构(Squeeze-and-Excitation block),如上图所示。

SE block

SE block主要作用在特征图上,咱们CNN结构的中间输出就是所谓的特征图,这个特征图的维数就是我们说的channel

SE要做的第一步就是把每张特征图压缩,用全局池化做,把一张特征图压缩成一个数。假设channel数为C,那么特征图会被压缩成C个数。

第二步是把这C个数送到一个可训练的小型神经网络里,可以输出C个能够预示特征图权重的数,再乘回原特征图。经过SE block处理的特征图,会更合理地分配每个channel的权重。

这个小型神经网络是什么?看下面一张图你就知道了:(就是全连接层而已)

【CVPR2018】Squeeze-and-Excitation Networks (SEnet)_第2张图片

你可能感兴趣的:(Computer,Vision,AI数学,paper,CVPR,人工智能,AI,SEnet,CNN)