PP-LCNet-A Lightweight CPU Convolutional Neural Network

PP-LCNet-A Lightweight CPU Convolutional Neural Network_第1张图片

PP-LCNet-A Lightweight CPU Convolutional Neural Network_第2张图片

一、Introduction

动机

由于MKLDNN库的限制,现有的NN在速度上无法在Inter-CPU上得到最大的提升,本文设计了一种专为Inter CPU准备的轻量级网络,设计这个网络的时候,我们主要考虑了一下几个问题

  1. 如何让网络获取更强的特征表达而不增加推理时延?

  2. 到底是什么因素/模块帮助CPU端的轻量级网络提高accuracy?

  3. 设计基于CPU的轻量级网络的时候,如何有效的结合不同的策略?

贡献

  1. 总结了一系列的方法,来提升accuracy但是不增加inference time

  2. 给出了如何结合这些方法来最终获得一个好结果

二、Approach

2.1 BaseNet

很多轻量级CNN在ARM上速度很快,但是在Interl-CPU上表现一般,大部分原因是因为没有充分利用MKLDNN库。

  • 我们使用MobileNet V1里面的DepthSepConv作为基础模块。这个模块,无add,无cat 操作,不仅会拖累模型的速读,而且对于轻量级模型的accuracy提升无用(暂时无法理解为什么add,cat这种类似于特征融合的操作对于轻量级模型无用)

  • DepthSepConv这个模块在Inter CPU 加速库中已经被高度优化过了,因此比inverted block和shufflenet-block更快

  • 我们基于DepthSepConv堆叠形成了BaseNet,然后添加了一些现有的成熟的技术,构建了PP-LCNet

个人总结:已知Inter CPU的加速快对于 DepthSepConv做了深度优化,且add,cat几乎无收益,进而设计了一个专用于Inter CPU的网络

2.2 激活函数使用H-Swish

EfficientNet使用Swish获得了比ReLU更好的性能;

MobileNet V3使用Hard Swish获得了比Swish更好的性能,

我们也在BaseNet中使用Hard Swish替换了原先的ReLu,也获得了更好的accuracy,而且不增加inference time

2.3 把SE模块插入到合适的位置

  1. SE模块确实很有效,但是基于Inter CPU上,SE会增加推理时间

  2. 经过大量实验证明,位于NN深层的SE模块比其他位置的SE模块起到了更重要的作用,因此我们仅在NN的深层加入了SE模块(这个几乎就是印证了微软的动态卷积的结论,注意力机制在深层更有效)

2.4 使用更大的卷积核

在MixNet中,作者证明了使用不同大小的kernel的组合可以获得更好的效果,但这明显会增加推理时间。所以我们决定,每一层卷积仅使用一种大小的kernel,并且确保使用大kernel的时候既能提升accuracy也不能增加latency。(这其实言外之意就是在小的feature map上才使用大的kernel-size)

经过,本文在NN的尾部使用5×5的kernel size替代了3×3的kernel,可以获得与替换所有卷积层近似的效果,这个结论和SE的替换很像。

2.5 在GAP之后使用一个高维的1×1卷积

在PP-LCNet中,最后一个卷积是512维度,如果直接在GAP(输出为512维向量)之后接上classification layer会导致丢失特征的结合(??????)。为了使网络具有更好的拟合能力,我们在GAP之后添加了一个1280的1×1卷积(等价于一个FC),这使得具有更好的能力,同时增加的inference time很少

三、实验

实验配置:基于paddlepaddle框架,基于4卡V100训练,基于Intelr Xeonr Gold 6148
处理器 batch size=1 ,使用MKLDNN 加速.

  • 不同scale下的PP-LCNet表现,带*的表示使用了蒸馏算法进一步优化

    PP-LCNet-A Lightweight CPU Convolutional Neural Network_第3张图片

  • 和其它网络进行对比

    PP-LCNet-A Lightweight CPU Convolutional Neural Network_第4张图片

  • 作为backbone进行目标检测
    PP-LCNet-A Lightweight CPU Convolutional Neural Network_第5张图片

  • 作为backbone进行分割

PP-LCNet-A Lightweight CPU Convolutional Neural Network_第6张图片

  • Acti, SE, Large-kernel 最后额外增加的全连接,各个模块的作用与时延
    PP-LCNet-A Lightweight CPU Convolutional Neural Network_第7张图片

PP-LCNet-A Lightweight CPU Convolutional Neural Network_第8张图片

  • SE 模块添加位置的消融实验

    PP-LCNet-A Lightweight CPU Convolutional Neural Network_第9张图片

  • Large-kernel添加位置的消融实验

    PP-LCNet-A Lightweight CPU Convolutional Neural Network_第10张图片

你可能感兴趣的:(深度学习,论文,CNN)