轻量级神经网络SqueezeNext--考虑硬件提速

文地址:2018 arXiv

《SqueezeNext: Hardware-Aware Neural Network Design》

软硬件兼施,神经网络需要大的内存和计算资源是将其部署到嵌入式设备上的最大障碍。整体上来看,神经网络设计的主流趋势是在不考虑计算复杂度的情况下设计更深更大的网络以获取更好的性能。这种设计思路基于嵌入式设备的计算能力和内存会不断发展以支持这些复杂模型的实时运行。但是,由于半导体处理芯片的发展速度缓慢,在有限资源条件下达到上述计算要求貌似不是很现实。因此,出现了两种新的设计思路,一种是对现有模型进行压缩,另外一种是从头设计新的更小的模型。本文提出的SqueezeNext网络旨在针对内存和计算能力有限的嵌入式应用环境设计深度神经网络,是后面这种思路的代表。

亮点:

1. 采用 two-stage bottleneck modules来减少权值参数,即采用两个1*1 的convolutions, channel_out = channel_in / 2,使得参数显著减少。

2. 采用low rank filters ,来减少以往卷积核存在冗余现象,并且一步到位的减少权值参数;以往是训练好之后,通过低秩分解进行来减少权值参数;低秩分解的核心思想就是将大矩阵分解成多个小矩阵,这里使用CP分解(Canonical Polyadic Decomposition), 将K*K卷积分解成1*K和K*1的分离卷积, 参数量能从K^{2}降为2K。 

3. 基于SqueezeNet增加了 shortcut connection

4. 通过在硬件上实验的结果发现,前面层的block的计算效率低,因而减少前面层的block数量,增加后面层的block数量。

SqueezeNext的block:

  • 两个1*1 的convolutions以减少参数;
  • 3*3卷积变成1*3卷积与3*1卷积,两个卷积层后都使用了ReLu激活函数和BN层;

轻量级神经网络SqueezeNext--考虑硬件提速_第1张图片

 ResNet block 、SqueezeNet block和 SqueezeNext block对比图:

减少输入通道的数量可以有效减少模型的大小,一种思路是使用分离卷积减少参数数量,但是某些嵌入式系统由于其用于计算的带宽的限制,分离卷积的性能较差。另一种思路是squeezeNet中提出的在3×3卷积之前使用squeeze层以减少3×3卷积的输入通道数目。在SqueezeNext模块中,使用了两层bottleneck,每一层都将通道数减小为原来的1/2,然后使用了两个分离卷积层。最后使用了一层1×1卷积的扩充层。
轻量级神经网络SqueezeNext--考虑硬件提速_第2张图片

网络结构:

1.0 -SqueezeNext-23:

  • 1.0 用来衡量模型的 width,1.0用来作为baseline,实验中有设计1.5 ,2.0的网络进行实验;
  • 23表示block数量;
  • Depth=[6,6,8,1]

轻量级神经网络SqueezeNext--考虑硬件提速_第3张图片

1.0-SqueezeNext-23v5:

  • 1.0 用来衡量模型的 width,1.0用来作为baseline,实验中有设计1.5 ,2.0的网络进行实验;
  • 23表示block数量;
  • v5表示第五个Depth版本,这里的Depth指的是block的分布,如1.0-SqueezeNext-23v5的Depth=[2,4,14,1]。

轻量级神经网络SqueezeNext--考虑硬件提速_第4张图片

硬件:

作者首先介绍了如何针对嵌入式系统进行网络性能的加速,接着讨论了如何对基准网络进行变换以获取更好的性能。神经网络加速器是一种特定的处理器,旨在加速网络的部署和训练速度。其通常包含大量的叫做PE的计算单元和一种用于卷积层计算的层次性的存储和连接结构以实现大量的并行计算和数据复用。考虑两个执行卷积的选项:Weight Stationary(WS)和Output Stationary(OS)。详细地址

 depth-wise convolutions在部分硬件运行效果不好:

图片需要先IO进显卡,显卡再进行卷积计算,而GPU优于CPU的并行收益来自于多处理器,但IO却很慢,所以只有在单位量的图片上运行‘尽可能多’的计算(反向思考就是很多的计算只需要‘尽可能少’的IO次数)才能发挥并行计算的优势。所以比值就是:GPU上的计算量/CPU与GPU间的IO量,越大越好。

轻量级神经网络SqueezeNext--考虑硬件提速_第5张图片

总结: 

  1. SqueezeNext 没有使用depthwise separable convolution实现了比MobileNet更少的参数数量和更高的accuracy。这是因为depthwise separable convolution在某些移动和嵌入式设备上性能较差。
  2. 传统的卷积核存在低维特征,虽然可以采用矩阵分解的方法进行压缩,但不如直接使用低维卷积核(1*1卷积核)。
  3. SqueezeNet和ResNet中都只包含一个全连接层,SqueezeNext在最后一个全连接层之前使用了一个bottleneck层,进一步减少了参数数量。

参考:

轻量化网络:SqueezeNext

squeezeNext 

仅为学习记录,侵删! 

你可能感兴趣的:(目标分类网络,深度学习,机器学习,cnn)