高效整数运算推理神经网络的量化与训练

文章目录

  • 前言
  • 一、前言
  • 二、算法步骤
  • 总结


前言

智能移动设备的日益普及和基于深度学习的模型令人生畏的计算成本要求高效和准确的设备上推理方案。我们提出了一种量化方案,它允许使用纯整数算法进行推理,这比在常用的纯整数硬件上实现浮点推理更有效。我们还共同设计了一个训练程序,以保持量化后的端到端模型精度。因此,提出的量化方案改善了准确性和设备上延迟之间的权衡。即使是在以运行时效率著称的模型系列MobileNets上,改进也是显著的,并在流行的cpu上的ImageNet分类和COCO检测中得到了证明。


一、前言

目前最先进的卷积神经网络(CNNs)并不适合在移动设备上使用。自AlexNet[20]问世以来,现代cnn的评价主要是基于分类/检测精度。因此,网络架构的发展不考虑模型的复杂性和计算效率。另一方面,在智能手机、AR/VR设备(HoloLens、Daydream)和无人机等移动平台上成功部署cnn需要较小的模型尺寸来适应设备上有限的内存,并需要较低的延迟来保持用户参与。这导致了一个新兴的研究领域,其重点是在最小化精度损失的情况下减少cnn的模型大小和推理时间。
这一领域的方法大致可分为两类。第一类,例如MobileNet [10], SqueezeNet [16], ShuffleNet[32]和DenseNet[11],设计了新颖的网络架构,利用计算/内存高效操作。第二类全-将CNN的权重和/或激活从32位浮点转换为较低位深度表示。这种方法被诸如三元权值网络(TWN[22])、二元神经网络(BNN[14])、XNOR-net[27]等方法所采用[8,21,26,33,34,35],是我们研究的重点。尽管目前的量化方法很丰富,但当涉及到在延迟和准确性之间权衡时,它们在两个方面存在不足。
首先,之前的方法没有在一个合理的基线架构上进行评估。最常见的基线架构,AlexNet [20], VGG[28]和GoogleNet[29],都被设计过度参数化,以提取边际精度改进。因此,很容易获得这些体系结构的相当大的压缩,减少了对这些体系结构的量化实验,最多只能证明概念。相反,一个更有意义的挑战将是量化那些已经能有效地用精确度权衡延迟的模型架构,例如移动网络。
其次,许多量化方法不能在实际硬件上提供可验证的效率改进。只量化权重的方法([2,4,8,33])主要关注设备上的存储,较少关注计算效率。值得注意的例外是二进制、三元和位移位网络[14,22,27]。后一种方法采用0或2的幂的权值,允许通过位移位实现乘法。然而,虽然位移在定制硬件中是有效的,但它们在现有硬件上的乘法加法指令几乎没有什么好处,当正确使用(即流水线)时,并不比单独的加法更昂贵。此外,只有在操作数很宽的情况下乘法运算才会很昂贵,一旦权值和激活都被量化,避免乘法运算的需要就会随着位深的增加而减少。值得注意的是,这些方法很少提供设备上的测量来验证所承诺的时间改进。更多运行时友好的方法将权值和激活量化为1位表示Tions[14, 27, 34]。有了这些方法,乘法和加法都可以通过有效的位移位和位计数操作来实现,这在自定义GPU内核(BNN[14])中得到了展示。然而,1位量化通常会导致显著的性能下降,并且可能对模型表示过于严格。
我们提供了一个量化方案(第2.1节),将权重和激活量化为8位整数,将少数参数(偏置向量)量化为32位整数。
我们提供了一个量化推理框架,该框架可以有效地在仅限整数运算的硬件上实现,如Qualcomm Hexagon(第2.2、2.3节),并且我们描述了一个在ARM NEON(附录B)上高效、准确的实现。
我们提供了一个与我们的量化推理共同设计的量化训练框架(第3节),以最小化真实模型上量化的准确性损失。
我们将我们的框架应用到基于MobileNets的高效分类和检测系统,并在流行的ARM cpu上提供基准测试结果(第4节),显示了在最先进的MobileNet架构的延迟与精度权衡方面的显著改进,演示了ImageNet分类[3]、COCO对象检测[23]和其他任务。

二、算法步骤

1:创建浮点模型的训练图。

2:根据公式,在推断过程中张量将向下转换为更少位的位置插入假量化TensorFlow操作。
高效整数运算推理神经网络的量化与训练_第1张图片

3:模拟量化模式训练直到收敛。

4:创建和优化推理图,以在低位推理引擎中运行。

5:使用量化推理图运行推理。


总结

我们提出了一种量化方案,它只依赖于整数算术来近似神经网络中的浮点计算。模拟量化效果的训练有助于将模型的准确性恢复到与原始模型几乎相同的水平。除了4倍的模型尺寸缩小,推理效率通过ARM neo -based实现得到了提高。这种改进提高了在普通ARM cpu的延迟和流行计算机视觉模型的精度之间最先进的权衡。我们的量化方案和高效架构设计之间的协同作用表明,纯整数算术推理可能是推动视觉识别技术进入实时和低端手机市场的关键因素。

你可能感兴趣的:(论文阅读,神经网络,人工智能,深度学习)