Quantizing deep convolutional networks for efficient inference: A whitepaper
本文是对当前量化方法的一个总结。量化设计统一仿射量化它将浮点数量化到(0,Nlevel-1),这里Nlevel是2的bit次方。对cnn来说,卷积操作变为:这种方法在推断时能够取得更快的速度,因为它的激活值求和以及权重值都是常量。统一对称量化随机量化随机量化是将量化器视作一个round操作内的加性噪音,因为很多硬件并不支持随机采样,因此它往往并不在推断时使用。Notethatinexpectati