Model Compression and Acceleration Overview

模型压缩、模型加速

模型压缩方法: 能够有效降低参数冗余减少存储占用、通信带宽、计算复杂度利部署

线性或非线性量化:1/2bits, int8 和 fp16等;
结构或非结构剪枝:deep compression, channel pruning 和 network slimming等;
网络结构搜索 (NAS: Network Architecture Search):DARTS, DetNAS、NAS-FCOS、Proxyless NAS和NetAdapt等;
其他:权重矩阵的低秩分解,知识蒸馏与网络结构简化(squeeze-net, mobile-net, shuffle-net)等;

模型加速方法:
Op-level的快速算法:FFT Conv2d (7x7, 9x9), Winograd Conv2d (3x3, 5x5) 等;
Layer-level的快速算法:Sparse-block net
优化工具与库:TensorRT (Nvidia), TVM (Tensor Virtual Machine), Tensor Comprehension (Facebook) 和 Distiller (Intel) 、mkl等;
异构计算方法借助协处理硬件引擎(通常是PCIE加速卡、ASIC加速芯片或加速器IP),完成深度学习模型在数据中心或边缘计算领域的实际部署,包括GPU、FPGA或DSA (Domain Specific Architecture) ASIC等。异构加速硬件可以选择定制方案,通常能效、性能会更高,目前市面上流行的AI芯片或加速器(向量运算汇编加速器apex、dial、jit、maxas、mtensor)

网络剪枝
非结构化、结构化

模型量化
二值化网络:XNORnet [13], ABCnet with Multiple Binary Bases [14], Bin-net with High-Order Residual Quantization [15], Bi-Real Net [16];
三值化网络:Ternary weight networks [17], Trained Ternary Quantization [18];
W1-A8 或 W2-A8量化: Learning Symmetric Quantization [19];
INT8量化:TensorFlow-lite [20], TensorRT [21], Quantization Interval Learning [25];
INT4量化:NVIDIA Iterative Online Calibration [29], LSQ [30];
非线性化:Intel INQ [22], log-net, CNNPack [23] 等;
Post-training量化策略:针对预训练模型,通过适当调整kernel参数分布、或补偿量化误差,可有效提升量化效果;
关于量化的比较系统性的论述:Quantizing deep convolutional networks for efficient inference: A whitepaper;
知识蒸馏
结构搜索
Post-training量化策略
Transformer端侧模型压缩
Model Compression and Acceleration Overview_第1张图片
Model Compression and Acceleration Overview_第2张图片
Model Compression and Acceleration Overview_第3张图片

你可能感兴趣的:(认知智能,认知计算,片上互联,边缘计算,系统科学,神经科学,认知科学,专题《智能芯片》)