【论文阅读】SensiMix: Sensitivity-Aware 8-bit index & 1-bit value mixed precision quantization for BERT co

论文信息

【论文阅读】SensiMix: Sensitivity-Aware 8-bit index & 1-bit value mixed precision quantization for BERT co_第1张图片

SensiMix: Sensitivity-Aware 8-bit index & 1-bit value mixed precision quantization for BERT compression

作者:Tairen Piao, Ikhyun Cho, U. KangID*

发表单位:Seoul National University

发表期刊:PLOS ONE

Received: August 26, 2021

Accepted: March 4, 2022

Published: April 18, 2022

Abstract

如何权衡预训练BERT压缩效果和精度是一直以来模型压缩领域需要考虑的问题,本文提出了一种新的基于量化的BERT压缩方法SensiMix,该方法考虑了BERT不同模块的敏感度SensiMix将8bit和1bit量化应用于BERT敏感和不敏感部分,在最大化压缩率的同时最小化精度下降。

本文还提出了三种新的1bit训练方法来最小化精度下降:

  • Absolute Binary Weight Regularization 绝对二元权值正则化

  • Prioritized Training 优先级训练

  • Inverse Layer-wise Fine-tuning 反向分层微调

为了快速推理,对模型的8bit量化部分和1bit量化部分分

你可能感兴趣的:(神经网络压缩与加速,论文阅读,论文阅读,bert,人工智能)