TensorRT笔记(11)使用量化网络

使用量化网络

  • 10.使用量化网络
    • 10.1 使用TensorFlow的量化意识训练(QAT)
    • 10.2 将Tensorflow转换为ONNX量化模型
    • 10.3 导入量化的ONNX模型

10.使用量化网络

量化网络由显式量化反量化节点组成,以便将张量从FP32转换为INT8,反之亦然。
NVIDIA®TensorRT™支持带有QuantizeLinear和DequantizeLinear节点的量化ONNX模型。
量化张量x

y = saturate((x / y_scale) + y_zero_point), where y ∈ [-128, 127]

消除张量x

y = (x - x_zero_point) * x_scale

TensorRT仅支持[-128,127]范围内的INT8激活和[-127࿰

你可能感兴趣的:(TensorRT)