TensorRT8 使用手记(0)开始

NVIDIA 正式发布TensorRT 8,宣称该软件将语言查询推理时间缩短了一半,使开发者能够从云端到边缘构建全球最佳性能的搜索引擎、广告推荐和聊天机器人。

TensorRT 8 的各项优化为语言应用带来了创纪录的速度,能够在 1.2 毫秒内运行 BERT-Large ——全球最广为采用的基于 transformer 的模型之一。过去,企业不得不缩减模型大小,而这会导致结果出现大幅偏差。现在有了 TensorRT 8,企业可以将其模型扩大一倍或两倍,从而大幅提高精度。

除了针对 transformer 的优化之外,TensorRT 8 还通过其他两项关键特性,实现了AI推理方面的突破。

其一是稀疏性,这是助力推动 NVIDIA Ampere 架构 GPU 性能提升的一项全新技术,它不但提高了效率,还使开发者能够通过减少计算操作来加速其神经网络。

其二是量化感知训练,开发者能够使用训练好的模型,以 INT8 精度运行推理,在这一过程中不会损失精度。这大大减少了计算和存储成本,从而在 Tensor Core 核心上实现高效推理。

摘抄自 >> [https://zhuanlan.zhihu.com/p/391894578]

环境配置

软件环境

下载链接:https://developer.nvidia.com/nvidia-tensorrt-8x-download (需要注册NVIDIA账号后下载)
官方文档:https://docs.nvidia.com/deeplearning/tensorrt/archives/index.html#trt_8

官方推荐配置:

SDK Version
TensorRT 8.0.1 Github|在线文档
CUDA 11.3 CUDA Toolkit Archive
CUDNN 8.2 cuDNN Archive
Driver Versions >= 450.80.02

CUDA11.3.1 安装要求:https://docs.nvidia.com/cuda/archive/11.3.1/cuda-installation-guide-linux/index.html

由于CUDA函数(cuFFT和CUB)对C++11的要求,自CUDA11.0开始,对GCC编译器的最低要求为6。如果GCC不满足要求,在使用cuDNN和cuBLAS时将无法使用静态链接。
GCC源码下载: http://ftp.gnu.org/gnu/gcc/

硬件环境

CPU:AMD EPYC 7713 64-Core Processor[1]
GPU:NVIDIA A40 (计算能力:8.6)


  1. https://www.amd.com/zh-hans/node/30326 ↩

你可能感兴趣的:(TensorRT8 使用手记(0)开始)