英伟达TensorRT™是一种高性能深度学习推理优化器和运行时提供低延迟和高通量的深度学习推理的应用程序。使用TensorRT,您可以优化神经网络模型,精确地校准低精度,并最终将模型部署到超大规模的数据中心、嵌入式或汽车产品平台。在对所有主要框架进行培训的模型的推理过程中,基于TensorRT的gpu应用程序的执行速度比CPU快100倍。
TensorRT提供INT8和FP16的优化,用于深度学习推理应用程序的生产部署,如视频流、语音识别、推送和自然语言处理。减少推断精度可以大大降低了应用程序的延迟,这是许多实时服务以及自动和嵌入式应用程序的需求。
您可以从每一个深度学习框架中导入经过训练的模型到TensorRT。在应用优化后,TensorRT选择了平台特定的内核,并在数据中心、Jetson嵌入式平台和NVIDIA驱动自动驾驶平台上实现Tesla GPU的性能最大化。
使用TensorRT开发人员可以专注于创建新的基于ai的应用程序,而不是用于推理部署的性能调优。
TensorRT下载地址:https://developer.nvidia.com/nvidia-tensorrt-download
TesnsoRT的介绍文档:https://devblogs.nvidia.com/tensorrt-3-faster-tensorflow-inference/
TensorRT的开发者指南:http://docs.nvidia.com/deeplearning/sdk/tensorrt-developer-guide/index.html
TensorRT的样例代码:http://docs.nvidia.com/deeplearning/sdk/tensorrt-developer-guide/index.html#samples
• 权重和激活精度校准
将模型量化到INT8,同时保持准确性,从而最大化吞吐量
• 层和张量的融合
通过在内核中融合节点来优化GPU内存和带宽的使用
• 内核自动调整
基于目标GPU平台选择最佳数据层和算法
• 动态张量内存
最大限度地减少内存占用并有效地重新使用内存来提高张量使用效率
• Multi-Stream执行
可扩展的设计可并行处理多个输入流
框架集成:
NVIDIA与深度学习框架的开发人员紧密合作,通过TensorRT实现对AI平台的优化性能。如果您的训练模型是ONNX格式或其他流行的框架,如TensorFlow和MATLAB,那么您可以通过简单的方法将模型导入到TensorRT中进行推理。下面是关于如何开始的信息的集成。
TensorRT和TensorFlow是紧密集成的,因此您可以通过TensorRT强大的优化获得TensorFlow的灵活性。您可以在这里了解更多的TensorRT与TensorFlow博客文章。
TensorRT 4提供了一个ONNX解析器,因此您可以轻松地从诸如Caffe 2、Chainer、Microsoft Cognitive Toolkit、MxNet和PyTorch等框架中导入ONNX模型到TensorRT。您可以在这里了解更多关于tensort4的可用性。
MATLAB与TensorRT通过GPU编码器集成,使工程师和科学家使用MATLAB可以自动为Jetson、DRIVE和Tesla平台生成高性能的推理机。在这里了解更多。
如果您正在使用专有或自定义框架进行深度学习培训,请使用TensorRT c++ API来导入和加速您的模型。在TensorRT文档中可以阅读更多内容。
TensorRT 4 :What’s New
TensoRT 4现在提供了加速语音识别、神经机器翻译和推荐系统的功能。TensorRT 4中的本地ONNX解析器提供了一种简单的方法,可以从诸如PyTorch、Caffe、MxNet、CNTK和Chainer等框架导入模型:
• 与多层感知器(MLP)和递归神经网络(RNN)的新层相比,CPU的吞吐量提高了45倍
• V100上的推理性能提高50倍。而在TensorRT中使用ONNX解析器导入的ONNX模型可以支持CPU了
• 支持NVIDIA DRIVE™Xavier - 用于自动驾驶汽车的AI计算机
• 利用运行在Volta Tensor Cores上的API,FPX自定义图层可以3倍加速推理
NVIDIA开发者计划的成员可以很快从这里下载TensorRT 4 Release Candidate。