『NLP学习笔记』Triton推理服务器加速模型推理

Triton推理服务器加速模型推理!

文章目录

  • 一. Triton简要介绍
  • 二. Triton Inference Server安装与使用
    • 2.1. 安装Triton Docker镜像
    • 2.2. 创建模型存储库
    • 2.3. 运行Triton
      • 2.3.1. Run on System with GPUs
      • 2.3.2. Run on CPU-Only System
    • 2.4. 验证Triton是否正确运行
    • 2.5. 获取客户端docker镜像
    • 2.6. 运行图像分类示例
  • 三. Triton Client Libraries
    • 3.1. 获取客户端库和示例(Python)

你可能感兴趣的:(NLP学习笔记,模型部署,ONNX,Pytorch,TensorFlow,Triton)