深度学习-在线推断(Inference)技术

    深度学习一般分为训练和在线推断两个部分,大家平时经常关注的多为训练阶段,也就是搜索和求解模型最优参数的阶段。而当模型参数已经求解出来,如何使用模型,以及在在线环境中部署模型,也是非常重要的。

    一般会比较关注其中的一些技术点:

  •     访问延迟
  •     吞吐量
  •     模型版本管理
  •     DevOps


   大公司较为倾向自己造轮子,而小公司更倾向于用开源方案。

    1 软件层:

    1.1 Tensorflow Serving:

TensorFlow Serving 是一个用于机器学习模型 serving 的高性能开源库。它可以将训练好的机器学习模型部署到线上,使用 gRPC 作为接口接受外部调用。更加让人眼前一亮的是,它支持模型热更新与自动模型版本管理。这意味着一旦部署 TensorFlow Serving 后,你再也不需要为线上服务操心,只需要关心你的线下模型训练。

    1.2 Nginx等服务软件。

    1.3 或采用自研Model Serving服务器。

    2 硬件层:

    CPU方案:较为常用方式。

    GPU方案:英伟达也推出了适合在线推断场景的GPU型号。

    FPGA方案:一些公有云厂商尝试尝试退出FPGA在线推断的云服务,一些有较强自研能力的AI公司也开始尝试FPGA。


友情推荐:ABC技术研习社

为技术人打造的专属A(AI),B(Big Data),C(Cloud)技术公众号和技术交流社群。



你可能感兴趣的:(基础架构,在线推断,AI,深度学习,FPGA,Tensorflow,Serving)