在Amazon SageMaker上快速、灵活构建TensorFlow模型的在线推理服务

背景介绍

当算法工程师在本地使用TensorFlow深度学习框架训练好模型后，会创建模型服务器供应用程序调用实现在线推理。由于部署本身存在一定的复杂性，他们需要考虑如何安装TensorFlow Serving相关的依赖，如何实现模型服务的高可用、请求负载均衡、A/B测试、自动伸缩机制等。Amazon SageMaker可以帮助用户快速创建多台模型服务器进行负载均衡，利用云上多可用区的方式实现高可用，并且在请求量变化时可以根据用户配置的策略进行自动扩展或收缩。本文会介绍如何将本地训练好的TensorFlow模型部署到Amazon SageMaker来快速、灵活地创建TensorFlow模型服务器。

1. TensorFlow Serving请求数据格式

在将模型部署到Amazon SageMaker之前，我们首先要了解TensorFlow Serving的SignatureDefs，它标识了保存模型时所需的接受请求函数的输入与输出，不同SignatureDefs下的请求数据格式不同。TensorFlow Serving支持gRPC API与RESTful API两种方式进行请求，本文以RESTful API的方式为例。

SignatureDefs：
https://www.tensorflow.org/tf...

1.1 Classify与Regress API

Classify与Regress 的SignatureDefs分别支持分类与回归的TersorFlow Serving结构化调用方式。即当Serving的输入函数封装了tf.Example（一种灵活的消息类型，表示{“string”: value}的映射，常用来进行训练过程中的数据流式传输或解析feature_column中的特征列），需要调用该API进行推理。

参考以下代码，在保存模型时指定input_receiver_fn作为接受请求函数，其中定义了将feature_column解析为tf.Example消息类型的过程，然后输入给模型进行推理。

def input_receiver_fn(features):
    example_spec = tf.feature_column.make_parse_example_spec(features)
    return tf.estimator.export.build_parsing_serving_input_receiver_fn(
        example_spec, default_batch_size=5)
model.export_savedmodel(export_dir, input_receiver_fn(features))

左右滑动查看更多

在创建模型服务器后，若想对服务器进行请求得到推理结果，就需要将数据构造成Classify与Regress API所能接受的格式，如下所示：

{
  // Optional: serving signature to use.
  // If unspecifed default serving signature is used.
  "signature_name": ,

  // Optional: Common context shared by all examples.
  // Features that appear here MUST NOT appear in examples (below).
  "context": {
    "": |
    "": |
  },

  // List of Example objects
  "examples": [
    {
      // Example 1
      "": |,
      "": |,
      ...
    },
    {
      // Example 2
      "": |,
      "": |,
      ...
    }
    ...
  ]
}

1.2 Predict API

Predict SignatureDefs支持将tensor作为输入和输出，可通用于分类与回归的推理问题类型。参考以下代码，在input_receiver_fn函数中，读取到数据后构造成tensor，作为模型的输入。

def input_receiver_fn ():
    feature_map = {}
    for i in range(len(iris_data.CSV_COLUMN_NAMES) -1):
        feature_map[iris_data.CSV_COLUMN_NAMES[i]] = tf.placeholder(
            tf.float32,shape=[3],name='{}'.format(iris_data.CSV_COLUMN_NAMES[i]))
    return tf.estimator.export.build_raw_serving_input_receiver_fn(feature_map)
model.export_savedmodel(export_dir_base=export_dir,serving_input_receiver_fn=input_receiver_fn ())

左右滑动查看更多

该情况下对模型服务器发起请求就需要使用Predict API，其所能接受的数据格式如下所示：

{
  // (Optional) Serving signature to use.
  // If unspecifed default serving signature is used.
  "signature_name": ,

  // Input Tensors in row ("instances") or columnar ("inputs") format.
  // A request can have either of them but NOT both.
  "instances": |<(nested)list>|
  "inputs": |<(nested)list>|