SavedModel搭配tf.serving 深度学习模型工业部署及调用案例

简单介绍

tensorflow 训练后得到的SavedModel 文件一般可以使用 tf.serving 进行部署，稳定且方便调用。如果后续模型更新了，直接将模型文件拷贝至对应模型保存路径中。serving会根据模型版本号去自动加载。这样就方便了以后的模型更新操作。
相应的操作步骤可以参考以下代码，尤其是模型调用 这部分。
博客记录内容较为简单，建议看官们在部署过程中先了解一下官方serving github项目。

docker及对应的serving镜像环境准备

安装docker
docker安装命令请参考官网页面。
安装nvidia-docker
nvidia-docker可以支持模型应用在GPU上运行，安装nvidia-docker请参考官方页面。
拉取Tensorflow Serving GPU docker image
在docker hub中，tensorflow 官方已经提供了多个版本的Tensorflow Serving 镜像，在该官方镜像list 可以找到相应的版本。例如你的代码是基于tensorflow 1.11.1的话，那就可以选择“1.11.1”、“1.11.1-devel”、“1.11.1-devel-gpu”、“1.11.1-gpu”，这几个的区别在于，只有版本号不带devel的是cpu版本，是官方封装好的docker，无法对其进行任何修改；带devel的是development版本，你可以进入镜像的容器里面修改配置，然后使用docker的commit命令来保存修改；带gpu的是gpu版本，同样如果不带devel就无法修改里面的配置。

基于下载好的serving镜像进行服务部署

Serving部署的服务可对外开放两种API： Client REST API 和 grpc API, 分别对应端口8501 和 8500。
以下是我部署服务使用的示例指令，此处使用 tensorflow/serving:1.14.0-gpu 镜像。
其中第一个8500对应着这次部署服务对外开放的端口，可以根据情况修改为自己需要的端口，第二个8500指明使用 grpc API。相应的，我的调用代码也使用 python版本的 grpc API。

## 服饰关键点模型 
docker run --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=1 -it -p 8500:8500  \
 -v "/data/project/clothes_keypoints_detection_server/code/code/saved_models:/models/clothes_keypoints" \
 -e MODEL_NAME=clothes_keypoints tensorflow/serving:1.14.0-gpu \
 --per_process_gpu_memory_fraction=0.5

Python调用部署tf.Serving服务

此处给出官方的示例地址（https://github.com/tensorflow/serving/tree/master/tensorflow_serving/example
）。
同时，以下为我的一个服务调用代码示例。

from grpc.beta import implementations
import tensorflow as tf
from tensorflow_serving.apis import predict_pb2
from tensorflow_serving.apis import prediction_service_pb2

class KeyPointDetector:
    def __init__(self, hostport, model_name):
        self.hostport = hostport
        self.model_name = model_name

    def do_inference(self,
                     crop_image,
                     box,
                     ori_shape,
                     shape_bbox,
                     signature_name=None):
        """Tests PredictionService with concurrent requests.
        Args:
        hostport: Host:port address of the Prediction Service.
        Returns:
        pred values, ground truth label
        """
        host, port = self.hostport.split(':')
        channel = implementations.insecure_channel(host, int(port))
        stub = prediction_service_pb2.beta_create_PredictionService_stub(
            channel)

        # fill in the request object with the necessary data
        request = predict_pb2.PredictRequest()
        request.model_spec.name = self.model_name
        #     request.model_spec.signature_name = 'pred_v'

        request.inputs['crop_image_processed'].CopyFrom(
            tf.contrib.util.make_tensor_proto(np.array(crop_image).astype(
                np.float32),
                                              shape=[384, 384, 3]))
        request.inputs['boxes'].CopyFrom(
            tf.contrib.util.make_tensor_proto(np.array(box).astype(np.float32),
                                              shape=[1, 4]))
        request.inputs['ori_shape'].CopyFrom(
            tf.contrib.util.make_tensor_proto(np.array(ori_shape).astype(
                np.float32),
                                              shape=[3]))
        request.inputs['shape_bbox'].CopyFrom(
            tf.contrib.util.make_tensor_proto(np.array(shape_bbox).astype(
                np.float32),
                                              shape=[3]))
        # predict
        response = stub.Predict(request, 30.0)  # 5 seconds

        pred_x_ratio = np.asarray(
            response.outputs["pred_x_ratio"].float_val).tolist()
        pred_y_ratio = np.asarray(
            response.outputs["pred_y_ratio"].float_val).tolist()
        preds_class = np.asarray(
            response.outputs["preds_class"].int64_val).tolist()
        fpred_x_bbox = np.asarray(
            response.outputs["fpred_x_bbox"].float_val).tolist()
        fpred_y_bbox = np.asarray(
            response.outputs["fpred_y_bbox"].float_val).tolist()
        pred_max = np.asarray(response.outputs["pred_max"].float_val).tolist()
        pred_max = np.asarray(response.outputs["pred_max"].float_val).tolist()
        return pred_x_ratio, pred_y_ratio, preds_class, fpred_x_bbox, fpred_y_bbox, pred_max

返回数据格式选择

如果不是像我上文一样获取一个List，而是有自己的返回格式需求：

outputs_tensor_proto = result.outputs["outputs"]
## 恢复返回的张量，并保存原有的shape
shape = tf.TensorShape(outputs_tensor_proto.tensor_shape)
outputs = tf.constant(outputs_tensor_proto.float_val, shape=shape)
## 想获取 Numpy 矩阵，则使用该代码
outputs = np.array(outputs_tensor_proto.float_val).reshape(shape.as_list())
## 如果你不想依赖tensorflow的库
shape = [dim.size for dim in outputs_tensor_proto.tensor_shape.dim]
outputs = np.array(outputs_tensor_proto.float_val).reshape(shape)

参考资料
https://zhuanlan.zhihu.com/p/52096200
https://www.tensorflow.org/tfx/serving/docker
https://github.com/tensorflow/serving