SavedModel搭配tf.serving 深度学习模型工业部署及调用案例

简单介绍

tensorflow 训练后得到的SavedModel 文件一般可以使用 tf.serving 进行部署,稳定且方便调用。 如果后续模型更新了,直接将模型文件拷贝至对应模型保存路径中。serving会根据模型版本号去自动加载。这样就方便了以后的模型更新操作。
相应的操作步骤可以参考以下代码,尤其是模型调用 这部分。
博客记录内容较为简单,建议看官们在部署过程中先了解一下官方serving github项目。

docker及对应的serving镜像环境准备

  1. 安装docker
    docker安装命令请参考官网页面。

  2. 安装nvidia-docker
    nvidia-docker可以支持模型应用在GPU上运行,安装nvidia-docker请参考官方页面。

  3. 拉取Tensorflow Serving GPU docker image
    在docker hub中,tensorflow 官方已经提供了多个版本的Tensorflow Serving 镜像,在该官方镜像list 可以找到相应的版本。例如你的代码是基于tensorflow 1.11.1的话,那就可以选择“1.11.1”、“1.11.1-devel”、“1.11.1-devel-gpu”、“1.11.1-gpu”,这几个的区别在于,只有版本号不带devel的是cpu版本,是官方封装好的docker,无法对其进行任何修改;带devel的是development版本,你可以进入镜像的容器里面修改配置,然后使用docker的commit命令来保存修改;带gpu的是gpu版本,同样如果不带devel就无法修改里面的配置。

基于下载好的serving镜像进行服务部署

Serving部署的服务可对外开放两种API: Client REST API 和 grpc API, 分别对应端口8501 和 8500。
以下是我部署服务使用的示例指令,此处使用 tensorflow/serving:1.14.0-gpu 镜像。
其中第一个8500对应着这次部署服务对外开放的端口,可以根据情况修改为自己需要的端口, 第二个8500指明使用 grpc API。 相应的,我的调用代码也使用 python版本的 grpc API。

## 服饰关键点模型 
docker run --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=1 -it -p 8500:8500  \
 -v "/data/project/clothes_keypoints_detection_server/code/code/saved_models:/models/clothes_keypoints" \
 -e MODEL_NAME=clothes_keypoints tensorflow/serving:1.14.0-gpu \
 --per_process_gpu_memory_fraction=0.5

Python调用部署tf.Serving服务

此处给出官方的示例地址(https://github.com/tensorflow/serving/tree/master/tensorflow_serving/example
)。
同时,以下为我的一个服务调用代码示例。

from grpc.beta import implementations
import tensorflow as tf
from tensorflow_serving.apis import predict_pb2
from tensorflow_serving.apis import prediction_service_pb2

class KeyPointDetector:
    def __init__(self, hostport, model_name):
        self.hostport = hostport
        self.model_name = model_name

    def do_inference(self,
                     crop_image,
                     box,
                     ori_shape,
                     shape_bbox,
                     signature_name=None):
        """Tests PredictionService with concurrent requests.
        Args:
        hostport: Host:port address of the Prediction Service.
        Returns:
        pred values, ground truth label
        """
        host, port = self.hostport.split(':')
        channel = implementations.insecure_channel(host, int(port))
        stub = prediction_service_pb2.beta_create_PredictionService_stub(
            channel)

        # fill in the request object with the necessary data
        request = predict_pb2.PredictRequest()
        request.model_spec.name = self.model_name
        #     request.model_spec.signature_name = 'pred_v'

        request.inputs['crop_image_processed'].CopyFrom(
            tf.contrib.util.make_tensor_proto(np.array(crop_image).astype(
                np.float32),
                                              shape=[384, 384, 3]))
        request.inputs['boxes'].CopyFrom(
            tf.contrib.util.make_tensor_proto(np.array(box).astype(np.float32),
                                              shape=[1, 4]))
        request.inputs['ori_shape'].CopyFrom(
            tf.contrib.util.make_tensor_proto(np.array(ori_shape).astype(
                np.float32),
                                              shape=[3]))
        request.inputs['shape_bbox'].CopyFrom(
            tf.contrib.util.make_tensor_proto(np.array(shape_bbox).astype(
                np.float32),
                                              shape=[3]))
        # predict
        response = stub.Predict(request, 30.0)  # 5 seconds

        pred_x_ratio = np.asarray(
            response.outputs["pred_x_ratio"].float_val).tolist()
        pred_y_ratio = np.asarray(
            response.outputs["pred_y_ratio"].float_val).tolist()
        preds_class = np.asarray(
            response.outputs["preds_class"].int64_val).tolist()
        fpred_x_bbox = np.asarray(
            response.outputs["fpred_x_bbox"].float_val).tolist()
        fpred_y_bbox = np.asarray(
            response.outputs["fpred_y_bbox"].float_val).tolist()
        pred_max = np.asarray(response.outputs["pred_max"].float_val).tolist()
        pred_max = np.asarray(response.outputs["pred_max"].float_val).tolist()
        return pred_x_ratio, pred_y_ratio, preds_class, fpred_x_bbox, fpred_y_bbox, pred_max

返回数据格式选择

如果不是像我上文一样获取一个List,而是有自己的返回格式需求:

outputs_tensor_proto = result.outputs["outputs"]
## 恢复返回的张量,并保存原有的shape
shape = tf.TensorShape(outputs_tensor_proto.tensor_shape)
outputs = tf.constant(outputs_tensor_proto.float_val, shape=shape)
## 想获取 Numpy 矩阵,则使用该代码
outputs = np.array(outputs_tensor_proto.float_val).reshape(shape.as_list())
## 如果你不想依赖tensorflow的库
shape = [dim.size for dim in outputs_tensor_proto.tensor_shape.dim]
outputs = np.array(outputs_tensor_proto.float_val).reshape(shape)

参考资料
https://zhuanlan.zhihu.com/p/52096200
https://www.tensorflow.org/tfx/serving/docker
https://github.com/tensorflow/serving

你可能感兴趣的:(SavedModel搭配tf.serving 深度学习模型工业部署及调用案例)