简单介绍
tensorflow 训练后得到的SavedModel 文件一般可以使用 tf.serving 进行部署,稳定且方便调用。 如果后续模型更新了,直接将模型文件拷贝至对应模型保存路径中。serving会根据模型版本号去自动加载。这样就方便了以后的模型更新操作。
相应的操作步骤可以参考以下代码,尤其是模型调用 这部分。
博客记录内容较为简单,建议看官们在部署过程中先了解一下官方serving github项目。
docker及对应的serving镜像环境准备
安装docker
docker安装命令请参考官网页面。安装nvidia-docker
nvidia-docker可以支持模型应用在GPU上运行,安装nvidia-docker请参考官方页面。拉取Tensorflow Serving GPU docker image
在docker hub中,tensorflow 官方已经提供了多个版本的Tensorflow Serving 镜像,在该官方镜像list 可以找到相应的版本。例如你的代码是基于tensorflow 1.11.1的话,那就可以选择“1.11.1”、“1.11.1-devel”、“1.11.1-devel-gpu”、“1.11.1-gpu”,这几个的区别在于,只有版本号不带devel的是cpu版本,是官方封装好的docker,无法对其进行任何修改;带devel的是development版本,你可以进入镜像的容器里面修改配置,然后使用docker的commit命令来保存修改;带gpu的是gpu版本,同样如果不带devel就无法修改里面的配置。
基于下载好的serving镜像进行服务部署
Serving部署的服务可对外开放两种API: Client REST API 和 grpc API, 分别对应端口8501 和 8500。
以下是我部署服务使用的示例指令,此处使用 tensorflow/serving:1.14.0-gpu 镜像。
其中第一个8500对应着这次部署服务对外开放的端口,可以根据情况修改为自己需要的端口, 第二个8500指明使用 grpc API。 相应的,我的调用代码也使用 python版本的 grpc API。
## 服饰关键点模型
docker run --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=1 -it -p 8500:8500 \
-v "/data/project/clothes_keypoints_detection_server/code/code/saved_models:/models/clothes_keypoints" \
-e MODEL_NAME=clothes_keypoints tensorflow/serving:1.14.0-gpu \
--per_process_gpu_memory_fraction=0.5
Python调用部署tf.Serving服务
此处给出官方的示例地址(https://github.com/tensorflow/serving/tree/master/tensorflow_serving/example
)。
同时,以下为我的一个服务调用代码示例。
from grpc.beta import implementations
import tensorflow as tf
from tensorflow_serving.apis import predict_pb2
from tensorflow_serving.apis import prediction_service_pb2
class KeyPointDetector:
def __init__(self, hostport, model_name):
self.hostport = hostport
self.model_name = model_name
def do_inference(self,
crop_image,
box,
ori_shape,
shape_bbox,
signature_name=None):
"""Tests PredictionService with concurrent requests.
Args:
hostport: Host:port address of the Prediction Service.
Returns:
pred values, ground truth label
"""
host, port = self.hostport.split(':')
channel = implementations.insecure_channel(host, int(port))
stub = prediction_service_pb2.beta_create_PredictionService_stub(
channel)
# fill in the request object with the necessary data
request = predict_pb2.PredictRequest()
request.model_spec.name = self.model_name
# request.model_spec.signature_name = 'pred_v'
request.inputs['crop_image_processed'].CopyFrom(
tf.contrib.util.make_tensor_proto(np.array(crop_image).astype(
np.float32),
shape=[384, 384, 3]))
request.inputs['boxes'].CopyFrom(
tf.contrib.util.make_tensor_proto(np.array(box).astype(np.float32),
shape=[1, 4]))
request.inputs['ori_shape'].CopyFrom(
tf.contrib.util.make_tensor_proto(np.array(ori_shape).astype(
np.float32),
shape=[3]))
request.inputs['shape_bbox'].CopyFrom(
tf.contrib.util.make_tensor_proto(np.array(shape_bbox).astype(
np.float32),
shape=[3]))
# predict
response = stub.Predict(request, 30.0) # 5 seconds
pred_x_ratio = np.asarray(
response.outputs["pred_x_ratio"].float_val).tolist()
pred_y_ratio = np.asarray(
response.outputs["pred_y_ratio"].float_val).tolist()
preds_class = np.asarray(
response.outputs["preds_class"].int64_val).tolist()
fpred_x_bbox = np.asarray(
response.outputs["fpred_x_bbox"].float_val).tolist()
fpred_y_bbox = np.asarray(
response.outputs["fpred_y_bbox"].float_val).tolist()
pred_max = np.asarray(response.outputs["pred_max"].float_val).tolist()
pred_max = np.asarray(response.outputs["pred_max"].float_val).tolist()
return pred_x_ratio, pred_y_ratio, preds_class, fpred_x_bbox, fpred_y_bbox, pred_max
返回数据格式选择
如果不是像我上文一样获取一个List,而是有自己的返回格式需求:
outputs_tensor_proto = result.outputs["outputs"]
## 恢复返回的张量,并保存原有的shape
shape = tf.TensorShape(outputs_tensor_proto.tensor_shape)
outputs = tf.constant(outputs_tensor_proto.float_val, shape=shape)
## 想获取 Numpy 矩阵,则使用该代码
outputs = np.array(outputs_tensor_proto.float_val).reshape(shape.as_list())
## 如果你不想依赖tensorflow的库
shape = [dim.size for dim in outputs_tensor_proto.tensor_shape.dim]
outputs = np.array(outputs_tensor_proto.float_val).reshape(shape)
参考资料
https://zhuanlan.zhihu.com/p/52096200
https://www.tensorflow.org/tfx/serving/docker
https://github.com/tensorflow/serving