Sonhhxg_柒

【ML on Kubernetes】第 7 章：模型部署和自动化

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

文章目录

技术要求

使用 Seldon Core 理解模型推理

使用 Python 包装模型

将模型容器化

使用 Seldon 控制器部署模型

使用 Seldon Core 打包、运行和监控模型

介绍 Apache Airflow

了解DAY

探索 Airflow功能

了解 Airflow组件

验证 Airflow 安装

配置 Airflow DAG 存储库

配置 Airflow 运行时映像

在 Airflow 中自动化 ML 模型部署

使用管道编辑器创建管道

概括

在上一章中，您看到了该平台如何使您能够以自主方式构建和注册模型。在本章中，我们将扩展机器学习( ML ) 工程领域，以对部署活动的部署、监控和自动化进行建模。

您将了解该平台如何提供模型打包和部署功能，以及如何实现它们的自动化。您将从注册表中获取模型，将其打包为容器，并将模型部署到平台上以作为 API 使用。然后，您将使用平台提供的工作流引擎自动执行所有这些步骤。

部署模型后，它就可以很好地用于训练它的数据。然而，现实世界发生了变化。您将看到该平台如何让您观察模型的性能。本章讨论监控模型性能的工具和技术。性能数据可用于决定模型是否需要在新数据集上重新训练，或者是否是时候为给定问题构建新模型了。

在本章中，您将了解以下主题：

使用 Seldon Core 理解模型推理
使用 Seldon Core 打包、运行和监控模型
了解 Apache Airflow
在 Airflow 中自动化 ML 模型部署

技术要求

本章包括一些动手设置和练习。您将需要一个使用Operator Lifecycle Manager配置的正在运行的 Kubernetes 集群。第 3 章“探索 Kubernetes”中介绍了构建这样的 Kubernetes 环境。在尝试本章中的技术练习之前，请确保您有一个正常工作的 Kubernetes 集群，并且在您的 Kubernetes 集群上安装了开放数据中心( ODH )。第 4 章“机器学习平台剖析”中介绍了 ODH 的安装。

使用 Seldon Core 理解模型推理

在里面以前的章，你建立了模型。这些模型由数据科学团队构建，用于生产并服务于预测请求。在生产中使用模型的方法有很多，例如将模型嵌入到面向客户的程序中，但最常见的方法是将模型公开为 REST API。然后，任何应用程序都可以使用 REST API。一般来说，在生产环境中运行和服务模型是称为模型服务。

但是，一旦模型投入生产，就需要对其性能进行监控，并且需要进行更新以满足预期标准。托管模型解决方案使您不仅可以为模型提供服务，还可以监控其性能并生成可用于触发模型重新训练的警报。

Seldon 是一家总部位于英国的公司，它创建了一套工具来管理模型的生命周期。Seldon Core 是一个开源框架，有助于公开 ML 模型以作为 REST API 使用。Seldon Core 自动公开 REST API 的监控统计信息，平台的监控组件Prometheus可以使用这些统计信息。要将您的模型公开为平台中的 REST API，需要执行以下步骤：

为您的模型编写一个特定于语言的包装器以作为服务公开。
将您的模型容器化。
定义和使用 Kubernetes中的 Seldon 部署自定义资源( CR )使用模型的推理图部署模型

接下来，我们将详细了解这三个步骤。

使用 Python 包装模型

让我们来看看如何您可以应用前面的步骤。在第 6 章，机器学习工程中，您向 MLflow 服务器注册了实验详细信息和模型。回想一下，模型文件存储在 MLflow 的工件中并命名为model.pkl。

让我们获取模型文件并围绕它编写一个简单的 Python 包装器。包装器的工作是使用 Seldon 库将模型方便地公开为 REST 服务。您可以在chapter7/model_deploy_pipeline/model_build_push/Predictor.py的代码中找到包装器的示例。这个包装器的关键组件是一个名为predict的函数，该函数将从 Seldon 框架创建的 HTTP 端点调用。图 7.1显示了一个简单的Python使用joblib模型的包装器：

图 7.1 – 模型预测的 Python 语言包装器

predict函数接收从 HTTP 请求序列化的numpy数组( data_array ) 和一组列名 ( column_names )。该方法以numpy数组或值或字节列表的形式返回预测结果。语言包装器还有更多可用的方法，完整列表可在Seldon Python Component — seldon-core documentation获得. 请注意，在本书后面的章节中，您将看到一个更全面的推理示例，该示例将在预测之前为数据转换提供额外的包装器。但是，对于这一章，我们尽量保持简单。

语言包装器已经准备好，下一阶段是容器化模型和语言包装器。

将模型容器化

你会怎么放入容器中？让我们从一个列表开始。您将需要模型和包装文件。您将需要容器中可用的 Seldon Python 包。拥有所有这些包后，您将使用 Seldon 服务来公开模型。图 7.2显示了一个Docker文件，它正在构建一个这样的容器。该文件在第 7 章/model_deployment_pipeline/model_build_push/Dockerfile.py中可用。

图 7.2 – 将模型打包为容器的 Docker 文件

现在，让我们了解一下 Docker 文件的内容：

第 1 行表示模型服务的基本容器映像。我们选择了 Red Hat 提供的免费映像，但您可以根据自己的方便进行选择。此映像可以是您组织的基础映像，其中包含标准版本的 Python 和相关软件。
在第 3 行中，我们创建了一个微服务目录来将所有相关的工件放置在我们的容器中。
在第 4 行，我们需要构建容器的第一个文件是base_requirements.txt。该文件包含 Seldon Core 系统的包和依赖项。你可以在chapter7/model_deployment_pipeline/model_build_push/base_requirements.txt找到这个文件。在此文件中，您将看到 Seldon Core 包和joblib包已被添加。

图 7.3显示了base_requirements.txt文件：

图 7.3 – 将 Seldon 和 Joblib 添加到容器的文件

第 5 行使用base_requirements.txt文件将 Python 包安装到容器中。
在第 7 行和第 8行中，当您训练模型时，您可能会使用不同的包。在推理过程中，可能需要一些包；例如，如果您在使用库进行模型训练之前已完成输入数据缩放，则可能需要相同的库在推理时应用缩放。

在第 6 章，机器学习工程中，您注册了实验细节和模型。与 MLflow 服务器。回想一下，模型文件与包含用于训练名为requirements.txt的模型的包的文件一起存储在工件中。使用 MLflow 生成的requirements.txt文件，您可以安装运行模型所需的包，或者您可以选择自行将这些依赖项添加到自定义文件中。图 7.4显示了第 6 章机器学习工程中提到的 MLflow 快照。您可以在model.pkl文件旁边看到requirements.txt文件。

图 7.4 – MLflow 运行工件

第 10 行：添加语言包装文件和模型文件到容器。

第 11 行：在这里，您正在使用seldon-core-microservice服务器来启动推理服务器。请注意，这里已经传递了参数，在下一节中，您将看到我们如何传递这些参数：

MODEL_NAME：这是包含模型的语言包装器中 Python 类的名称。
SERVICE_TYPE：此参数包含在推理管道中创建的服务类型。回想一下，推理管道可能包含模型执行或数据转换，或者它可能是异常值检测器。对于模型执行，此参数的值为MODEL。
GRPC_PORT : 端口Google 远程过程调用( gRPC )端点将侦听模型推理。
METRICS_PORT：将公开服务性能数据的端口。请注意，这是服务的性能数据，而不是模型。
HTTP_NAME：您将通过 HTTP 为模型提供服务的 HTTP 端口。

现在，我们有一个Docker 文件形式的容器规范。接下来，我们将了解如何使用 Seldon 控制器在 Kubernetes 平台上部署容器。

使用 Seldon 控制器部署模型

我们的机器学习平台提供了一个 Seldon 控制器，这是一个作为 pod 运行的软件，可帮助部署您在上一节中构建的容器。请注意，我们平台中的控制器是现有 Seldon 算子的扩展。在撰写本文时，Seldon 算子与 Kubernetes 1.22 版本不兼容，因此我们扩展了现有算子以与 Kubernetes 平台的最新和未来版本一起工作。

请参阅第 4 章，机器学习平台剖析，了解如何安装 ODH 以及它如何在 Kubernetes 集群上工作。以等效的方式，Seldon 控制器也由 ODH 运营商安装。manifests/ml-platform.yaml文件包含用于安装 Seldon 控制器的配置。图 7.5显示了设置：

图 7.5 – 清单文件的 MLFlow 部分

让我们验证一下 Seldon 控制器是否在集群中正确运行：

kubectl get pods –n ml-workshop | grep -i seldon

您应该看到以下响应：

图 7.6 – Seldon 控制器吊舱

Seldon 控制器 pod 由 ODH 操作员安装，它们监视 Seldon 部署 CR。这个此资源的架构由 Seldon Deployment自定义资源定义( CRD ) 定义；您可以在manifests/odhseldon/cluster/base/seldon-operator-crd-seldondeployments.yaml找到 CRD 。创建 Seldon Deployment CR 后，控制器会部署与 CR 关联的 Pod。图 7.7显示了这种关系：

图 7.7 – 部署 Seldon 服务的平台组件

让我们来看看这Seldon Deployment CR 的不同组件。您可以在chapter7/manual_model_deployment/SeldonDeploy.yaml中找到一个简单的示例。

Seldon Deployment CR 包含 Seldon 控制器在 Kubernetes 集群上部署模型所需的所有信息。Seldon 部署 CR 包含三个主要部分：

一般信息：这是描述apiVersion、kind和其他 Kubernetes 相关信息的部分。您将 Seldon 部署的标签和名称定义为任何其他 Kubernetes 对象。您可以在以下屏幕截图中看到它包含对象的标签和注释：

图 7.8 – Seldon 部署 – Kubernetes 相关信息

容器规范：第二部分是您提供有关容器位置、部署和服务的水平 pod 扩展配置的详细信息。请注意，这与您在 precedin 中构建的容器相同g部分。图 7.7包含chapter7/manual_model_deployment/SeldonDeploy.yaml文件中包含此信息的部分。

请注意，容器为图像对象采用一个数组，因此您可以添加更多图片给它。图像键将包含您的容器的位置。env数组定义了可用于 pod 的环境变量。回想一下，在上一节的 Docker 文件中，已经使用了这些变量。MODEL_NAME的值为Predictor，它是您用作包装器的类的名称。SERVICE_TYPE的值为MODEL，表示该容器提供的服务类型。

最后一部分是hpaSpec，Seldon 控制器会将其转换为Kubernetes Horizontal Pod Autoscaler对象。通过这些设置，您可以在服务推理调用时控制 pod 的可扩展性。对于以下示例，maxReplicas设置为1，因此不会有任何新的 pod，但您可以为每个部署控制此值。如果以下示例中 Pod 的 CPU 利用率超过 80%，则可扩展性将发挥作用；但是，由于maxReplica为1，因此不会创建任何新的 Pod。

图 7.9 – Seldon 部署 – Seldon 服务容器

推理图：部分在图形键下为您的服务构建推理图。推理图将具有不同的节点，您将定义每个节点将使用的容器。您将看到有一个children键，它带有一个对象数组，您可以通过这些对象定义推理图。对于这个例子，graph只有一个节点，而children键没有与之关联的信息；但是，在后面的章节中，您将看到如何构建具有更多节点的推理图。

图下的其余字段定义推理图的第一个节点。name字段的值与您在容器部分中给出的名称相对应。请注意，这是 Seldon 知道哪个容器将在推理图的此节点上提供服务的关键。

另一个重要的部分是记录器部分。Seldon 可以自动将请求和响应转发到记录器部分下提到的 URL 。这转发请求和响应的能力可用于多种场景，例如出于审计/法律原因存储有效负载或应用数据漂移算法来触发再训练或其他任何事情。请注意，如果需要，Seldon 也可以转发到 Kafka，但这超出了本书的范围。

图 7.10 – Seldon 部署 – 推理图

使用常规kubectl命令创建 Seldon 部署 CR 后，Seldon 控制器将部署 pod，并且该模型将可作为服务使用。

接下来，我们将继续打包和部署您在第 6 章机器学习工程中构建的基本模型。

使用 Seldon Core 打包、运行和监控模型

在这个部分，你将要包裹和从您在第 6 章机器 学习工程中构建的模型文件构建容器。然后，您将使用 Seldon 部署来部署和访问模型。在本书的后面部分，您将自动化该过程，但要手动完成，就像您将在本节中所做的那样，我们将进一步加强您对组件及其工作方式的理解。

在开始本练习之前，请确保您已使用公共 Docker 注册表创建了一个帐户。我们将使用免费的quay.io作为我们的注册表，但您可以自由使用您喜欢的注册表：

1.让我们首先验证 MLflow 和 Minio（我们的 S3 服务器）是否在我们的集群中运行：

kubectl get pods -n ml-workshop | grep -iE 'mlflow|minio'

您应该看到以下响应：

图 7.11 – MLflow 和 Minio 在平台上运行

2.获取 MLflow 的入口列表，并使用以下输出中的mlflow URL 登录到 MLflow：

kubectl get ingresses.networking.k8s.io -n ml-workshop

您应该看到以下响应：

图 7.12 – Kubernetes 集群中的入口

3.进入 MLflow UI 后，导航到您在第 6 章机器学习工程中记录的实验。实验的名称是HelloMIFlow。

图 7.13 – MlFlow 实验跟踪

4.选择这第一的从右手边跑控制板要得到到运行的详细信息页面。在Artifacts部分，单击model.pkl，您将在右侧看到一个小的下载箭头图标。使用图标从此屏幕下载model.pkl和requirements.txt文件。

图 7.14 – MLflow 实验跟踪 – 运行细节

5.前往文件夹在哪里你有克隆的本书附带的代码库。如果您还没有这样做，请在您的本地计算机上克隆https://github.com/PacktPublishing/Machine-Learning-on-Kubernetes.git存储库。

6.然后，进入chapter7/model_deploy_pipeline/model_build_push文件夹，将上一步下载的两个文件复制到这个文件夹中。最后，此文件夹将包含以下文件：

图 7.15 – 将模型打包为容器的示例文件

笔记

最后两个文件是您刚刚复制的文件。所有其他文件都来自您克隆的代码存储库。

好奇的人会注意到，您从 MLFlow 服务器下载的requirements.txt文件包含运行 notebook 进行模型训练时所需的包。并非所有这些包（例如mlflow）都需要执行保存的模型。为了简单起见，我们将把它们全部添加到我们的容器中。

7.现在，让's 在本地机器上构建容器：

docker build -t hellomlflow-manual:1.0.0 。

你应该看这下列的回复：

图 7.16 – 将模型打包成一个容器

8.下一步是标记容器并将其推送到您选择的存储库。在将映像推送到存储库之前，您需要拥有一个具有映像注册表的帐户。如果您没有，可以在https://hub.docker.com或https://quay.io创建一个。创建注册表后，您可以运行以下命令来标记和推送图像：

docker tag hellomlflow-manual:1.0.0 /hellomlflow-manual:1.0.0

docker push  /hellomlflow-manual:1.0.0

你应该看这下列的回复。你会注意到，在以下屏幕截图中，我们将quay.io/ml-on-k8s称为我们的注册表：

图 7.17 – 将模型推送到公共存储库

9.现在您的容器在注册表中可用，您将需要使用 Seldon Deployment CR 将其部署为服务。打开chapter7/manual_model_deployment/SeldonDeploy.yaml文件，调整镜像位置。

在我修改第 16 行（根据我的图像位置）后，您可以看到该文件，如下所示：

图 7.18 – Seldon 部署 CR 与映像位置

10.让我们部署这模型作为一项服务通过部署chapter7/manual_model_deployment/SeldonDeploy.yaml文件。运行以下命令：

kubectl create -f chapter7/manual_model_deployment/SeldonDeploy.yaml -n ml-workshop

您应该看到以下响应：

图 7.19 – 创建 Seldon 部署 CR

11.验证容器是否处于运行状态。运行以下命令：

kubectl get pod -n ml-workshop | grep model-test-predictor

您会注意到，您在SeldonDeploy.yaml文件 ( model-test-predictor ) 的图形部分中输入的名称是容器名称的一部分。

您应该看到以下响应：

图 7.20 – 在 Seldon Deployment CR 之后验证 pod

12.伟大的！您有一个作为服务运行的模型。现在，让我们看看创建的 pod 中有什么为了我们由 Seldon 控制器。运行以下命令以获取列表容器里面我们的在下面：

export POD_NAME=$(kubectl get pod -o=custom-columns=NAME:.metadata.name -n ml-workshop | grep model-test-predictor)

kubectl get pods $POD_NAME -o jsonpath='{.spec.containers[*].name}' -n ml-workshop

您应该看到以下响应：

图 7.21 – Seldon pod 内的容器

您将看到有两个容器。一个是model-test-predictor，也就是我们构建的镜像，第二个容器是seldon-container-engine，也就是 Seldon 服务器。

model-test-predictor容器具有模型，并使用语言包装器通过 HTTP 和 gRPC 公开模型。您可以使用以下命令查看日志以及从model-test-predictor公开了哪些端口：

kubectl logs -f $POD_NAME -n ml-workshop -c model-test-predictor

您应该看到以下响应（以及其他日志）：

图 7.22 – 显示端口的容器日志

您可以看到服务器已准备好在9000上为 HTTP 和在6005上为指标服务器进行调用。该指标服务器将具有基于 Prometheus 的监控在/prometheus端点上公开的数据。你可以看到这个在这下列的部分日志：

图 7.23 – 显示 Prometheus 端点的容器日志

第二个容器是seldon-container-engine，它对推理图进行编排并将有效负载转发到您在 Seldon Deployment CR 的记录器部分中配置的服务。

13.在此步骤中，您将了解 Seldon Deployment CR 为您创建的 Kubernetes 对象。一种简单的查找方法是运行以下命令。此命令依赖于 Seldon 控制器，它使用标签键将其创建的对象标记为seldon-deployment-id，值是您的 Seldon 部署 CR 的名称，即model-test：

kubectl get all -l seldon-deployment-id=model-test -n ml-workshop

您应该看到以下响应：

图 7.24 – Seldon 控制器创建的 Kubernetes 对象

您可以看到使用您在 Seldon Deployment CR 中提供的配置为 Seldon 控制器创建了Deployment 对象、服务和Horizontal Pod Autoscaler ( HPA ) 对象。部署最终会为您的 pod 创建 pod 和副本集。Seldon 控制器使我们可以轻松地在 Kubernetes 平台上部署我们的模型。

14.您可能已经注意到 Seldon Deployment CR 没有创建入口对象。让我们创建入口对象那我们可以从外部调用我们的模型这簇通过如下运行命令。入口对象由chapter7/manual_model_deployment/Ingress.yaml中的文件创建。确保根据您的配置调整主机值，就像您在前面的章节中所做的那样。您还会注意到入口正在将流量转发到端口8000。Seldon 为该端口提供侦听器，该端口编排推理调用。此服务在名为seldon-container-engine的容器中可用：

kubectl create -f chapter7/manual_model_deployment/Ingress.yaml -n ml-workshop

您应该看到以下响应：

图 7.25 – 为我们的服务创建入口对象

通过发出以下命令验证入口是否已创建：

kubectl get ingress -n ml-workshop | grep model-test

您应该看到以下响应：

图 7.26 – 验证我们服务的入口

15.由于我们的 Seldon Deployment CR 引用了一个记录器 URL，因此您将部署一个简单的 HTTP 回显服务器，它只会打印它收到的调用。这将帮助我们验证有效负载是否已转发到 Seldon Deployment CR 的记录器部分中配置的 URL。一个非常简单的回显服务器能够是创建通过这以下命令：

kubectl create -f chapter7/manual_model_deployment/http-echo-service.yaml -n ml-workshop

您应该看到以下响应：

图 7.27 – 创建一个简单的 HTTP 回显服务器来验证有效负载日志

通过发出以下命令来验证 pod 是否已创建：

kubectl get pods  -n ml-workshop | grep logger

您应该看到以下响应：

图 7.28 – 验证一个简单的 HTTP 回显服务器

16.让我们调用我们的模型来预测一些东西。上一章我们开发的模型用处不大，但是会帮助我们理解和验证打包和部署模型的整个过程。

回想一下第 6 章机器学习工程，hellomlflow笔记本的输入形状为(4,2)，输出形状为(4,)。

图 7.29 – 模型的输入和输出

因此，如果我们想至发送数据到在我们的模型中，它将是一个整数对数组，例如 [ 2,1 ]。当您调用您的模型时，输入数据需要在名为data的键下的ndarray字段中。输入如下所示。这是 Seldon 服务期望发送给它的数据的格式：

图 7.30 – 作为 HTTP 有效负载的模型输入

17.接下来是模型的 REST 端点。这将是您在第 13 步中创建的入口和标准 Seldon URL。最终形式如下：http:///api/v1.0/predictions。

就我而言，这将转换为http://model-test.192.168.61.72.nip.io/api/v1.0/predictions。

现在，您拥有了用于发送此请求的有效负载和 URL。

18.在此步骤中，您将调用您的模型。我们正在使用常用的命令行选项进行此调用；但是，您可以选择使用其他软件（例如 Postman）来进行此 HTTP 调用。

您将在调用中使用POST HTTP 动词，然后提供服务的位置。您必须传递Content-Type标头才能提及 JSON 内容和这身体是通过使用curl 程序的data-raw标志：

curl -vvvv -X POST 'http:///api/v1.0/predictions' \--header 'Content-Type: application/json' \--data-raw '{  "data": {    "ndarray": [[2,1]]  }}'

最终请求应如下所示。在进行此调用之前，请确保根据您的入口位置更改 URL：

curl -vvvv -X POST 'http://model-test.192.168.61.72.nip.io/api/v1.0/predictions' \--header 'Content-Type: application/json' \--data-raw '{  "data": {    "ndarray": [[2,1]]  }}'

您应该看到以下响应。请注意，命令的输出显示了与我们的模型相同形状的数组，即(4,)，它位于以下屏幕截图中的ndarray键下：

图 7.31 – 模型推理调用的输出负载

19.现在，让我们验证模型有效负载是否已登录到我们的回显服务器。您正在验证 Seldon 捕获输入和输出并将其发送到所需位置以进行进一步处理的能力，例如漂移检测或审计日志记录：

export LOGGER_POD_NAME=$(kubectl get pod -o=custom-columns=NAME:.metadata.name -n ml-workshop | grep logger)

kubectl logs -f $LOGGER_POD_NAME -n ml-workshop

您将看到输入和输出有效负载有单独的记录。您可以使用ce-requestid密钥相关日志中的两条记录。以下屏幕截图显示主要的领域这捕获的推理调用的输入有效负载：

图 7.32 – 捕获的输入负载转发到 echo pod

下面的截图显示推理调用的输出负载的主要字段：

图 7.33 – 捕获的输出负载转发到 echo pod

20.现在，让我们核实那服务监控数据由 Seldon 引擎捕获，可供我们使用和记录。请注意，Prometheus 的工作方式是重复抓取，因此此数据处于当前状态，Prometheus 服务器负责调用此 URL 并记录在其数据库中。

此信息的 URL 格式如下。入口与您在步骤 13中创建的相同：

http:///prometheus

对于我的入口，这将转化为以下内容：

http://model-test.192.168.61.72.nip.io/prometheus

打开一个浏览器并访问其中的 URL。您应该看到以下响应：

图 7.34 – 访问 Prometheus 格式的监控数据

您会发现捕获了很多信息，包括响应时间、每个状态码（200、400、500 等）的 HTTP 响应数、数据捕获、服务器性能以及公开 Go 运行时指标。我们鼓励您通过这些参数来了解可用数据。在后面的章节中，您将看到如何收集和绘制这些数据以可视化模型推理服务器的性能。

你已经完成了一个伟大的处理这个练习。目的的这个部分是展示使用 Seldon Core 部署模型所涉及的步骤和组件。在下一节中，您将了解平台的工作流组件 Airflow，在接下来的几章中，所有这些步骤都将使用 ML 平台中的组件实现自动化。

介绍 Apache Airflow

Apache Airflow 是一个设计用于以编程方式创作、执行、调度和监控工作流的开源软件。工作流是一系列任务，可以包括数据管道、ML 工作流、部署管道，甚至基础设施任务。它由 Airbnb 作为工作流管理系统开发，后来作为 Apache 软件基金会孵化计划中的一个项目开源。

虽然大多数工作流引擎使用 XML 来定义工作流，但 Airflow 使用 Python 作为定义工作流的核心语言。工作流中的任务也是用 Python 编写的。

Airflow 有很多特性，但我们将在本书中只介绍 Airflow 的基本部分。本节绝不是 Airflow 的详细指南。我们的重点是向您介绍 ML 平台的软件组件。让我们从 DAG 开始。

了解DAY

工作流程能够可以简单地定义为一系列任务。在气流，任务序列遵循称为有向无环图（DAG）的数据结构。如果您还记得您的计算机科学数据结构，那么 DAG 由节点和单向顶点组成，其组织方式确保没有循环或循环。因此，Airflow 中的工作流称为 DAG。

图 7.35显示了数据管道工作流的典型示例：

图 7.35 – 典型的数据管道工作流程

图 7.36中的示例工作流由方框表示的任务组成。这些任务的执行顺序由箭头的方向决定：

图 7.36 – 并行执行的示例工作流

其他例子一个工作流程如图 7.36所示。在此示例中，存在并行执行的任务。生成报告任务将等待两个转换数据任务完成。这称为执行依赖，并且这是 Airflow 正在解决的问题之一。任务只有在上游任务完成后才能执行。

只要图中没有循环，您就可以随意配置工作流程，如图 7.37所示：

图 7.37 – 带有循环的示例工作流

在图 7.37的示例中，Clean Data任务将永远不会被执行，因为它依赖于Store Data任务，该任务也不会被执行。Airflow 只允许非循环图。

如图所示，DAG 是一系列任务，Airflow 中常见的任务类型有以下三种：

Operators：可用于执行某些操作的预定义任务，它们可以串在一起形成管道或工作流。您的 DAG 大部分（如果不是全部）由运算符组成。
Sensors：运算符的子类型，用于基于外部事件的一系列其他运算符。
TaskFlow ：用@task装饰的自定义 Python 函数。这允许您将常规 Python 函数作为任务运行。

空气流动运算符是可扩展的，这意味着有相当多的许多由社区创建的预定义运算符，您可以简单地使用。您将在以下练习中主要使用的运算符之一是笔记本操作员。此运算符允许您将任何 Jupyter 笔记本作为 DAG 中的任务运行。

那么，使用 DAG 执行一系列任务有哪些优势呢？仅仅编写一个可以顺序执行其他脚本的脚本还不够吗？好吧，答案就在于 Airflow 提供的功能，我们将在接下来探索这些功能。

探索 Airflow功能

优点与cron作业和脚本相比，Airflow 带来的功能可以通过其功能进行详细说明。让我们先来看看其中的一些功能：

失败和错误管理：如果任务失败，Airflow 会优雅地处理错误和失败。可以将任务配置为在失败时自动重试。您还可以配置它重试的次数。

就执行顺序而言，典型工作流中有两种类型的任务依赖，可以在 Airflow 中进行管理，这比编写脚本要容易得多。

数据依赖关系：某些任务可能需要先处理其他任务，因为它们需要其他任务生成的数据。这可以在 Airflow 中进行管理。此外，Airflow 允许将少量元数据从一个任务的输出作为输入传递给另一个任务。
执行依赖项：您可以在一个小型工作流中编写执行依赖项脚本。然而，想象一下在 Bash 中编写一个包含一百个任务的工作流脚本，其中一些任务可以同时运行，而另一些只能按顺序运行。我想这是一项相当艰巨的任务。Airflow 通过创建 DAG 来帮助简化这一过程。
可扩展性：气流可以水平扩展到多台机器或容器。工作流中的任务可以在不同的节点上执行，同时由公共调度程序集中编排。
部署：Airflow 可以使用 Git 来存储 DAG。这使您可以连续为您的工作流程部署新的更改。Sidecar 容器可以自动从包含 DAG的git存储库中获取更改。这使您可以实现 DAG 的持续集成。

下一步是了解 Airflow 的不同组件。

了解 Airflow组件

Airflow 包含多个作为独立服务运行的组件。图 7.38显示了 Airflow 的组件及其交互：

图 7.38 – 气流组件

三大核心服务空气流动。Airflow Web提供用户界面，用户可以在其中直观地监控 DAG 和任务并与之交互。气流调度器是一个负责为 Airflow Worker 调度任务的服务。调度不仅仅意味着按照预定的时间执行任务。它还涉及以特定顺序执行任务，同时考虑到执行依赖性和故障管理。气流工作者是执行任务的服务。这也是 Airflow 的主要可扩展点。运行的 Airflow Worker 越多，可以同时执行更多任务。

DAG 存储库是文件系统中的一个目录，其中以 Python 编写的 DAG 文件由调度程序存储和检索。我们平台中配置的 Airflow 实例包括一个边车容器，用于将 DAG 存储库与远程git存储库同步。这通过简单地将 Python 文件推送到 Git 来简化 DAG 的部署。

我们不会在本书中深入研究 Airflow。目标是让您学习到能够在 Airflow 中以最少的 Python 编码创建管道的程度。您将使用 Elyra 笔记本管道构建器功能以图形方式构建 Airflow 管道。如果您想了解更多有关 Airflow 以及如何在 Python 中以编程方式构建管道的信息，我们建议您从 Apache Airflow 非常丰富的文档开始，网址为https://airflow.apache.org/docs/apache-airflow/stable/concepts/overview .html。

现在您已经对 Airflow 有了基本的了解，是时候看看它的实际应用了。在第 4 章，机器学习平台剖析中，您安装了一个全新的 ODH 实例。这个过程也为您安装了 Airflow 服务。现在，让我们验证这个安装。

验证 Airflow 安装

验证这一点Airflow 在您的集群中运行正常，您需要执行以下步骤：

1.通过执行以下命令检查是否所有 Airflow pod 都在运行：

kubectl get pods -n ml-workshop | grep airflow

您应该看到三个 Airflow 服务 pod 处于运行状态，如图 7.39中的屏幕截图所示。验证所有 pod 都处于Running状态：

图 7.39 – 处于 Running 状态的 Airflow pod

2.通过查看ap-airflow2的入口主机获取 Airflow Web 的 URL 。您可以通过执行以下命令来执行此操作：

kubectl get ingress -n ml-workshop | grep airflow

您应该会看到类似于图 7.39的结果。记下ap-airflow2入口的主机值。IP 地址在您的环境中可能不同：

图 7.40 – ml-workshop 命名空间中的气流入口

3.导航到https://airflow.192.168.49.2.nip.io。注意域名是ap-airflow2入口的主机值。您应该会看到 Airflow Web UI，如图 7.41所示：

图 7.41 – Apache Airflow 的主屏幕

如果能够加载 Airflow 登陆页面，则说明 Airflow 安装有效。您一定还注意到，在列出 DAG 的表中，已经存在 DAG目前处于失败状态。这些是位于https://github.com/airflow-dags/dags/中的现有 DAG 文件，这是默认配置的 DAG 存储库。您将需要为您的实验创建自己的 DAG 存储库。下一节将提供有关如何执行此操作的详细信息。

配置 Airflow DAG 存储库

DAG 存储库是一个Git 存储库，Airflow 在其中提取代表您的管道或工作流的 DAG 文件。要将 Airflow 配置为指向您自己的 DAG 存储库，您需要创建一个 Git 存储库并将 Airflow Scheduler 和 Airflow Web 指向此 Git 存储库。您将使用GitHub创建此存储库。以下步骤将指导您完成整个过程：

1.转到https://github.com创建一个 GitHub 存储库。这要求您有一个现有的 GitHub 帐户。出于本练习的目的，我们将此存储库命名为 airflow-dags。记下新 Git 存储库的 URL。它应该如下所示：https ://github.com/your-user-name/airflow-dags.git 。我们假设您已经知道如何在 GitHub 上创建新存储库。

2.通过编辑kfdef（Kubeflow 定义）对象来编辑您的 ODH 实例。您可以通过执行以下命令来执行此操作：

kubectl edit kfdef opendatahub-ml-workshop -n ml-workshop

你应该显示kfdef清单文件的vim编辑器，如图 7.42所示。按i开始编辑。

图 7.42 – vim 编辑器显示定义 Airflow 实例的部分

3.将DAG_REPO参数的值替换为您在步骤 1中创建的 Git 存储库的 URL 。编辑后的文件应该如图 7.43中的屏幕截图所示。按Esc，然后按:，然后键入wq并按Enter保存您对kfdef对象所做的更改。

图 7.43 – 编辑后 DAG_REPO 参数的值

更改将由 ODH 操作员获取，并将应用于受影响的 Kubernetes 部署对象，在本例中为 Airflow Web 和 Airflow Scheduler部署。此过程将需要几分钟才能完成。

4.通过检查 Airflow 部署来验证更改。您可以通过运行以下命令来查看部署对象的应用清单来执行此操作：

kubectl get deployment app-aflow-airflow-scheduler -o yaml -n ml-workshop | grep value:.*airflow-dags.git

这应该返回包含 GitHub 存储库 URL 的行。

5.因为这个存储库是新的并且是空的，所以当您打开 Airflow Web UI 时应该看不到任何 DAG 文件。要验证 Airflow Web 应用程序，导航到您的 Airflow URL，或刷新您现有的浏览器选项卡，您应该会看到一个空的 Airflow DAG 列表，类似于图 7.44中的屏幕截图：

图 7.44 – Empty Airflow DAG 列表

现在你已经验证了您的 Airflow 安装并将 DAG 存储库更新到您自己的git存储库，是时候充分利用 Airflow 了。

配置 Airflow 运行时映像

空气流动可以通过使用 Airflow 库编写 Python 文件来创作管道或 DAG。但是，也可以从 Elyra 笔记本以图形方式创建 DAG。在本节中，您将从 Elyra 创建一个 Airflow DAG，将其推送到 DAG 存储库，然后在 Airflow 中执行它。

要进一步验证 Airflow 设置并测试配置，您需要运行一个简单的Hello world管道。按照步骤创建一个包含两个任务的管道。您将创建 Python 文件、管道并配置要在整个过程中使用的运行时映像：

1.如果您没有正在运行的 notebook 环境，请导航到 JupyterHub，单击Start My Server并选择要运行的 notebook 映像来启动 notebook 环境，如图 7.45所示。这次我们使用Base Elyra Notebook Image，因为我们不需要任何特殊的库。

图 7.45 – JupyterHub 登陆页面显示选择了 Base Elyra Notebook Image

2.在你的Elyra 浏览器，导航到Machine-Learning-on-Kubernetes/chapter7/model_deploy_pipeline/目录。

3.打开一个新的管道编辑器。您可以通过选择菜单项File>New>Pipeline Editor来执行此操作，如图 7.46所示。左侧浏览器中将出现一个名为untitled.pipeline的新文件。

图 7.46 – Elyra 笔记本

4.右键点击在untitled.pipeline文件上并将其重命名为hello_world.pipeline。

5.创建两个包含以下行的具有相同内容的 Python 文件：print('Hello airflow!')。您可以通过选择菜单项File > New Python File 来执行此操作。然后，将文件重命名为hello.py和world.py。您的目录结构应该类似于图 7.47中的屏幕截图：

图 7.47 – 显示 hello.pipeline 文件的 Elyra 目录结构

6.通过将hello.py文件拖到管道编辑器窗口中来创建具有两个任务的管道。对world.py做同样的事情。通过将任务框右侧的小圆圈拖动到另一个框来连接任务。生成的管道拓扑应该如图 7.48 所示。保存管道单击顶部工具栏中的保存图标。

图 7.48 – 任务拓扑

7.在我们可以运行这个管道之前，我们需要配置每个任务。因为每个任务都将作为 Kubernetes 中的容器运行，所以我们需要知道该任务将使用哪个容器镜像。选择左侧工具栏上的运行时图像图标。然后，单击+按钮添加一个新的运行时映像，如图 7.49所示：

图 7.49 – 在 Elyra 中添加新的运行时映像

8.在Add new Runtime Image对话框，添加Kaniko Container Builder镜像的细节，如图 7.50 所示，然后点击SAVE & CLOSE按钮。

这个容器镜像 ( Quay ) 包含构建 Docker 文件并将镜像从 Kubernetes 内推送到镜像注册表所需的工具。此映像还可以从 MLflow 模型注册表中提取 ML 模型和元数据。在下一节中，您将使用此映像来构建托管您的 ML 模型的容器。这个容器镜像是为了本书的目的而创建的。您可以将任何容器镜像用作管道任务的运行时镜像，只要该镜像可以在 Kubernetes 上运行。

图 7.50 – 为 Kaniko builder 添加新的 Runtime Image 对话框

9.加上另一个名为Airflow Python Runner的运行时映像。容器镜像位于Quay。该镜像可以运行任何 Python 3.8 脚本，并与 Kubernetes 和 Spark 操作符进行交互。在下一节中，您将使用此镜像将容器镜像部署到 Kubernetes。关于Add new Runtime Image对话框字段值，请参见图 7.51，然后点击SAVE & CLOSE按钮：

图 7.51 – 为 Airflow Python Runner 添加新的 Runtime Image 对话框

10.将图像从远程存储库拉到 Kubernetes 集群的本地 Docker 守护程序。这将通过使用已拉入本地 Docker 实例的运行时映像来帮助加快 Airflow 中任务的启动时间。

您可以通过在运行 Minikube 的同一台机器上运行以下命令来执行此操作。此命令允许您将 Docker 客户端连接到您内部的 Docker 守护程序Minikube虚拟机（VM）：

eval $(minikube docker-env)

11.通过在运行 Minikube 的同一台机器上运行以下命令来拉取Kaniko Container Builder映像。这会将镜像从quay.io拉取到 Minikube中的 Docker 守护进程：

docker pull quay.io/ml-on-k8s/kaniko-container-builder:1.0.0

12.通过在同一命令中运行以下命令来拉取Airflow Python Runner映像运行 Minikube 的机器：

docker pull quay.io/ml-on-k8s/airflow-python-runner:0.0.11

13.将Kaniko Container Builder运行时映像分配给hello.py任务。您可以通过右键单击任务框并选择“属性”上下文菜单项来执行此操作。任务的属性将显示在管道编辑器的右侧窗格中，如图 7.52所示。使用Runtime Image下拉框，选择Kaniko Container Builder。

图 7.52 – 在管道编辑器中设置任务的运行时映像

笔记

如果在下拉列表中没有看到新添加的运行时映像，则需要关闭并重新打开管道编辑器。这将刷新运行时映像列表。

14.将Airflow Python Runner运行时映像分配给world.py任务。这是类似于Step 10，但针对world.py任务。有关6运行时映像值，请参见图 7.53 ：

图 7.53 – 在管道编辑器中设置任务的运行时映像

15.您刚刚创建了一个包含两个任务的 Airflow 管道，其中每个任务使用不同的运行时。但是，在我们可以在 Airflow 中运行这条管道之前，我们需要告诉 Elyra Airflow 在哪里。为此，请选择Elyra 左侧工具栏上的Runtimes图标，如图 7.54所示：

图片 7.54 – 运行时工具栏

16.点击+按钮并选择New Apache Airflow 运行时菜单项。根据以下数值填写详细信息或见图7.55：

Apache Airflow UI Endpoint是 Airflow UI 当前正在侦听的位置。这并不重要，因为 Elyra 不直接与 Airflow UI 交互。将值设置为 Airflow UI 的 URL。这看起来像https://airflow.192.168.49.2.nip.io，其中 IP 地址部分是您的 Minikube 的 IP 地址。
Apache Airflow 用户命名空间是 Kubernetes 命名空间，将在其中创建所有任务的 pod。将此设置为ml-workshop。这是所有 ML 平台工作负载的命名空间。
GitHub DAG 存储库是您在上一部分“配置 Airflow DAG 存储库”中创建的 DAG 存储库。这遵循github-username/airflow-dags格式。将github-username替换为您的 GitHub 用户名。
GitHub DAG 存储库分支是 GitHub 存储库中的分支，Elyra 将在其中推送 DAG 文件。将此设置为main。
GitHub 个人访问令牌是您的 GitHub 用户令牌，有权推送到您的 DAG 存储库。您可以在https://docs.github.com/en/authentication/keeping-your-account-and-data-secure/creating-a-personal-access-token参考 GitHub 文档以创建个人访问令牌。
Cloud Object Storage Endpoint是任何 S3 存储 API 的端点 URL。Airflow 使用它来发布 DAG 执行的工件和日志。您将为此使用相同的 Minio 服务器。将值设置为http://minio-ml-workshop:900。这是 Minio 服务的 URL。我们没有使用 Minio 的ingress，因为 JupyterHub 服务器与 Minio 服务器运行在同一个 Kubernetes 命名空间上，这意味着 Minio 服务可以通过其名称来寻址。
Cloud Object Storage 用户名是 Minio 用户名，即minio。
Cloud Object Storage Password是 Minio 密码，即minio123。

正确填写所有字段后，点击保存并关闭按钮。

图 7.55 – 添加新的 Apache Airflow 运行时配置

17.跑过通过单击管道编辑器顶部工具栏中的“播放”按钮，在 Airflow中创建管道。这将打开一个运行管道对话框。选择Apache Airflow 运行时作为运行时平台和MyAirflow作为运行时配置，然后点击OK。参考图 7.56：

图 7.56 – 运行管道对话框

这个动作生成一个 Airflow DAG 文件并将该文件推送到配置为 DAG 存储库的 GitHub 存储库。您可以通过检查 GitHub 存储库中是否有新推送的文件来验证这一点。

18.打开Airflow网站。您应该会看到新创建的 DAG，如图 7.57所示。如果没有看到，请刷新 Airflow 页面几次。有时，DAG 需要几秒钟才能出现在 UI 中。

图 7.57 – 显示正在运行的 DAG 的气流

DAG 应该会在几分钟内成功。如果确实失败，您需要查看这些步骤以确保您设置了正确的值并且您没有错过任何步骤。

您刚刚使用 Elyra 的图形管道编辑器创建了一个基本的 Airflow DAG。默认情况下，生成的 DAG 配置为仅运行一次，由@once注释指示。在现实世界中，您可能不想直接从 Elyra 运行 DAG。您可能想要向 DAG 文件添加其他自定义项。在这种情况下，而不是运行 DAG通过单击播放按钮，使用导出功能。这会将管道导出到 DAG 文件中，您可以进一步自定义该文件，例如设置计划。然后，您可以将自定义的 DAG 文件推送到 DAG 存储库以将其提交给 Airflow。

您刚刚验证了您的 Airflow 设置，添加了 Airflow 运行时配置，并将 Elyra 与 Airflow 集成。现在是时候构建一个真正的部署管道了！

在 Airflow 中自动化 ML 模型部署

你有见过在前面的部分中，如何手动将 ML 模型打包到 Kubernetes 上运行的 HTTP 服务中。您还了解了如何在 Airflow 中创建和运行基本管道。在本节中，您将通过创建 Airflow DAG 来自动化模型部署过程，从而将这些新知识放在一起。您将创建一个简单的 Airflow 管道，用于从以下位置打包和部署 ML 模型这MLflow 模型注册到 Kubernetes。

使用管道编辑器创建管道

类似于在上一节中，您将使用 Elyra 的管道编辑器来创建模型构建和部署 DAG：

1.如果您没有正在运行的 Elyra 环境，请通过导航到 JupyterHub，单击Start My Server并选择要运行的笔记本图像来启动笔记本环境，如图 7.45所示。让我们使用Base Elyra Notebook Image，因为这一次，我们不需要任何特殊的库。

2.在您的 Elyra 浏览器中，导航到Machine-Learning-on-Kubernetes/chapter7/model_deploy_pipeline/目录。

4.右键单击untitled.pipeline文件并将其重命名为model_deploy.pipeline。您的目录结构应该类似于图 7.58中的屏幕截图：

图 7.58 – Elyra 显示空的管道编辑器

5.你会构建一个包含两个任务的管道。第一个任务将从 MLflow 模型注册表中提取模型工件，使用 Seldon 核心将模型打包为容器，然后将容器映像推送到映像存储库。要创建第一个任务，请将build_push_image.py文件从model_build_push目录拖放到管道编辑器的工作区。此操作将在管道编辑器窗口中创建一个新任务，如图 7.59所示：

图 7.59 - 显示 build_push_image 任务的 Elyra 管道编辑器

6.第二任务将从镜像存储库中提取容器镜像并将其部署到 Kubernetes。通过将deploy_model.py文件从model_deploy 目录拖放到管道编辑器工作区中来创建第二个任务。此操作将在管道编辑器中创建第二个任务，如图 7.60所示：

图 7.60 - 显示 deploy_model 任务的 Elyra 管道编辑器

7.连接通过将build_push_image.py任务右侧的小圆圈拖动到deploy_model.py任务框来执行两个任务。任务拓扑应该如图 7.61 所示。记下红色框中突出显示的箭头的方向。

图 7.61 – DAG 的任务拓扑

8.通过右键单击该框并选择Properties来配置build_push_image.py任务。编辑器右侧会出现一个属性面板，如图 7.62所示。选择Kaniko Container Builder作为此任务的运行时映像。

图 7.62 – 带有显示 Kaniko Builder 运行时属性面板的管道编辑器

9.添加文件通过单击“添加依赖项”按钮并选择以下文件，将依赖项添加到build_push_image.py 。此任务的文件依赖关系也显示在图 7.62中。以下列表描述了每个文件的作用：

Dockerfile – 这是构建的 Docker 文件，用于生成包含 ML 模型和 Predictor Python 文件的容器映像。
Predictor.py – 这是 Seldon 用来定义推理图的 Python 文件。您已在上一节中看到此文件。
Base_requirements.txt – 这是一个常规文本文件，其中包含运行此模型所需的 Python 包列表。这由Docker 文件中的pip install命令使用。

10.此时，您应该对整个管道的功能有所了解。因为管道需要将容器映像推送到注册表，所以您需要一个容器注册表来保存您的 ML 模型容器。在您选择的容器注册表中创建一个新存储库。对于本书中的练习，我们将使用Docker Hub作为示例。我们假设您知道如何在https://hub.docker.com中创建新的存储库。将此新存储库称为 mlflowdemo。

11.创建镜像存储库后，为build_push_image.py任务设置环境变量，如图 7.63所示。以下是您需要设置的六个变量：

MODEL_NAME是在 MLflow 中注册的 ML 模型的名称。您在前面的部分中使用了名称mlflowdemo 。将此变量的值设置为mlflowdemo。
MODEL_VERSION是在 MLflow 中注册的 ML 模型的版本号。放此变量的值为1。
CONTAINER_REGISTRY是容器注册表 API 端点。对于 Docker Hub，可在Docker Hub获得。将此变量的值设置为https://index.docker.io/v1/。
CONTAINER_REGISTRY_USER是将图像推送到图像注册表的用户的用户名。将此设置为您的 Docker Hub 用户名。
CONTAINER_REGISTRY_PASSWORD是 Docker Hub 用户的密码。在生产中，您不想这样做。您可以使用秘密管理工具来提供您的 Docker Hub 密码。但是，为了简化本练习，您将 Docker Hub 密码作为环境变量。
CONTAINER_DETAILS是图像将被推送到的存储库的名称，以及图像的名称和标签。这包括您的用户名/mlflowdemo:latestv格式的 Docker Hub 用户名。

通过单击管道编辑器顶部工具栏中的保存图标来保存更改：

图 7.63 – build_push_image.py 任务的示例环境变量

12.配置deploy_model.py任务，通过设置运行时镜像、文件依赖和环境变量，如图 7.64所示。您需要设置四个环境变量，如下表所示：

MODEL_NAME是在 MLflow 中注册的 ML 模型的名称。您在前面的部分中使用了名称mlflowdemo 。将此变量的值设置为mlflowdemo。
MODEL_VERSION是在 MLflow 中注册的 ML 模型的版本号。将此变量的值设置为1。
CONTAINER_DETAILS是将图像推送到的存储库的名称以及图像名称和标记。这包括your-username/mlflowdemo:latest格式的 Docker Hub 用户名。
CLUSTER_DOMAIN_NAME是您的 Kubernetes 集群的 DNS 名称，在本例中为 Minikube 的 IP 地址，即.nip.io。例如，如果minikube ip命令的响应为192.168.49.2，则集群域名为192.168.49.2.nip.io。这用于配置 ML 模型 HTTP 服务的入口，使其可在 Kubernetes 集群外部访问。

保存通过单击管道编辑器顶部工具栏中的保存图标进行更改。

图 7.64 – deploy_model.py 任务的属性

13.您现在已准备好运行管道。从管道编辑器的顶部工具栏中点击Play按钮。这将打开运行管道对话框，如图 7.65所示。在Runtime Platform下选择Apache Airflow 运行时，在Runtime Configuration下选择MyAirflow。单击确定按钮。这将生成 Airflow DAG Python 文件并将其推送到 Git 存储库。

图 7.65 – 运行管道对话框

14.一旦DAG 成功生成并推送到git存储库，您应该会看到如图 7.66所示的对话框。单击确定。

图 7.66 – DAG 提交确认对话框

15.导航到 Airflow 的 GUI。你应该会看到一个新的 DAG，标记为model_deploy-some-number，出现在 DAG 表中，它应该很快就会开始运行，如图 7.67所示。作业的薄荷绿色表示它当前正在运行。深绿色表示成功。

笔记

如果您没有看到新的 DAG，请刷新页面，直到看到为止。Airflow 可能需要几秒钟才能与 Git 存储库同步。

图 7.67 – 显示 model_deploy DAG 的 Airflow GUI

16.同时，你可以通过单击 DAG 名称并选择Graph View选项卡来探索 DAG。它应该显示您在 Elyra 的管道编辑器中设计的任务拓扑，如图 7.68所示。您可以通过选择<> 代码选项卡进一步探索 DAG 。这将显示生成的 DAG 源代码。

图 7.68 – Airflow 中 model_deploy DAG 的图表视图

17.经过几次分钟，作业应该会成功，您应该会看到Graph View中所有任务的轮廓变为深绿色。您还可以通过查看 Kubernetes 中的 pod 来探索这些任务。运行以下命令，您应该会看到两个状态为Completed的 Pod，如图 7.69所示。这些 pod 是管道中已成功执行的两个任务：

kubectl 获取 pods -n ml-workshop\

您应该看到以下响应：

图 7.69 – 具有 Completed 状态的 Kubernetes pod

您刚刚使用 Elyra 的管道编辑器 Seldon Core 创建了一个完整的 ML 模型构建和部署管道，由 Airflow 编排并部署到 Kubernetes。

Seldon Core 和 Airflow 是大型工具，具有更多我们尚未涵盖的功能，并且本书不会完全涵盖。我们为您提供了必要的知识和技能，让您可以开始进一步探索这些工具作为您的 ML 平台的一部分。

概括

恭喜！你做到了这一步！

到目前为止，您已经看到并使用了 JupyterHub、Elyra、Apache Spark、MLflow、Apache Airflow、Seldon Core 和 Kubernetes。您已经了解了这些工具如何解决 MLOps 试图解决的问题。而且，您已经看到所有这些工具在 Kubernetes 上运行良好。

我们想在平台上向您展示更多的东西。但是，我们只能写这么多，因为您看到的每个工具的功能都足以填满整本书。

在下一章中，我们将退后一步，看看到目前为止所构建的大图。然后，您将开始在示例用例上端到端使用平台。在接下来的章节中，您将扮演不同的角色，例如数据科学家、ML 工程师、数据工程师和 DevOps 人员。

你可能感兴趣的:(Machine,Learning,on,Kubernetes,kubernetes,自动化,容器)

Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
《道德经》里的职场智慧，远比你想象的还要强大！ Yage520 程序员创富职场和发展学习方法创业创新人工智能
《道德经》里的职场智慧，远比你想象的还要强大！你有没有过这样的困惑？明明加班加点、尽力管理，但结果却越来越累，效果却越来越差？问题出在哪里？答案，其实在《道德经》里！“上善若水，水善利万物而不争。”这句话暗藏着深刻的智慧！水，看似柔弱，却能穿透岩石；看不见摸不着，却能适应任何形状的容器。更神奇的是，水从不争斗，却无处不在，滋养万物！职场启示：不争，不是无能！你试试看，越是想控制一切，反而越容易弄巧
如何将Docker容器打包并在其他服务器上运行 IT小辉同学技巧性工具栏分布式云部署搜索引擎 docker 服务器容器
如何将Docker容器打包并在其他服务器上运行我会幻想很多次我们的相遇，你穿着合身的T恤，一个素色的外套，搭配一条蓝色的牛仔裤，干净的像那天空中的云朵，而我，还是一个的傻傻的少年，我们相识而笑，默默不语，如此甚好！Docker容器使得应用程序的部署和管理变得更加简单和高效。有时，我们可能需要将一个运行中的Docker容器打包，并在其他服务器上运行。本文将详细介绍如何实现这一过程。1.提交容器为镜像
ROS turtlesim 无法通过键盘控制 turtle 移动狗头鹰 ubuntu linux
原因：当我们在singlemachine上进行试验时，如果出现了上述问题，除了指令输入错误、本地没该功能包，未选中turtle_teleop_key终端进行操作等简单原因外，还有可能是未正确设置环境变量ROS_MASTER_URI,ROS_HOSTNAMEsolutions：vim~/.basrhc打开文件.bashrc,在文件末尾加上exportROS_HOSTNAME=ubuntu.local
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Java JVM性能优化与调优卖血买老婆 Java专栏 java jvm 性能优化
优化Java应用的性能通常需要深入理解JVM（JavaVirtualMachine）的工作原理和运行机制，因为JVM直接决定了Java程序的运行时表现。以下是JVM性能优化与调优的要点和详细指导，涵盖常见问题、调优工具及策略。一、常见性能问题内存相关问题堆内存不足（OutOfMemoryError:Javaheapspace）元空间（Metaspace）不足频繁的垃圾回收导致长时间停顿内存泄漏（对
mac下docker搭建nginx+php+mysql,并实现nginx负载均衡自娱自乐22 macos docker nginx 负载均衡 php
一环境系统：macOSSonoma14.3芯片：AppleM3Prodocker版本：25.0.5二软件OrbStack[推荐，一款轻量化的docker管理软件，还是docker的命令]item2三步骤拉取nginx镜像dockerpullnginx新建一个nginx容器dockerrun--namenginx5-d-p80:80nginx确认nginx内部的目录[第一次一定要确认下目录]-配置目
2分钟学会编写maven插件聪明马的博客 Java maven java spring
什么是Maven插件Maven是Java项目中常用的构建工具，可以自动化构建、测试、打包和发布Java应用程序。Maven插件是Maven的一项重要功能，它可以在Maven构建过程中扩展Maven的功能，实现自定义的构建逻辑。Maven插件可以提供很多不同的功能，例如：生成代码、打包文件、部署应用程序等。插件通常是在Maven构建生命周期中的某个阶段执行，例如：编译、测试、打包、安装和部署。Mav
容器docker k8s相关的问题汇总及排错 weixin_43806846 docker kubernetes 容器
1.明确问题2.排查方向2.1、docker方面dockerlogs-f容器IDdocker的网络配置问题。2.2、k8s方面node组件问题pod的问题（方式kubectldescribepopod的名称-n命名空间&&kubectllogs-fpod的名称-n命名空间）调度的问题（污点、节点选择器与标签不匹配、存储卷的问题）service问题（访问不了，ingress的问题、service标签
Maven 与 Docker 集成：构建 Docker 镜像并与容器化应用集成 drebander docker maven docker
在现代软件开发中，容器化已成为一种流行的部署和运行应用程序的方式。通过将应用程序及其所有依赖打包成Docker镜像，开发者可以确保应用能够在不同的环境中一致地运行。而Maven是广泛使用的构建工具，能够帮助管理项目的构建、依赖和发布。本文将介绍如何使用Maven构建Docker镜像，并将其与容器化应用集成，以便于自动化部署和管理。1.Maven与Docker集成概述Maven可以通过插件来构建Do
Spring IoC容器的两大功能 Mr_Zerone SpringFramework spring java 后端
1.控制反转（1）没有控制反转的情况下常规思路下，也就是在没有控制反转的情况下，程序员需要通过编写应用程序来创建（new关键字）和使用对象。（2）存在控制反转的情况下控制反转主要是针对对象的创建和调用控制而言的。应用程序需要使用一个对象时，不再是由程序员写的应用程序通过new关键字来直接创建该对象，而是由SpringIoC容器来创建和管理，即创建和管理对象的控制权由应用程序转移到IoC容器。我们的
认识Spring IoC容器和组件 Mr_Zerone SpringFramework spring java 后端
1.传统Web项目开发流程传统Web项目在实现业务流程时，往往需要将Controller/Service/Dao，这三层先分别创建一个全局属性,上图中用BookController/BookService/BookDao来具体说明。当浏览器发送过来请求时，我们先调用全局属性中的BookCotroller对象bookController，在bookController中引用全局属性中的BookSer
【k8s应用管理】kubernetes HPA+rancher Karoku066 kubernetes rancher 容器运维云原生
文章目录KubernetesHPA部署指南概述部署metrics-server部署HPARancher管理Kubernetes集群指南实验环境安装及配置RancherKubernetesHPA部署指南概述KubernetesHPA（HorizontalPodAutoscaling）可以根据Pod的CPU利用率自动调整Deployment、ReplicationController或ReplicaS
LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
自动化的抖音 luckycoke javascript 开发语言 ecmascript
文件命名main.jsvaruiModule=require("ui_module.js");if(!auto.service){toast("请开启无障碍服务");auto.waitFor();}varisRunning=true;varswipeCount=0;vartargetSwipeCount=random(1,10);varwindow=uiModule.createUI();uiMo
前端504错误分析 ox0080 #北漂+滴滴出行 Web VIP 激励前端
前端出现504错误（网关超时）通常是由于代理服务器未能及时从上游服务获取响应。以下是详细分析步骤和解决方案：1.确认错误来源504含义：代理服务器（如Nginx、Apache）在等待后端服务响应时超时。常见架构：前端→代理服务器→后端服务，问题通常出在代理与后端之间。2.排查步骤（1）检查后端服务状态确认服务是否运行：通过日志或监控工具（如systemctlstatus,KubernetesPod
16、电科院FTU检测标准学习笔记-基本性能2 six2me 配电自动化(FTU)测试笔记学习笔记 FTU 配电检测
作者简介：本人从事电力系统多年，岗位包含研发，测试，工程等，具有丰富的经验在配电自动化验收测试以及电科院测试中，本人全程参与，积累了不少现场的经验————————————————————————————————————目录交流工频电量影响量试验频率带来的影响谐波变化带来的影响不平衡电流对功率的影响三相功率测量元件之间相互作用引起的改变故障电流采集电流过载检测（大电流）状态量输出（遥控）输入SOE分
Jira，一个强大灵活的项目和任务管理工具 Python 库图灵学者 python精华 jira python 开发语言
目录01初识Jira为什么选择Jira？02安装与配置安装jira库配置Jira访问获取APItoken：配置Python环境：03基本操作创建项目创建任务查询任务更新任务删除任务04高级操作处理子任务搜索任务添加附件评论任务05实战案例自动化创建与分配任务自动生成项目报告06结语01初识JiraJira是Atlassian公司开发的一款项目和任务管理工具。它广泛应用于软件开发、IT支持、营销等各
Fastgpt本地或服务器私有化部署常见问题泰山AI AI大模型应用开发 fastgpt rag llm
一、错误排查方式遇到问题先按下面方式排查。dockerps-a查看所有容器运行状态，检查是否全部running，如有异常，尝试dockerlogs容器名查看对应日志。容器都运行正常的，dockerlogs容器名查看报错日志带有requestId的，都是OneAPI提示错误，大部分都是因为模型接口报错。无法解决时，可以找找Issue，或新提Issue，私有部署错误，务必提供详细的日志，否则很难排查。
【pytest】编写自动化测试用例命名规范README 唐古乌梁海 pytest 自动化
API_autoTest项目介绍1.pytest命名规范测试文件：文件名需要以test_开头或者以_test.py结尾。例如，test_login.py、user_management_test.py这样的命名方式，pytest能够自动识别并将其作为测试文件来执行其中的测试用例。测试类：如果在测试文件中定义测试类，类名要以Test开头，并且类名不能包含init方法。classTestCalcula
【分布式理论16】分布式调度2：资源划分和调度策略 roman_日积跬步-终至千里分布式架构分布式
文章目录一、资源划分：Linux容器的应用1.LXC的Namespace机制：资源隔离2.LXC的CGroup机制：资源管理二、任务与资源如何匹配1.任务队列与资源池2.资源调度策略在分布式系统中，资源的有效分配和调度是确保计算任务高效执行的关键。为了能够合理地利用系统资源并优化计算任务的执行，资源划分和调度策略显得尤为重要。本节将从Linux容器资源划分、资源池与任务队列的匹配，以及不同的调度策
【python】懒人福利，通过Python的JIRA库操作JIRA，自动批量提交关闭bug，提高效率 bulabula2022 #CI持续集成 Python jira
简介：Jira是目前比较流行的基于Java架构的管理系统（Atlassian公司支持），有开源代码，方便做二次开发（可扩展性）。Jira是一款功能非常强大的管理工具，广泛的用来缺陷跟踪、用例管理、需求收集、任务跟踪、工时管理、项目计划管理等工作领域。python有支持操作Jira的第三方包，方便自定义一些自动化操作。需要安装jira库：pipinstalljiraJira认证fromjiraimp
在 DeepSeek 驱动的编程变革中抓住机遇并脱颖而出智想天开 AI技术人工智能 deep learning
公众号地址:在DeepSeek驱动的编程变革中抓住机遇并脱颖而出更多内容请关注公众号：智想天开前言在DeepSeek引领的新一轮AI技术革新中，程序员们正面临着前所未有的挑战。随着DeepSeek等人工智能工具的迅猛发展，编程领域正在发生深刻变革。这些先进的工具不仅能够自动化完成繁重的代码生成和调试任务，还能够根据大量数据提供优化建议，改变了传统编程的工作流程。虽然这些技术为提高工作效率和解放开发
项目管理新趋势！2024年，Jira与Codes你更倾向谁？ Codes_AndyLiu jira teambition redmine 项目管理软件项目管理工具项目管理 jira 国产平替
一、项目管理软件新趋势概述2024年，项目管理软件呈现出诸多新趋势，这些趋势对于项目管理的重要性日益凸显。在数字化转型方面，项目管理软件成为企业实现数字化转型的关键工具。让老板感知数据，让中层管理者感受先进，让基层员工感到舒心.人工智能与自动化在项目管理软件中的应用也越来越广泛。项目管理软件正朝着智能化、自动化的方向迈进，利用AI技术提供个性化和场景化解决方案。例如，工作周报AI化，自动化测试，代
【python】连接Jira获取token以及jira对象唐古乌梁海 python jira
此脚本可以连接Jira，通过Jira的token，Jira对象可以实现与Jira的交互，从而完成jira与pytest的交互，或者其他自动化测试框架也行，例如：将pytest运行结果推送jira；将jira用例与自动化测试用例建立映射关系，将功能用例对应的自动化测试用例脚本路径推送到功能用例的描述栏，或者自动化栏里面#!/usr/bin/envpython#-*-coding:utf-8-*-#@
JVM篇：内存分区及作用及各部分可能发生的异常 ashane1314 jvm
一、运行时数据区总览二、JVM内存分区及异常1.程序计数器（ProgramCounterRegister）作用：记录当前线程执行字节码的地址（行号），保证线程切换后能恢复到正确位置。特点：线程私有，唯一无内存溢出的区域。异常：无。由JVM规范严格管理，不会发生内存溢出。2.虚拟机栈（JavaVirtualMachineStack）作用：存储方法调用的栈帧（局部变量表、操作数栈、动态链接、方法出口等
《运维工程师如何利用DeepSeek实现智能运维：分级实战指南》进击的雷神武林绝学：技术杂谈剑影流转运维
目录智能运维革命：DeepSeek带来的范式转变DeepSeek核心运维能力全景解析分级实战场景与解决方案3.1初级工程师：自动化运维入门3.2中级工程师：复杂系统诊断与优化3.3高级工程师：架构级智能运维典型项目案例深度剖析4.1金融系统全链路监控体系构建4.2电商大促资源弹性调度实战4.3混合云环境下的安全加固分级能力提升路径效能提升数据验证挑战与演进方向构建智能运维体系行动指南1.智能运维革
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
高并发系统架构设计全链路指南 power-辰南 java技术架构师成长专栏系统架构分布式高并发 springcloud
第一章：架构优化核心目标：提升系统高并发&高可用能力，优化架构，提高吞吐量。1.1微服务高可用优化解决问题：微服务可能存在单点故障、扩展性差、调用效率低等问题。1.1.1服务无状态化目的：让服务实例可以随时扩缩容、快速恢复，避免单点故障。可能的问题现象影响本地存储Session，导致用户粘连某个实例实例挂掉后，用户重新登录订单等业务逻辑依赖本地缓存容器扩缩时数据丢失静态文件（Excel/图片）存本
Selenium使用指南程序员杰哥 selenium 测试工具 python 测试用例职场和发展程序人生功能测试
概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》