4、Pipline管道

管道Pipelines

通过预处理部署(甚至测试)复杂模型的关键技能。

在本教程中,您将学习如何使用管道来清理建模代码。

本课程所需数据集夸克网盘下载链接:https://pan.quark.cn/s/9b4e9a1246b2
提取码:uDzP

文章目录

  • 1、简介
  • 2、举例
  • 3、构建管道
      • 步骤1:定义预处理步骤
      • 步骤2:定义模型
      • 步骤3:创建和评估管道
  • 4、总结

1、简介

Pipelines管道是保持数据预处理和建模代码组织的一种简单方法。具体来说,管道包包含预处理和建模步骤,因此您可以将整个包当作单个步骤来使用。

许多数据科学家在没有管道Pipelines的情况下将模型拼凑在一起,但管道有一些重要的好处,其中包括:

  1. 更简洁的代码: 在预处理的每个步骤中计算数据可能会变得混乱。使用管道,您不需要在每个步骤中手动跟踪您的培训和验证数据。
  2. 更少的Bug: 错误应用步骤或忘记预处理步骤的机会更少。
  3. 更容易生产化: 将一个模型从原型转变为可大规模部署的模型可能会出人意料地困难。我们不会在这里讨论许多相关的问题,但是管道可以帮助我们。
  4. 模型验证的更多选项: 您将在下节课中看到一个示例,其中涵盖了交叉验证验证。

2、举例

我们将继续使用墨尔本住房数据集。

我们将不关注数据加载步骤。相反,您可以想象您已经拥有了 X _ train、 X _ valid、 y _ train 和 y _ valid中的训练和验证数据。

In [1]:

import pandas as pd
from sklearn.model_selection import train_test_split
#加载数据
data = pd.read_csv('E:/data_handle/melb_data.csv')
#选择目标
y = data.Price
#使用数字预测器
melb_predictors = data.drop(['Price'],axis=1)
X = melb_predictors.select_dtypes(exclude=['object'])
#将数据分为训练和验证子集
X_train_full, X_valid_full

你可能感兴趣的:(中级机器学习,机器学习,人工智能)