数据处理之一——Pipeline

文章目录

  • 1 Pipeline概述
  • 2 使用


1 Pipeline概述

Pipeline可用于将多个估计器连接为一个估计器。
在处理数据和训练估计器时通常有固定的步骤,例如特征选择、规范化、参数搜索和分类,而Pipeline就可以避免重复计算,同时对Pipeline里的所有估计器做相同的操作。
Pipeline中除最后一个估计器外的所有估计器都必须是转换器(即必须有转换方法)。最后一个估计器可以是任何类型(转换器、分类器等)。

还可以对多个学习器进行整合,合并特征空间并ensemble模型。

2 使用

from sklearn.pipeline import make_pipeline
make_pipeline(*steps, **kwargs)
例如:

>>> from sklearn.naive_bayes import GaussianNB
>>> from sklearn.preprocessing import StandardScaler
>>> make_pipeline(StandardScaler(), GaussianNB(priors=None))
Pipeline(steps=[('standardscaler', StandardScaler()),
                ('gaussiannb', GaussianNB())])

你可能感兴趣的:(机器学习和数据挖掘)