Spark ML Pipelines

ML Pipelines 提供了一组统一的构建在DataFrame上的高级API用于帮助用户创建和调优机器学习管道

ML Pipelines中的一些概念

MLlib标准化了机器学习算法的api，使多个算法更容易组合到一个单一的Pipeline或工作流中。

DataFrame： ML API使用 Spark SQL中的DataFrame作为ML的数据集
Transformer: Transformer是一种将DataFrame转为另一个DataFrame的算法。比如一个ML 模型是一个将特征DataFrame转为预测DataFrame的Transformer
Estimator： Estimator是一个能适用于DataFrame并产生Transformer的算法。比如学习算法是一种训练DataFrame并且产生一个模型的Estimator
Pipeline： Pipeline用于链接多个Estimator和Transformer以形成一个完整的工作流
Parameter： Estimator和Transformer的通用Parameter API

DataFrame

机器学习可以被用于各式各样的数据类型，比如向量，文本，图片和结构化数据。这些都可以使用DataFrame表示

Pipeline components

Transformers

Transformers是对特征转化和学习模型的抽象。一般一个Transformer实现了 transform()方法用于将一个DataFrame转化另一个DataFrame（一般是在原DataFrame上添加一些列实现）。

一个 feature transformer 接收一个DataFame，读取一列（eg：text），将其map为一个新的列（eg.,feature vectors）然后将新的列添加到DataFrame上作为输出
一个learning model接收一个DataFrame作为输入，读取包含feature vectors的列，为每个特征向量预测label，让后将预测的label作为新的列添加到输出DataFrame上

Estimators

Estimator是对学习算法和数据训练算法的抽象，一般一个Estimator实现了fit()方法，它接收一个DataFrame并产生一个Model(Transformer)。比如LogisticRegression是一个Estimator,通过调用fit()训练出一个LogisticRegressionModel,这个Model是一个Transformer

Properties of pipeline components

目前
Transformer.transform()和 Estimator.fit()都是无状态的
每个Transformer和 Estimator都有一个唯一的ID，方便调参

Pipeline

在机器学习对数据进行处理和学习一般需要一系列的算法，比如一个简单的文本处理工作流可能包含如下几个阶段：

将文本拆分为单词
将单词转为特征向量
使用特征向量和标签进行预测模型的学习

MLlib使用Pipeline表示这种工作流，它包含了一系列以一定顺序运行的PipelineStages(Transformer或 Estimator)

How it works

Pipeline 的每个阶段由 Transformer或Estimator构成。这些阶段按一定的顺序运行，并且在每个阶段都对输入的DataFrame做转化。对于Transformer阶段，在DataFrame上调用transform() 方法。对于Estimator阶段，fit()方法被调用用于产生一个Transformer(which becomes part of the PipelineModel, or fitted Pipeline)

简单的文本处理工作流在training time的Pipeline

image.png

简单的文本处理工作流在test time的Pipeline