spark ML PipeLine 关键点理解

一、pipeline .fit 的过程:

(1)按顺序执行stage的transform或fit 方法,也就是对于transformer执行它的transform方法,对于estimator 执行它的fit方法 然后执行它的transform方法(这两个方法的参数都是上个阶段输出的同一个traindf)

二、pipelineModel.transform 的过程:

(1)按顺序执行stage的transform方法,也就是对于transformer执行它的transform方法,对于estimator 执行它的它的transform方法

(2)进一步解释,estrimator 的fit 方法参数还是 traindf不变,但是transform方法参数更改成testdf

三、evaluator 没有fit \transform 方法,它不属于pipeline的一个stage

所以stage就到创建算法模型这儿终止了

你可能感兴趣的:(spark大数据分析,spark-ml)