Spark机器学习流程(ML Pipeline)(持续更新ing)

参考:[1]林大贵.Python+Spark2.0+Hadoop机器学习与大数据实战[M].博硕文化股份有限公司

名词说明

  • DataFrame:Sparl ML机器学习API处理的数据格式是DF,我们必须使用DF存储数据、处理数据、测试数据,最后预测结果也是DF。我们可以使用SQLContext读取文本文件创建DF或将RDD转为DF,也可以使用Spark SQL来操作。DF可以存储不同的数据类型,文字、特征字段所创建的vectors、label标签字段
  • Transformer:是一个算法,可以使用transformer方法将一个DF转为另一个DF
  • Estimator:是一个算法,可以使用fit方法传入DF,产生一个DF
  • Pipeline:可以串联多个Transformers与Estimators建立ML机器学习的workflow工作流程
  • Parameter:以上Transformers与Estimators都可以共享相同的Parameter API

机器学习流程

Spark机器学习工作流程(ML Pipeline)的原理是讲机器学习的每一个阶段(例如数据处理、进行训练与测试、建立Pipeline流程)形成机器学习的工作流程。

你可能感兴趣的:(机器学习,pyspark)