SPark pipeline学习

免责声明:本文仅代表个人观点,如有错误,请读者自己鉴别;如果本文不小心含有别人的原创内容,请联系我删除;本心心血制作,若转载请注明出处


pipline 是spark中一个很重要的内容,我今天只讲解里面的estimator和transformer

transformer:分为两种:特征转换和学习到的模型,一个transformer包含一种transform()方法,可以将一种DataFrame转化成另外一种DataFrame,一般是在原数据基础上增加一列或者几列

   1> 特征转换 ,从一个dataset上,读取一列,然后转变成新的一列,添加新的一列到原来的dataset上,然后输出更新的dataset

   2> 一个学习好的模型,从一个dataset中,从特征项向量中,读取数据,为每一个特征向量添加标签(label),添加label为新的一列,并将更新的dataset输出

estimator

   estimator是找到一个学习算法或者任何算法的思想,每个estimator都包含一个fit()方法,这个方法接受一个DataFrame,输出一个transformer,例如一个学习算法LogisticRegression是一个estimator,可以调用fit()方法训练一个LogisticRegressionModel,这是一个transformer

你可能感兴趣的:(spark,大数据)