ML Pipelines

pipelines中文意思是计算机流水线作业,通过pipelines的api可以很方便的实现数据工作流:数据源->特征转换->数据建模->数据预言

pipeline常用组件
  • Transformer:一个抽象概念,包括特征转换和数据预言
  • Estimator:作用于训练数据的抽象概念,例如逻辑回归(用回归思维解决分类问题)的算法
逻辑回归
  • aggregationDepth: (>= 2) (default: 2)
  • elasticNetParam: 正则化范式比,正则化有两种方式:L1(Lasso)和L2(Ridge),L1用于特征的稀疏化,L2用于防止过拟合(default: 0.0)
  • family: (default: auto)
  • featuresCol: 设置特征列(default: features)
  • fitIntercept: (default: true)
  • labelCol: 设置标签列(default: label)
  • lowerBoundsOnCoefficients: (undefined)
  • lowerBoundsOnIntercepts: . (undefined)
  • maxIter: (>= 0) (default: 100)
  • predictionCol: 设置预测列(default: prediction)
  • probabilityCol: (default: probability)
  • rawPredictionCol: (default: rawPrediction)
  • regParam: 正则化主要用于防止过拟合现象,如果数据集较小,特征维数又多,易出现过拟合,考虑增大正则化系数 (>= 0) (default: 0.0)
  • standardization: 标准化 (default: true)
  • threshold: 设置二分类阈值, [0, 1] (default: 0.5)
  • thresholds: 阈值-多元分类 (undefined)
  • tol: 迭代算法的收敛性 (>= 0) (default: 1.0E-6)
  • upperBoundsOnCoefficients: (undefined)
  • upperBoundsOnIntercepts: (undefined)
  • weightCol: 权重系数

你可能感兴趣的:(ML Pipelines)