ruiyiin

Spark ML PipeLine学习笔记

spark.ml包目标是提供统一的高级别的API，这些高级API建立在DataFrame上，DataFrame帮助用户创建和调整实用的机器学习管道。在下面spark.ml子包指导中查看的算法指导部分，包含管道API独有的特征转换器，集合等。

内容表：

Main concepts in Pipelines (管道中的主要概念)
- DataFrame
- Pipeline components (管道组件)
  - Transformers (转换器)
  - Estimators (评估器)
  - Properties of pipeline components (管道组件的属性)
- Pipeline （管道）
  - How it works （怎样工作）
  - Details （明细）
- Parameters （参数）
- Saving and Loading Pipelines （保存和加载管道）
Code examples （实例代码）
- Example: Estimator, Transformer, and Param （例：Estimator, Transformer, and Param ）
- Example: Pipeline（例：管道）
- Example: model selection via cross-validation （例：通过交叉校验选择模型）
- Example: model selection via train validation split（例：通过训练检验分离选择模型）

Main concepts in Pipelines （管道中的主要概念）

对于机器学习算法，spark ML标准化API 很容易联合多个算法到同一个管道中，或者工作流中。这部分介绍spark ML API引入的主要的概念。管道概念是从scikit-learn中得到的很多启发。

DataFrame：spark ML从spark sql中获取DataFrame作为学习的数据集。可以持有多种数据类型，例如：有个df可以包含文本，特征向量，true标签和预测结果的多个不同的列。
转换器：转换器是把一个DF转成另外一个DF的算法，例：一个ML模型是一个转换器，转换带有特征的DataFrame成为带有预测结果的DF.

评估器：评估器是应用（fit）在一个DF上生成一个转换器的算法。例：学习算法是一个评估器，在DF上训练并且生成一个模型。
管道：一个管道连接多个转换器和评估器在一起，作为一个工作流。

参数：对于指定的参数来说，所有的转换器和评估器共享一个公共的api.

DataFrame
机器学习可以应用于很多的数据类型上，如：向量，文本，图片，结构数据。ML采用DF就是为了支持多种数据类型。
df支持很多基本和结构化的类型；支持spark sql里的类型，还有向量。
DF可以显性或隐性的从常规的RDD创建。详见代码
df中的列已经命名了。下面的实例代码中使用的名称如 “text,” “features,” 和“label.”

管道组件转换器
转换器是包含 特征转换器和学习模型的抽象。技术上，一个转换器执行一个transform()方法转换DF.一般是增加一个或多个列。例：

一个特征转换器拿到一个DF,读取一列映射到一个新列上。然后输出一个包含映射列的新的DF.
一个学习模型拿到一个DF.读取包含特征向量的列，为每个特征向量预测标签，然后把预测标签作为一个新列放到DF中输出。

评估器
评估器抽象一个应用或训练在数据上的算法的概念。技术上，评估器调用fit()方法。方法接收一个DF然后产生一个模型，这个模型就是转换器。例：一个学习算法如逻辑回归是一个Estimators，调用fit()方法训练LogisticRegressionModel，它是一个模型，因此是一个transformer。

管道组件的属性
Transformer.transform()s and Estimator.fit()s 都是无状态的，未来，有状态算法可以通过替代概念来支持。
每一个Transformer or Estimator的实例都有一个唯一id，在指定参数时很有用（下面讨论）。

管道

在机器学习中，通常会运行一系列的算法去处理和学习数据。例: 一个简单的文本文档处理工作流可以包含一些stage：

把文档中的文本分成单词。
转换文档中的每个单词成为数字化的特征向量
使用特征向量和标签学习预测模型。

spark ML 描述一个工作流作为一个管道。管道由一系列的PipelineStage(Transformers 和Estimators)组成，以指定的顺序运行。在这部分中我们将使用这个简单的工作流作为运行的例子

How it works

一个管道被指定为一系列的阶段，每一阶段要么是Transformer 或是Estimator。这些stage有序运行，输入的DF被它通过的每个stage转换。对于Transformer 阶段， transform() 方法在df调用，对于Estimator 阶段，fit()方法被调用产生一个新的Transformer( 转换器变成PipelineModel的一部分，或合适的管道)，然后转换器调用transform() 方法应用在df上。

我们通过一个简单文本文档工作流来阐明，下面的图是关于管道的训练time（时代）的用法。

上面，顶行代表包含三个阶段的管道。前两个蓝色的 (Tokenizer and HashingTF) 是转换器，第三个LogisticRegression是评估器。底部的行代表通过管道的数据流，圆筒是DF. Pipeline.fit() 方法在初始的df上调用，它是行文本和标签。Tokenizer.transform() 方法把行文本分成单词，增加一个包含单词的新列到DF上。HashingTF.transform()方法转换单词列成特征向量，增加一个包含向量的新列到DF上。现在，LogisticRegression是评估器，管道首先调用 LogisticRegression.fit()生成LogisticRegressionModel。如果管道有多个阶段，在传递df给下一阶段之前它调用LogisticRegressionModel的 transform()方法。

一个管道是一个评估器，因此，管道的fit()方法运行之后，产生一个PipelineModel ，它是一个转换器。这个PipelineModel使用在校验阶段（test time）；下图说明了PipelineModel的用法。

在上图里， PipelineModel 与原管道的stage的数量相同。但是在原始管道中所有的评估器都变成转换器。当在测试数据集上调用 PipelineModel’s transform() 时，数据有序的通过合适的管道。每一个stage的transform()更新数据集，然后传给下一个stage。

Pipeline 和 PipelineModel 有助于确保训练集和测试集得到相同的特征处理步骤。

明细
DAG管道：一个管道里的多个stage被指定为一个有序的数组，上面的例子给的是线性管道的例子，管道里的stage使用的数据是它上一个stage产生的。也可以创建非线性的管道，只要数据流图是一个DAG图。DAG图可以基于每个stage 输入和输出的列名隐式的指定。如果管道是DAG的形式，然后stage的拓扑图顺序必须被指定。

运行时检测：由于管道可以操作多类型的DataFrame，所以不能执行编译时类型检测。Pipelines 和PipelineModel在运行时检测。使用DataFrame的schema来做检测。
独一无二的管道 stage：管道的stage应该是独一无二实例，举例：同一个myHashing实例不能插入管道两次，因为管道必须有唯一id。然而，实例两个实例（myHashingTF1 and myHashingTF2）可以放到同一个管道中，因为不同的实例产生不同的id。

参数

ML的 Estimator和Transformer 使用相同的api来指定参数。
参数名Param是一个参数， ParamMap是一个参数的集合 (parameter, value)
给算法传参的有两种主要的方法：
1.为实例设置参数，例：如果lr是LogisticRegression的实例。设置 lr.setMaxIter(10)，可以让 lr.fit()最多十次迭代。这个API整合了spark.mllib包里的api。
2.传递ParamMap给fit() or transform()方法， ParamMap里的参数将覆盖前面通过setter方法设定的参数。
参数属于指定的Estimators and Transformer实例，例：如果有两个逻辑回归lr1 and lr2,然后可以创建包含两个maxIter参数的ParamMap：ParamMap(lr1.maxIter -> 10, lr2.maxIter -> 20)。如果在一个管道中两个算法都有maxIter参数时，这很有用。

保存和加载管道

保存一个模型和一个管道到磁盘，为了下次使用是很有价值的。在spark 1.6里。一个模型导入、导出的功能被加到管道的API里。大多数基本的transformer被支持，同样，一些基本的学习模型也被支持。请参考算法api文档看看是否支持保存和加载。

事例代码：

这部分给一些代码来展示上面讨论的功能。更多信息请看API. 一些spark ML算法是对spark.mllib算法的包装。具体明细请看 MLlib programming guide。

Example: Estimator, Transformer, and Param

这部分涵盖 Estimator，Transformer，和Param

import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.param.ParamMap
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.sql.Row

// Prepare training data from a list of (label, features) tuples.
//准备带标签和特征的数据
val training = sqlContext.createDataFrame(Seq(
  (1.0, Vectors.dense(0.0, 1.1, 0.1)),
  (0.0, Vectors.dense(2.0, 1.0, -1.0)),
  (0.0, Vectors.dense(2.0, 1.3, 1.0)),
  (1.0, Vectors.dense(0.0, 1.2, -0.5))
)).toDF("label", "features")

// Create a LogisticRegression instance.  This instance is an Estimator.
//创建一个逻辑回归事例，这个实例是评估器
val lr = new LogisticRegression()
// Print out the parameters, documentation, and any default values.
//输出参数等默认值
println("LogisticRegression parameters:\n" + lr.explainParams() + "\n")

// We may set parameters using setter methods.
//使用setter方法设置参数
lr.setMaxIter(10)
  .setRegParam(0.01)

// Learn a LogisticRegression model.  This uses the parameters stored in lr.
//使用存储在lr中的参数来，学习一个模型，
val model1 = lr.fit(training)
// Since model1 is a Model (i.e., a Transformer produced by an Estimator),
// we can view the parameters it used during fit().
// This prints the parameter (name: value) pairs, where names are unique IDs for this
// LogisticRegression instance.
//由于model1是一个模型，（也就是，一个评估器产生一个转换器），
// 我们可以看lr在fit()上使用的参数。
//输出这些参数对，参数里的names是逻辑回归实例的唯一id
println("Model 1 was fit using parameters: " + model1.parent.extractParamMap)

// We may alternatively specify parameters using a ParamMap,
// which supports several methods for specifying parameters.
//我们可以使用paramMap选择指定的参数，并且提供了很多方法来设置参数
val paramMap = ParamMap(lr.maxIter -> 20)
  .put(lr.maxIter, 30) // Specify 1 Param.  This overwrites the original maxIter. 指定一个参数。
  .put(lr.regParam -> 0.1, lr.threshold -> 0.55) // Specify multiple Params. 指定多个参数

// One can also combine ParamMaps.
val paramMap2 = ParamMap(lr.probabilityCol -> "myProbability") // Change output column name 改变输出列的名称
val paramMapCombined = paramMap ++ paramMap2

// Now learn a new model using the paramMapCombined parameters.
// paramMapCombined overrides all parameters set earlier via lr.set* methods.
//使用新的参数学习模型。
val model2 = lr.fit(training, paramMapCombined)
println("Model 2 was fit using parameters: " + model2.parent.extractParamMap)

// Prepare test data.
//准备测试数据
val test = sqlContext.createDataFrame(Seq(
  (1.0, Vectors.dense(-1.0, 1.5, 1.3)),
  (0.0, Vectors.dense(3.0, 2.0, -0.1)),
  (1.0, Vectors.dense(0.0, 2.2, -1.5))
)).toDF("label", "features")

// Make predictions on test data using the Transformer.transform() method.
// LogisticRegression.transform will only use the 'features' column.
// Note that model2.transform() outputs a 'myProbability' column instead of the usual
// 'probability' column since we renamed the lr.probabilityCol parameter previously.
//使用转换器的transform()方法在测试数据上作出预测.
// 逻辑回归的transform方法只使用“特征”列.
// 注意model2.transform()方法输出的是myProbability列而不是probability列，因为在上面重命名了lr.probabilityCol 参数。
model2.transform(test)
  .select("features", "label", "myProbability", "prediction")
  .collect()
  .foreach { case Row(features: Vector, label: Double, prob: Vector, prediction: Double) =>
  println(s"($features, $label) -> prob=$prob, prediction=$prediction")
}

个人认为：在这个训练过程中，最终要的步骤就是设置参数，来让算法工作的更好。yes

Example: Pipeline

这个例子是上面图片中展示的文本文档管道

import org.apache.spark.ml.{Pipeline, PipelineModel}
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.feature.{HashingTF, Tokenizer}
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.sql.Row

// Prepare training documents from a list of (id, text, label) tuples.
//准备训练文档，（id，内容，标签）
val training = sqlContext.createDataFrame(Seq(
  (0L, "a b c d e spark", 1.0),
  (1L, "b d", 0.0),
  (2L, "spark f g h", 1.0),
  (3L, "hadoop mapreduce", 0.0)
)).toDF("id", "text", "label")

// Configure an ML pipeline, which consists of three stages: tokenizer, hashingTF, and lr.
//配置ML管道，由三个stage组成，tokenizer, hashingTF, and lr ，
val tokenizer = new Tokenizer()
  .setInputCol("text")
  .setOutputCol("words")
val hashingTF = new HashingTF()
  .setNumFeatures(1000)
  .setInputCol(tokenizer.getOutputCol)
  .setOutputCol("features")
val lr = new LogisticRegression()
  .setMaxIter(10)
  .setRegParam(0.01)
val pipeline = new Pipeline()
  .setStages(Array(tokenizer, hashingTF, lr))

// Fit the pipeline to training documents.
//安装管道到数据上
val model = pipeline.fit(training)

// now we can optionally save the fitted pipeline to disk
//现在可以保存安装好的管道到磁盘上
model.save("/tmp/spark-logistic-regression-model")

// we can also save this unfit pipeline to disk
//也可以保存未安装的管道到磁盘上
pipeline.save("/tmp/unfit-lr-model")

// and load it back in during production
//加载管道
val sameModel = PipelineModel.load("/tmp/spark-logistic-regression-model")

// Prepare test documents, which are unlabeled (id, text) tuples.
//准备测试文档，不包含标签
val test = sqlContext.createDataFrame(Seq(
  (4L, "spark i j k"),
  (5L, "l m n"),
  (6L, "mapreduce spark"),
  (7L, "apache hadoop")
)).toDF("id", "text")

// Make predictions on test documents.
//在测试文档上做出预测
model.transform(test)
  .select("id", "text", "probability", "prediction")
  .collect()
  .foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) =>
  println(s"($id, $text) --> prob=$prob, prediction=$prediction")
}

Example: model selection via cross-validation 通过交叉验证选择模型

在机器学习中一个重要的任务是模型选择，或使用数据发现最好的模型或给任务设置参数，这叫做调优。通过调优整个管道去促进管道选择模型会变的容易，而不是分开的调优管道内的每一个元素。
当前，spark.ml支持使用交叉验证器 CrossValidator类选择模型，这个类接收一个Estimator，一个参数集，一个Evaluator，CrossValidator 开始拆分数据集到一个fold集中，这个fold集被用来作为分开测试和训练的数据集；例：带有3个fold的CrossValidator 将产生3组（训练，测试）数据集，每一个数据集中2/3作为训练数据，1/3作为测试数据. CrossValidator 通过参数集进行迭代计算。为每一个ParamMap，训练给定的Estimator 并且使用给予的Evaluator来评估。

RegressionEvaluator评估器Evaluator来评估回归问题， BinaryClassificationEvaluator 来评估二元数据， MultiClassClassificationEvaluator 评估多元分类问题。
用于选择最佳paraMap参数的默认度量可以被Evaluator 的setMetric方法覆盖。

产生最好评估度量的paramMap被选择作为最好的模型。CrossValidator 最终使用最好的paramMap和整个数据集fit 评估器，（意思就是执行评估器的fit方法）

下面的例子就是CrossValidator 从一个网格参数做选择。只用 ParamGridBuilder 工具构造参数网格。
注意在一个网格参数上做交叉校验是非常昂贵的。例，下面的例子中，hashingTF.numFeatures有3个值和lr.regParam有2个值的参数网络，并且CrossValidator 的fold是2个。这个相乘的输出是 (3×2)×2=12 不同的明细需要训练，在真实的设置中，参数会被设置的更大并且有更多的fold（一般是 3或者10）。换句话说。使用CorssValidator是非常昂贵的。
然而，用来选择参数它也是一个行之有效的方法。

import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.feature.{HashingTF, Tokenizer}
import org.apache.spark.ml.tuning.{ParamGridBuilder, CrossValidator}
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.sql.Row

    // Prepare training data from a list of (id, text, label) tuples.
    //准备训练数据，id 内容，标签
    val training = sqlContext.createDataFrame(Seq(
      (0L, "a b c d e spark", 1.0),
      (1L, "b d", 0.0),
      (2L, "spark f g h", 1.0),
      (3L, "hadoop mapreduce", 0.0),
      (4L, "b spark who", 1.0),
      (5L, "g d a y", 0.0),
      (6L, "spark fly", 1.0),
      (7L, "was mapreduce", 0.0),
      (8L, "e spark program", 1.0),
      (9L, "a e c l", 0.0),
      (10L, "spark compile", 1.0),
      (11L, "hadoop software", 0.0)
    )).toDF("id", "text", "label")

    // Configure an ML pipeline, which consists of three stages: tokenizer, hashingTF, and lr.
//    配置机器学习管道，由tokenizer, hashingTF,  lr评估器 组成
    val tokenizer = new Tokenizer()
      .setInputCol("text")
      .setOutputCol("words")
    val hashingTF = new HashingTF()
      .setInputCol(tokenizer.getOutputCol)
      .setOutputCol("features")
    val lr = new LogisticRegression()
      .setMaxIter(10)
    val pipeline = new Pipeline()
      .setStages(Array(tokenizer, hashingTF, lr))

    // We use a ParamGridBuilder to construct a grid of parameters to search over.
    // With 3 values for hashingTF.numFeatures and 2 values for lr.regParam,
    // this grid will have 3 x 2 = 6 parameter settings for CrossValidator to choose from.
    //使用ParamGridBuilder 构造一个参数网格，
    //hashingTF.numFeatures有3个值，lr.regParam有2个值，
    // 这个网格有6个参数给CrossValidator来选择
    val paramGrid = new ParamGridBuilder()
      .addGrid(hashingTF.numFeatures, Array(10, 100, 1000))
      .addGrid(lr.regParam, Array(0.1, 0.01))
      .build()

    // We now treat the Pipeline as an Estimator, wrapping it in a CrossValidator instance.
    // This will allow us to jointly choose parameters for all Pipeline stages.
    // A CrossValidator requires an Estimator, a set of Estimator ParamMaps, and an Evaluator.
    // Note that the evaluator here is a BinaryClassificationEvaluator and its default metric
    // is areaUnderROC.
    //现在我们把管道看做成一个Estimator，把它包装到CrossValidator实例中。
    //这可以让我们连带的为管道的所有stage选择参数。
    //CrossValidator需要一个Estimator，一个评估器参数集合，和一个Evaluator。
    //注意这里的evaluator 是二元分类的BinaryClassificationEvaluator，它默认的度量是areaUnderROC.
    val cv = new CrossValidator()
      .setEstimator(pipeline)
      .setEvaluator(new BinaryClassificationEvaluator)
      .setEstimatorParamMaps(paramGrid)
      .setNumFolds(2) // Use 3+ in practice  // 在实战中使用3+

    // Run cross-validation, and choose the best set of parameters.
    //运行交叉校验，选择最好的参数集
    val cvModel = cv.fit(training)

    // Prepare test documents, which are unlabeled (id, text) tuples.
    //准备测试数据
    val test = sqlContext.createDataFrame(Seq(
      (4L, "spark i j k"),
      (5L, "l m n"),
      (6L, "mapreduce spark"),
      (7L, "apache hadoop")
    )).toDF("id", "text")

    // Make predictions on test documents. cvModel uses the best model found (lrModel).
    //在测试文档上做预测，cvModel是选择出来的最好的模型
    cvModel.transform(test)
      .select("id", "text", "probability", "prediction")
      .collect()
      .foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) =>
      println(s"($id, $text) --> prob=$prob, prediction=$prediction")
    }

个人理解：使用交叉检验，自动的从一个参数集中选择出最好的一个，来构建组好的模型。

Example: model selection via train validation split 例：通过训练校验分离来模型选择

除了CrossValidator 以外spark还提供TrainValidationSplit 来进行超-参数调优。 TrainValidationSplit 只评估每一种参数组合一次。而不是像CrossValidator评估k次，TrainValidationSplit 只有一次。因此不是很昂贵，但是如果训练数据集不够大就不能产生能信赖的结果。

TrainValidationSplit 需要传入一个Estimator,一个包含estimatorParamMaps 参数的paraMap的集和一个Evaluator。它一开始使用trainRatio 参数值把数据集分成训练数据和测试数据两个部分。例如：使用trainRatio=0.75 （默认值），TrainValidationSplit 就产生75%数据用于训练，25%的数据用于测试。与CrossValidator相似的是，TrainValidationSplit 也是通过迭代参数集paramMap。对于每一种参数组合，使用给定的Estimator 训练，在给定 Evaluator上评估。产生最好的评估度量的paramMap作为最好的选择。TrainValidationSplit 最终会使用最好的参数和整个数据集条用Estimator的fit方法。

import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.ml.tuning.{ParamGridBuilder, TrainValidationSplit}

// Prepare training and test data.
//准备训练数据和测试数据
val data = sqlContext.read.format("libsvm").load("data/mllib/sample_linear_regression_data.txt")
val Array(training, test) = data.randomSplit(Array(0.9, 0.1), seed = 12345)

val lr = new LinearRegression()

// We use a ParamGridBuilder to construct a grid of parameters to search over.
// TrainValidationSplit will try all combinations of values and determine best model using
// the evaluator.
//ParamGridBuilder构建一组参数
//TrainValidationSplit将尝试从这些所有值的组合中使用evaluator选出最好的模型
val paramGrid = new ParamGridBuilder()
  .addGrid(lr.regParam, Array(0.1, 0.01))
  .addGrid(lr.fitIntercept)
  .addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0))
  .build()

// In this case the estimator is simply the linear regression.
// A TrainValidationSplit requires an Estimator, a set of Estimator ParamMaps, and an Evaluator.
//在这里estimator是简单的线性回归
//TrainValidationSplit 需要一个Estimator ， 一个Estimator ParamMaps集，一个Evaluator
val trainValidationSplit = new TrainValidationSplit()
  .setEstimator(lr)
  .setEvaluator(new RegressionEvaluator)
  .setEstimatorParamMaps(paramGrid)
  // 80% of the data will be used for training and the remaining 20% for validation.
  //80%数据作为训练，剩下的20%作为验证
  .setTrainRatio(0.8)

// Run train validation split, and choose the best set of parameters.
//运行训练校验分离，选择最好的参数。
val model = trainValidationSplit.fit(training)

// Make predictions on test data. model is the model with combination of parameters
// that performed best.
//在测试数据上做预测，模型是参数组合中执行最好的一个
model.transform(test)
  .select("features", "label", "prediction")
  .show()

Spark编程实验六：Spark机器学习库MLlib编程 Francek Chen Spark编程基础 spark mllib 大数据机器学习算法
目录一、目的与要求二、实验内容三、实验步骤1、数据导入2、进行主成分分析（PCA）3、训练分类模型并预测居民收入4、超参数调优四、结果分析与实验体会一、目的与要求1、通过实验掌握基本的MLLib编程方法；2、掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。二、实验内容1.数据导入从文件中导入数据，并转化为DataFrame。2、进行主成分分析（PCA）对6个连续型
Spark MLlib Francek Chen Spark编程基础 spark-ml spark mllib 机器学习
目录一、SparkMLlib简介（一）什么是机器学习（二）基于大数据的机器学习（三）Spark机器学习库MLlib二、机器学习流水线（一）机器学习流水线概念（二）流水线工作过程（三）构建一个机器学习流水线三、特征提取和转换（一）特征提取：TF-IDF（二）特征转换：标签和索引的转化四、分类与回归（一）逻辑斯蒂回归分类器（二）决策树分类器一、SparkMLlib简介（一）什么是机器学习机器学习可以看
【Spark】pyspark 基于DataFrame使用MLlib包 beautiful_huang Spark spark
在这里，我们将基于DataFrame使用MLlib包。另外，根据Spark文档，现在主要的Spark机器学习API是spark.ml包中基于DataFrame的一套模型。1ML包的介绍从顶层上看，ML包主要包含三大抽象类：转换器、预测器和工作流。1.1转换器（Transformer）从Transformer抽象类派生出来的每一个新的Transformer都需要实现一个.transform(…)方法
【Spark-ML源码解析】Word2Vec LotusQ spark-ml word2vec 人工智能
前言在阅读源码之前，需要了解Spark机器学习Pipline的概念。相关阅读：SparkMLlib之Pipeline介绍及其应用这里比较核心的两个概念是：Transformer和Estimator。Transformer包括特征转换和学习后的模型两种情况，用来将一个DataFrame转换成另一个DataFrame；Estimator接收一个DataFrame并输出一个模型（Transformer）
2018-11-12Pyspark win环境配置参考 QQsoso
Anaconda中配置Pyspark的Spark开发环境Spark搭建机器学习系统Spark机器学习win+本地Pyspark
大数据分析与应用实验任务十二陈希瑞数据分析数据挖掘
大数据分析与应用实验任务十二实验目的：通过实验掌握spark机器学习库本地向量、本地矩阵的创建方法；熟悉spark机器学习库特征提取、转换、选择方法；实验任务：一、逐行理解并参考编写运行教材8.3.1、8.3.3节各个例程代码，查看向量或本地矩阵结果请用.toArray()方法。1、本地向量首先安装numpy，否则会报错“ImportError:Nomodulenamed‘numpy’”sudop
spark mllib和spark ml机器学习基础知识厨神大数据 python spark
spark机器学习SparkMLib完整基础入门教程-y-z-f-博客园(cnblogs.com)参考spark机器学习简介机械学习是一门人工智能的科学，用于研究人工智能，强调算法，经验，性能开发者任务：spark基础+了解机器学习原理+相关参数含义millib：分类回归聚类协同过滤降维特征化：特则提取转化降维选择公交管道：构建评估调整机器学习管道持久性：保存和加载算法，模型和管道实用工具：线代(
人工智能学习路线，文末赠书活动（深度学习Spark机器学习）程序IT圈算法决策树人工智能机器学习深度学习
程序IT圈学习编程技术，关注这个公众号足够了现在人工智能，机器学习这么火热，很多人想入门却不知道要从哪里入门，从哪里开始学习，该学习些什么内容，下面是我以前看过的一篇关于机器学习的学习入线文章，可能可以帮助到你入门人工智能领域。另外本次文末机械工业出版社华章分社闫老师提供给本公众号五本技术图书《深度学习Spark机器学习》，免费赠送给大家！第一课：机器学习的数学基础1.机器学习的数学基础a.函数与
【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版） weixin_30894389 python 大数据人工智能
目录保序回归原理保序回归代码(SparkPython)保序回归原理待续...返回目录保序回归代码(SparkPython)代码里数据：https://pan.baidu.com/s/1jHWKG4I密码：acq1#-*-coding=utf-8-*-frompysparkimportSparkConf,SparkContextsc=SparkContext('local')importmathfr
Spark机器学习之分类与回归 dingcheng998 spark 机器学习
本页面介绍了分类和回归的算法。它还包括讨论特定类别的算法的部分，如线性方法，树和集合体。目录分类Classification-----------逻辑回归Logisticregression-------------------二项式逻辑回归Binomiallogisticregression-------------------多项Logistic回归Multinomiallogisticreg
机器学习(一)Spark机器学习基础大模型Maynor #机器学习机器学习 spark 人工智能
文章目录1.Spark机器学习基础1.0机器学习和大数据的区别和联系1.1机器学习引入1.2机器学习三次浪潮1.3人工智能领域基础概念区别1.3.1人工智能、机器学习、深度学习关系1.3.2数据分析、数据挖掘基本概念区别1.3.3各技术交叉点后记1.Spark机器学习基础l学习目标掌握机器学习与大数据的区别和联系掌握机器学习概念掌握机器学习如何构建机器学习模型过程1.0机器学习和大数据的区别和联系
3.Spark机器学习基础——监督学习许志辉Albert
Spark机器学习基础——监督学习1.1线性回归（加L1L2正则化）!head-3data/mllib/sample_linear_regression_data.txt1from__future__importprint_functionfrompyspark.ml.regressionimportLinearRegressionfrompyspark.sqlimportSparkSession
SparkML机器学习火玄 spark spark-ml 机器学习人工智能
SparkML机器学习:让机器学会人的学习行为,通过算法和数据来模拟或实现人类的学习行为，使之不断改善自身性能。机器学习的步骤:加载数据特征工程数据筛选:选取适合训练的特征列,例如用户id就不适合,因为它特性太显著.数据转化:将字符串的数据转化数据类型,因为模型训练的数据不能为字符串.将多个特征列转化为一个向量列,因为spark机器学习要求数据输入只能为一个特征列数据缩放:把所有的特征缩放到0~1
机器学习基础笔记硅谷工具人 #spark 机器学习机器学习笔记人工智能
文章目录1.机器学习简介1.1机器学习的一般功能1.2机器学习的应用1.3机器学习的方法1.4机器学习的种类1.5机器学习的常用框架2.Spark机器学习2.1MLlib介绍2.2MLlib的数据格式2.2.1本地向量2.2.2标签数据2.3MLlib与ml2.4MLlib的应用场景3.Spark环境搭建4.向量与矩阵4.1向量操作4.2矩阵操作5.基础统计5.1描述性统计5.2相关性度量5.3假
Spark机器学习实例 V丶Chao Spark 算法 python 机器学习大数据 java
2020/07/09-引言《LearningSpark》过程中只是简单介绍了mllib中的东西，没有一个完整的实践过程，暂时还没有去找有没有专门做这种的书，好像我看《sparkinaction》是有这部分内容，后续在看。本篇文章就利用这个鸢尾花的数据集来简单说明一下spark机器学习的过程，只是简单打下一个轮廓，然后记录使用过程中遇到的问题以及解决方案。在本文中，主要使用新版面向DataFrame
【Spark基础编程】第8章 Spark MLlib 小手の冰凉【数据科学与大数据技术】spark spark-ml 机器学习
系列文章目录文章目录系列文章目录前言【第8章SparkMLlib】8.1SparkMLlib简介8.1.1什么是机器学习8.1.2基于大数据的机器学习8.1.3Spark机器学习库MLLib8.2机器学习工作流8.2.1机器学习流水线概念8.2.2构建一个机器学习流水线8.3特征抽取、转化和选择8.4分类与回归【第8章总结】前言【第8章SparkMLlib】8.1SparkMLlib简介8.1.1
计算机毕业设计之PyTroch+Spark+LSTM+Scrapy图书推荐系统图书爬虫可视化图书大数据图书数据分析计算机毕业设计大神
开发技术前端：vue.js、echarts、websocket后端API:springboot+mybatis-plus数据库：mysql数据分析：Spark机器学习：PyTroch（基于神经网络的混合CF推荐算法）、协同过滤算法(基于用户、基于物品全部实现)、lstm评论情感分析第三方平台：支付宝沙箱支付、百度AI图片识别、短信接口数据集：Scrapy爬虫框架(Python)创新点Spark大屏
PySpark机器学习 Machine Learning with PySpark - 2019.Pdf python测试开发
MachineLearningwithPySpark-2019.Pdfimage.png使用PySpark构建机器学习模型，自然语言处理应用程序和推荐系统，以解决各种业务挑战。本书从Spark的基础知识及其演变开始，然后介绍了传统机器学习算法的整个范围，以及使用PySpark的自然语言处理和推荐系统。使用PySpark进行机器学习向您展示如何构建有监督的机器学习模型，如线性回归，逻辑回归，决策树和
Spark机器学习实战 (十二) - 推荐系统实战 JavaEdge
0相关源码将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。1推荐系统简介1.1什么是推荐系统1.2推荐系统的作用1.2.1帮助顾客快速定位需求,节省时间1.2.2大幅度提高销售量1.3推荐系统的技术思想1.3.1推荐系统是一种机器学习的工程应用1.3.2推荐系统基于
电商推荐系统论文：基于Spark机器学习的电商推荐系统的设计与实现，大数据电商推荐系统毕设论文，Spring MLlib电商推荐系统诸葛钢铁云解决方案运维架构大数据运维 linux python
毕业设计（论文）题目：基于Spark机器学习的电商推荐系统的设计与实现这是我去年本科毕业时做的毕业设计论文，全文三万多字，知网查重对重复率1%，由于本科论文不会被发表到知网上，再加上我已毕业近一年，现在将论文发表到CSDN。如有需要做毕设论文可引用本文对内容，先到先得（内容纯原创，少有重复）。由于作者对水平有限，文章中难免有错误对内容或作者对相关技术有错误对见解，望读者予以谅解，谢谢！接上篇文章：
spark机器学习-分类回归总结 lixia0417mul2 python机器学习 spark 机器学习分类
1.spark支持的分类包括以下几个场景：a.二分类，顾名思义就是只分成A和B两类b.多分类分成A，B，C，D等多个分类不支持多标签分类，所谓的多标签分类是指一个样本可以属于多个分类，也就是比如样本X既属于A分类又属于B分类，spark目前不支持分类的算法主要有逻辑回归分类算法，决策树，随即森林等，不管是哪种算法，不同点主要在于支持的分类数量和样本数量的限制不同，评价分类算法的好坏的标志主要是看准
Spark机器学习工具链-MLflow简介 weixin_34353714
2019独角兽企业重金招聘Python工程师标准>>>Spark机器学习工具链-MLflow简介本文翻译自https://github.com/openthings/mlflow本文地址https://my.oschina.net/u/2306127/blog/1825638，byopenthings,2018.06.07.参考：mlflow项目由Databricks创建。官方主页https://
Apache Spark机器学习教程 danpu0978 算法大数据 python 机器学习深度学习
编者注：不要错过有关如何使用ApacheSpark创建数据管道应用程序的新的免费按需培训课程-在此处了解更多信息。决策树广泛用于分类和回归的机器学习任务。在此博客文章中，我将帮助您开始使用ApacheSpark的MLlib机器学习决策树进行分类。机器学习算法概述通常，机器学习可以分为两类算法：有监督算法和无监督算法。监督算法使用标记的数据，其中输入和输出都提供给算法。无监督算法没有预先的输出。这些
使用Apache Spark机器学习逻辑回归预测乳腺癌 danpu0978 算法大数据 python 机器学习人工智能
在此博客文章中，我将帮助您开始使用ApacheSpark的spark.mlLogistic回归来预测癌症恶性程度。Spark的spark.ml库目标是在DataFrames之上提供一组API，以帮助用户创建和调整机器学习工作流程或管道。将spark.ml与DataFrames一起使用可通过智能优化提高性能。分类分类是一类有监督的机器学习算法，该算法基于已知项目的标记示例（例如，已知为恶性的观察结果
logistic回归预测_使用Apache Spark机器学习Logistic回归预测乳腺癌 danpu0978 算法大数据 python 机器学习人工智能
logistic回归预测在此博客文章中，我将帮助您开始使用ApacheSpark的spark.mlLogistic回归来预测癌症恶性程度。Spark的spark.ml库目标是在DataFrames之上提供一组API，以帮助用户创建和调整机器学习工作流程或管道。将spark.ml与DataFrames一起使用可通过智能优化提高性能。分类分类是一类有监督的机器学习算法，该算法基于已知项目的标记示例（例
Spark机器学习解析 Legosnow 机器学习 spark 人工智能
源码加数据集：文件源码Gitee好像只收10M一下的文件类型，所以数据集就只能以链接的形式自己下了KMeans和决策树KDD99数据集，推荐使用10%的数据集：http://kdd.ics.uci.edu/databases/kddcup99/ALS电影推荐的Movielens数据集，推荐使用1m大小：https://files.grouplens.org/datasets/movielens/逻
Apache Spark 机器学习管道 3 uesowys 人工智能技术与架构 spark 人工智能
ApacheSpark的机器学习管道提供一个统一的、高级的APIs集合，该APIs集合是以数据框架（Datagrams）为基础，帮助开发人员创建或者优化一个用于实际环境的机器学习的管道。管道（Pipeline）的基本概念Spark机器学习类库MLlib提供丰富的用于机器学习的算法，使得机器学习更加容易地在一个管道、工作流程中综合多种不同的算法，以提供更加强大的机器学习能力，管道的基本概念如下所示：
Python Spark 机器学习与Hadoop 大数据（1）学习笔记一停止的闹钟 Python Spark Hadoop 机器学习大数据大数据 Spark 机器学习 Hadoop 学习笔记
PythonSpark机器学习与Hadoop大数据1.1机器学习机器学习框架机器学习（MachineLearning）：通过算法，和历史数据进行训练，产生得出模型。当有未知相匹配的数据时，我们可以通过模型进行一定程度上的预测。训练数据（监督学习）分为：Feature（数据特征）Label（数据标签，预测目标）机器学习分类：监督学习：有Feature,有Labul,无监督学习：有Feature，无L
笔记：python spark机器学习与hadoop大数据长度735 大数据 python spark
目录1.1机器学习的介绍机器学习架构1.2Spark的介绍1.3Spark数据处理RDD、DataFrame、SparkSQl1.4使用python开发spark机器学习与大数据应用1.5pythonspark机器学习1.6大数据定义JAVA-JDK在Linux的下载和安装1.1机器学习的介绍机器学习技术不断进步，应用相当广泛，例如推荐引擎、定向广告、需求预测、垃圾邮件过滤、医学诊断、自然语言处理
推荐系统-基于模型协同过滤理论基础与业务实践深漠大侠智能推荐智能推荐
推荐系统-基于模型协同过滤理论基础与业务实践1.SparkMllib库框架详解Spark机器学习库五个组件MLAlgratham算法Pipelines管道FeatureszationPersistenceUtilitieslSparkml和Sparkmllibml基于DatafrmaeAPImllib基于rdd的API2.SparkMllib基本数据类型localvector本地向量创建方式上de
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

Spark ML PipeLine学习笔记

Example: Estimator, Transformer, and Param

Example: Pipeline

Example: model selection via cross-validation 通过交叉验证选择模型

Example: model selection via train validation split 例：通过训练校验分离来模型选择

你可能感兴趣的:(spark机器学习)