大数据之眸

Spark大数据分布式机器学习处理实战

前言

Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有关框架介绍和环境配置可以参考以下内容：

大数据处理框架Hadoop、Spark介绍

linux下Hadoop安装与环境配置

linux下Spark安装与环境配置

本文的参考配置为：Deepin 15.11、Java 1.8.0_241、Hadoop 2.10.0、Spark 2.4.4、scala 2.11.12

本文的目录为：

一、基本统计

1.相关性

2.假设检验

3.Summarizer

二、ML管道

1.管道组件

2.参数

3.ML持久性

4.管道示例

三、提取、转换和特征选择

1.特征提取

2.特征转换

3.特征选择

4.局部敏感哈希

四、分类与回归

1.分类

2.回归

五、聚类

1.K-means

2.LDA

3.GMM

六、协同过滤

1.显式反馈与隐式反馈

2.正则化参数的缩放

3.冷启动策略

七、频繁模式挖掘

1.FP增长

2.前缀跨度

八、模型选择和交叉验证

1.模型选择

2.交叉验证

一、基本统计

1.相关性

计算两列数据之间的相关性是“统计”中的常见操作。在spark.ml 中提供了很多方法计算两两相关性。目前支持的相关方法是Pearson和Spearman的相关。

import org.apache.spark.ml.linalg.{Matrix, Vectors}import org.apache.spark.ml.stat.Correlationimport org.apache.spark.sql.Row// # 定义数据scala> val data = Seq(     |   Vectors.sparse(4, Seq((0, 1.0), (3, -2.0))),     |   Vectors.dense(4.0, 5.0, 0.0, 3.0),     |   Vectors.dense(6.0, 7.0, 0.0, 8.0),     |   Vectors.sparse(4, Seq((0, 9.0), (3, 1.0)))     | )data: Seq[org.apache.spark.ml.linalg.Vector] = List((4,[0,3],[1.0,-2.0]), [4.0,5.0,0.0,3.0], [6.0,7.0,0.0,8.0], (4,[0,3],[9.0,1.0]))// # Tuple1为scala中元组表达方式scala> val df = data.map(Tuple1.apply).toDF("features")df: org.apache.spark.sql.DataFrame = [features: vector]// # 皮尔逊相关系数scala> val Row(coeff1: Matrix) = Correlation.corr(df, "features").headscala> println(s"Pearson correlation matrix:\n $coeff1")Pearson correlation matrix: 1.0                   0.055641488407465814  NaN  0.4004714203168137  0.055641488407465814  1.0                   NaN  0.9135958615342522  NaN                   NaN                   1.0  NaN                 0.4004714203168137    0.9135958615342522    NaN  1.0                 // # 斯皮尔曼相关系数scala> val Row(coeff2: Matrix) = Correlation.corr(df, "features", "spearman").headscala> println(s"Spearman correlation matrix:\n $coeff2")Spearman correlation matrix: 1.0                  0.10540925533894532  NaN  0.40000000000000174  0.10540925533894532  1.0                  NaN  0.9486832980505141   NaN                  NaN                  1.0  NaN                  0.40000000000000174  0.9486832980505141   NaN  1.0

2.假设检验

假设检验是一种强大的统计工具，可用来确定结果是否具有统计意义，以及该结果是否偶然发生。spark.ml目前支持Pearson的卡方检验（独立性检验）。

import org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.ml.stat.ChiSquareTest// 定义数据scala> val data = Seq(     |   (0.0, Vectors.dense(0.5, 10.0)),     |   (0.0, Vectors.dense(1.5, 20.0)),     |   (1.0, Vectors.dense(1.5, 30.0)),     |   (0.0, Vectors.dense(3.5, 30.0)),     |   (0.0, Vectors.dense(3.5, 40.0)),     |   (1.0, Vectors.dense(3.5, 40.0))     | )data: Seq[(Double, org.apache.spark.ml.linalg.Vector)] = List((0.0,[0.5,10.0]), (0.0,[1.5,20.0]), (1.0,[1.5,30.0]), (0.0,[3.5,30.0]), (0.0,[3.5,40.0]), (1.0,[3.5,40.0]))scala> val df = data.toDF("label", "features")df: org.apache.spark.sql.DataFrame = [label: double, features: vector]scala> val chi = ChiSquareTest.test(df, "features", "label").headchi: org.apache.spark.sql.Row = [[0.6872892787909721,0.6822703303362126],WrappedArray(2, 3),[0.75,1.5]]scala> println(s"pValues = ${chi.getAs[Vector](0)}")pValues = [0.6872892787909721,0.6822703303362126]scala> println(s"degreesOfFreedom ${chi.getSeq[Int](1).mkString("[", ",", "]")}")degreesOfFreedom [2,3]scala> println(s"statistics ${chi.getAs[Vector](2)}")statistics [0.75,1.5]

3.Summarizer

我们通过Summarizer提供Dataframe矢量列汇总统计。可用的度量是按列的最大值，最小值，平均值，方差和非零数以及总数。

import org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.ml.stat.Summarizerscala> val data = Seq(     |   (Vectors.dense(2.0, 3.0, 5.0), 1.0),     |   (Vectors.dense(4.0, 6.0, 7.0), 2.0)     | )data: Seq[(org.apache.spark.ml.linalg.Vector, Double)] = List(([2.0,3.0,5.0],1.0), ([4.0,6.0,7.0],2.0))scala> val df = data.toDF("features", "weight")df: org.apache.spark.sql.DataFrame = [features: vector, weight: double]// Summarizer应用scala> val (meanVal,varianceVal) = df.select(Summarizer.metrics("mean","variance").summary($"features",$"weight").as("summary")).select("summary.mean","summary.variance").as[(Vector,Vector)].first()meanVal: org.apache.spark.ml.linalg.Vector = [3.333333333333333,5.0,6.333333333333333]varianceVal: org.apache.spark.ml.linalg.Vector = [2.0,4.5,2.0]

二、ML管道

1.管道组件

MLlib对用于机器学习算法的API进行了标准化，从而使将多种算法组合到单个管道或工作流中变得更加容易。Spark中的管道概念主要受scikit-learn项目的启发，包含以下几块：

DataFrame：此ML API使用DataFrameSpark SQL作为ML数据集，可以保存各种数据类型。例如，DataFrame可能有不同的列，用于存储文本，特征向量，真实标签和预测值。
Transformer：是一种算法，其可以将一个DataFrame到另一个DataFrame。例如，Transformer可以将具有特征的DataFrame转换为具有预测的DataFrame。
Estimator：是一种算法，可以适合DataFrame来产生Transformer。例如，学习算法是在上Estimator进行训练DataFrame并生成模型的算法。
Parameter：所有Transformer和Estimator现在共享一个用于指定参数的通用API。

Pipeline被指定为一个阶段序列，每个阶段是一个Transformer或一个Estimator。这些阶段按顺序运行，并且输入DataFrame在通过每个阶段时都会进行转换。对于Transformer阶段，该transform()方法在上调用DataFrame。对于Estimator阶段，将fit()调用方法来生成Transformer（成为PipelineModel或一部分Pipeline）Transformer的transform()方法，并且在上调用的方法DataFrame（如下图）。

2.参数

MLlib Estimator和Transformers使用统一的API来指定参数。一个Param是带有独立文件的命名参数。一个ParamMap是一组（参数，值）对。

将参数传递给算法的主要方法有两种：

设置实例的参数。例如，如果lr是的一个实例LogisticRegression，一个可以调用lr.setMaxIter(10)，使lr.fit()最多10次迭代使用。该API类似于spark.mllib软件包中使用的API 。
将ParamMap传递给fit()或transform()。中的任何参数都ParamMap将覆盖先前通过setter方法指定的参数。

3.ML持久性

通常，将模型或管道保存到磁盘以供以后使用是值得的。从Spark 2.3开始，基于DataFrame的API spark.ml并pyspark.ml具有完整的覆盖范围。ML持久性可跨Scala，Java和Python使用。

4.管道示例

import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, Tokenizer}import org.apache.spark.ml.linalg.Vectorimport org.apache.spark.sql.Rowscala> val training = spark.createDataFrame(Seq(     |   (0L, "hadoop spark hdfs streaming", 1.0),     |   (1L, "rdd pipline ml graph", 0.0),     |   (2L, "flink kafka hive storm", 1.0),     |   (3L, "mr vector classification regression ", 0.0)     | )).toDF("id", "text", "label")training: org.apache.spark.sql.DataFrame = [id: bigint, text: string ... 1 more field]scala> val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")tokenizer: org.apache.spark.ml.feature.Tokenizer = tok_d558d41cf35ascala> val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol(tokenizer.getOutputCol).setOutputCol("features")hashingTF: org.apache.spark.ml.feature.HashingTF = hashingTF_b401b9d293c1scala> val lr = new LogisticRegression().setMaxIter(10).setRegParam(0.001)lr: org.apache.spark.ml.classification.LogisticRegression = logreg_157e397530b7scala> val pipeline = new Pipeline().setStages(Array(tokenizer, hashingTF, lr))pipeline: org.apache.spark.ml.Pipeline = pipeline_5688fc038a90scala> val model = pipeline.fit(training)model: org.apache.spark.ml.PipelineModel = pipeline_5688fc038a90scala> model.write.overwrite().save("tmp/flr-model")scala> pipeline.write.overwrite().save("tmp/unfit-lr-model")scala> val sameModel = PipelineModel.load("tmp/lr-model")sameModel: org.apache.spark.ml.PipelineModel = pipeline_5688fc038a90scala> val test = spark.createDataFrame(Seq(     |   (4L, "spark kafka flink"),     |   (5L, "rdd classification vector"),     |   (6L, "hive hdfs streaming"),     |   (7L, "pipline ml regression")     | )).toDF("id", "text")test: org.apache.spark.sql.DataFrame = [id: bigint, text: string]scala> model.transform(test).select("id", "text", "probability", "prediction").collect().foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) =>println(s"($id, $text) --> prob=$prob, prediction=$prediction")}(4, spark kafka flink) --> prob=[0.007999539616433434,0.9920004603835666], prediction=1.0(5, rdd classification vector) --> prob=[0.9920004603835666,0.007999539616433316], prediction=0.0(6, hive hdfs streaming) --> prob=[0.03865862309026796,0.9613413769097321], prediction=1.0(7, pipline ml regression) --> prob=[0.9920004603835666,0.007999539616433316], prediction=0.0

三、提取、转换和特征选择

1.特征提取

在Spark中特征提取主要有四种方案：

TF-IDF：术语频率逆文档频率（TF-IDF）是一种特征向量化方法，广泛用于文本挖掘中，以反映术语对语料库中文档的重要性。
Word2Vec：Word2Vec是一个Estimator包含代表文档的单词序列并训练一个的 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。
CountVectorizer：CountVectorizer和CountVectorizerModel旨在帮助转换文本文档的集合令牌计数的载体。当先验词典不可用时，CountVectorizer可以用作Estimator提取词汇表并生成CountVectorizerModel。
FeatureHasher：特征哈希将一组分类或数字特征投影到指定维度的特征向量中（通常大大小于原始特征空间的特征向量）。这是通过使用哈希技巧将特征映射到特征向量中的索引来完成的。

此处用示例展现以下word2vec的用法：

import org.apache.spark.ml.feature.Word2Vecimport org.apache.spark.ml.linalg.Vectorimport org.apache.spark.sql.Rowscala> val documentDF = spark.createDataFrame(Seq("Hi I heard about Spark".split(" "),"I wish Java could use case classes".split(" "),"Logistic regression models are neat".split(" ")).map(Tuple1.apply)).toDF("text")documentDF: org.apache.spark.sql.DataFrame = [text: array]scala> val word2Vec = new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize(3).setMinCount(0)word2Vec: org.apache.spark.ml.feature.Word2Vec = w2v_681123543749scala> val model = word2Vec.fit(documentDF)model: org.apache.spark.ml.feature.Word2VecModel = w2v_681123543749scala> val result = model.transform(documentDF)result: org.apache.spark.sql.DataFrame = [text: array, result: vector]scala> result.collect().foreach { case Row(text: Seq[_], features: Vector) =>println(s"Text: [${text.mkString(", ")}] => \nVector: $features\n") }Text: [Hi, I, heard, about, Spark] => Vector: [-0.008142343163490296,0.02051363289356232,0.03255096450448036]Text: [I, wish, Java, could, use, case, classes] => Vector: [0.043090314205203734,0.035048123182994974,0.023512658663094044]Text: [Logistic, regression, models, are, neat] => Vector: [0.038572299480438235,-0.03250147425569594,-0.01552378609776497]

2.特征转换

Spark中的特征转换支持方法非常多，有Tokenizer、去除停用词、n-gram、二值化、多项式展开、余弦变换、字符串索引、OneHot编码、向量索引、特征交叉、归一化、标准化、SQL转换、离散化处理等等，在此用PCA方法举例，其余方法在此不做赘述。

import org.apache.spark.ml.feature.PCAimport org.apache.spark.ml.linalg.Vectorsscala> val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")df: org.apache.spark.sql.DataFrame = [features: vector]scala> val pca = new PCA()pca: org.apache.spark.ml.feature.PCA = pca_c5df742a6159scala> val pca = new PCA().setInputCol("features").setOutputCol("pcaFeatures").setK(3).fit(df)pca: org.apache.spark.ml.feature.PCAModel = pca_1a2765b21130scala> val result = pca.transform(df).select("pcaFeatures")result: org.apache.spark.sql.DataFrame = [pcaFeatures: vector]scala> result.show(false)+-----------------------------------------------------------+|pcaFeatures                                                |+-----------------------------------------------------------+|[1.6485728230883807,-4.013282700516296,-5.524543751369388] ||[-4.645104331781534,-1.1167972663619026,-5.524543751369387]||[-6.428880535676489,-5.337951427775355,-5.524543751369389] |+-----------------------------------------------------------+

3.特征选择

VectorSlicer：是一个采用特征向量并输出带有原始特征子数组的新特征向量的转换器。这对于从向量列中提取特征很有用。VectorSlicer接受具有指定索引的向量列，然后输出一个新的向量列，其值通过这些索引选择。
RFormula：由R模型公式指定的列。当前，我们支持R运算符的有限子集，包括“〜”，“。”，“：”，“ +”和“-”。
ChiSqSelector：代表Chi-Squared特征选择。它对具有分类特征的标记数据进行操作。ChiSqSelector使用卡方独立性检验来决定选择哪些功能。

4.局部敏感哈希

局部敏感哈希（LSH）是一类重要的哈希技术，通常用于大型数据集的聚类，近似最近邻搜索和离群值检测。

LSH的一般想法是使用一个函数族（“ LSH族”）将数据点散列到存储桶中，以便彼此靠近的数据点很有可能位于同一存储桶中，而彼此相距很远的情况很可能在不同的存储桶中。LSH族的正式定义如下。在度量空间中(M, d)，M是，d是上的距离函数M，LSH族是h满足以下属性的函数族：

四、分类与回归

1.分类

分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器)，该模型能把未知类别的样本映射到给定类别中的一种技术。Spark MLlib库中支持的分类算法有限，大致如下：

逻辑回归
决策树分类器
随机森林分类器
梯度提升树分类器
多层感知器分类器
线性支持向量机
相对于静止的分类器
朴素贝叶斯

2.回归

Spark回归分析与分类相似，大致支持如下算法：

线性回归
广义线性回归
决策树回归
随机森林回归
梯度提升树回归
生存回归
等渗回归

本文就梯度提升树分类器（GBDT）进行测试举例：

import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.evaluation.RegressionEvaluatorimport org.apache.spark.ml.feature.VectorIndexerimport org.apache.spark.ml.regression.{GBTRegressionModel, GBTRegressor}scala> val data = spark.read.format("libsvm").load("file:///usr/local/spark/data/mllib/sample_libsvm_data.txt")data: org.apache.spark.sql.DataFrame = [label: double, features: vector]scala> val featureIndexer = new VectorIndexer().setInputCol("features").setOutputCol("indexedFeatures").setMaxCategories(4).fit(data)featureIndexer: org.apache.spark.ml.feature.VectorIndexerModel = vecIdx_98e6565098b8scala> val Array(trainingData, testData) = data.randomSplit(Array(0.7, 0.3))trainingData: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [label: double, features: vector]testData: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [label: double, features: vector]scala> val gbt = new GBTRegressor().setLabelCol("label").setFeaturesCol("indexedFeatures").setMaxIter(10)gbt: org.apache.spark.ml.regression.GBTRegressor = gbtr_ab02ea511704scala> val pipeline = new Pipeline().setStages(Array(featureIndexer, gbt))pipeline: org.apache.spark.ml.Pipeline = pipeline_78e609f11fd2scala> val model = pipeline.fit(trainingData)model: org.apache.spark.ml.PipelineModel = pipeline_78e609f11fd2scala> val predictions = model.transform(testData)predictions: org.apache.spark.sql.DataFrame = [label: double, features: vector ... 2 more fields]scala> predictions.select("prediction", "label", "features").show(5)+----------+-----+--------------------+|prediction|label|            features|+----------+-----+--------------------+|       0.0|  0.0|(692,[95,96,97,12...||       0.0|  0.0|(692,[122,123,148...||       0.0|  0.0|(692,[123,124,125...||       0.0|  0.0|(692,[124,125,126...||       0.0|  0.0|(692,[126,127,128...|+----------+-----+--------------------+only showing top 5 rowsscala> val evaluator = new RegressionEvaluator().setLabelCol("label").setPredictionCol("prediction").setMetricName("rmse")evaluator: org.apache.spark.ml.evaluation.RegressionEvaluator = regEval_47ca0861b89dscala> val rmse = evaluator.evaluate(predictions)rmse: Double = 0.18569533817705186scala> println(s"Root Mean Squared Error (RMSE) on test data = $rmse")Root Mean Squared Error (RMSE) on test data = 0.18569533817705186scala> val gbtModel = model.stages(1).asInstanceOf[GBTRegressionModel]gbtModel: org.apache.spark.ml.regression.GBTRegressionModel = GBTRegressionModel (uid=gbtr_ab02ea511704) with 10 treesscala> println(s"Learned regression GBT model:\n ${gbtModel.toDebugString}")Learned regression GBT model: GBTRegressionModel (uid=gbtr_ab02ea511704) with 10 trees  Tree 0 (weight 1.0):  ...

五、聚类

1.K-means

k均值是最常用的聚类算法之一，它将数据点聚集成预定数量的聚类。MLlib实现包括k-means ++方法的并行变体，称为kmeans ||。KMeans实现为，Estimator并生成KMeansModel作为基础模型。

import org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.evaluation.ClusteringEvaluatorscala> val dataset = spark.read.format("libsvm").load("file:///usr/local/spark/data/mllib/sample_kmeans_data.txt")dataset: org.apache.spark.sql.DataFrame = [label: double, features: vector]scala> val kmeans = new KMeans().setK(2).setSeed(1L)kmeans: org.apache.spark.ml.clustering.KMeans = kmeans_e5a91572513fscala> val model = kmeans.fit(dataset)model: org.apache.spark.ml.clustering.KMeansModel = kmeans_e5a91572513f         scala> val predictions = model.transform(dataset)predictions: org.apache.spark.sql.DataFrame = [label: double, features: vector ... 1 more field]scala> val evaluator = new ClusteringEvaluator()evaluator: org.apache.spark.ml.evaluation.ClusteringEvaluator = cluEval_ef4885f71d8ascala> val silhouette = evaluator.evaluate(predictions)silhouette: Double = 0.9997530305375207scala> model.clusterCenters.foreach(println)[0.1,0.1,0.1][9.1,9.1,9.1]

2.LDA

LDA实现为Estimator同时支持EMLDAOptimizer和Online-LDA-Optimizer，并生成LDAModel作为基础模型。如果需要，专家用户可以将LDAModel生成的 EMLDAOptimizer转换为DistributedLDAModel。

import org.apache.spark.ml.clustering.LDAscala> val dataset = spark.read.format("libsvm").load("file:///usr/local/spark/data/mllib/sample_lda_libsvm_data.txt")dataset: org.apache.spark.sql.DataFrame = [label: double, features: vector]scala> val lda = new LDA().setK(10).setMaxIter(10)lda: org.apache.spark.ml.clustering.LDA = lda_456208b1d37fscala> val model = lda.fit(dataset)model: org.apache.spark.ml.clustering.LDAModel = lda_456208b1d37fscala> val ll = model.logLikelihood(dataset)ll: Double = -788.3752801566864scala> val lp = model.logPerplexity(dataset)lp: Double = 3.0322126159872553scala> println(s"The lower bound on the log likelihood of the entire corpus: $ll")The lower bound on the log likelihood of the entire corpus: -788.3752801566864scala> println(s"The upper bound on perplexity: $lp")The upper bound on perplexity: 3.0322126159872553scala> scala> val topics = model.describeTopics(3)topics: org.apache.spark.sql.DataFrame = [topic: int, termIndices: array ... 1 more field]scala> topics.show(false)+-----+-----------+---------------------------------------------------------------+|topic|termIndices|termWeights                                                    |+-----+-----------+---------------------------------------------------------------+... ... ...scala> val transformed = model.transform(dataset)transformed: org.apache.spark.sql.DataFrame = [label: double, features: vector ... 1 more field]scala> transformed.show(false)+-----+-----------+----------------------+|label|features   |topicDistribution                                                                                                                                                                                                      |+-----+-----------+----------------------+... ... ...

3.GMM

高斯混合模型（GMM）代表一个复合分布，由此点是从一个绘制ķ高斯子分布，每个具有其自己的概率。该spark.ml实现使用期望最大化算法在给定一组样本的情况下得出最大似然模型。GaussianMixture实现为，Estimator并生成GaussianMixtureModel作为基础模型。

import org.apache.spark.ml.clustering.GaussianMixturescala> val dataset = spark.read.format("libsvm").load("file:///usr/local/spark/data/mllib/sample_lda_libsvm_data.txt"):1: error: illegal character '\u200b'val dataset = spark.read.format("libsvm").load("file:///usr/local/spark/data/mllib/sample_lda_libsvm_data.txt")                                                                                                               ^scala> val dataset = spark.read.format("libsvm").load("file:///usr/local/spark/data/mllib/sample_lda_libsvm_data.txt")20/02/26 20:06:43 WARN libsvm.LibSVMFileFormat: 'numFeatures' option not specified, determining the number of features by going though the input. If you know the number in advance, please specify it via 'numFeatures' option to avoid the extra scan.dataset: org.apache.spark.sql.DataFrame = [label: double, features: vector]scala> val gmm = new GaussianMixture().setK(2)gmm: org.apache.spark.ml.clustering.GaussianMixture = GaussianMixture_4c1984b8bd4cscala> val model = gmm.fit(dataset)model: org.apache.spark.ml.clustering.GaussianMixtureModel = GaussianMixture_4c1984b8bd4cscala> for (i <- 0 until model.getK) {     |   println(s"Gaussian $i:\nweight=${model.weights(i)}\n" +     |       s"mu=${model.gaussians(i).mean}\nsigma=\n${model.gaussians(i).cov}\n")     | }Gaussian 0:...Gaussian 1:...

六、协同过滤

协作过滤通常用于推荐系统。这些技术旨在填充用户项关联矩阵的缺失条目。spark.ml当前支持基于模型的协作过滤，其中通过一小部分潜在因素来描述用户和产品，这些潜在因素可用于预测缺失条目。

1.显式反馈与隐式反馈

在许多实际使用案例中，通常只能访问隐式反馈（例如，视图，点击，购买，喜欢，分享等）。用于spark.ml处理此类数据的方法来自隐式反馈数据集的协同过滤。本质上，该方法不是尝试直接对评级矩阵建模，而是将数据视为代表强度的数字来观察用户的行为（例如，点击次数或某人观看电影所花费的累计时间）。然后，这些数字与观察到的用户偏好的置信度有关，而不是与对商品的明确评分有关。然后，该模型尝试查找可用于预测用户对某项商品的期望偏好的潜在因素。

2.正则化参数的缩放

regParam在解决每个最小二乘问题时，我们根据用户在更新用户因子时生成的评分数或在更新产品因数中获得的产品评分数来缩放正则化参数。这种方法被称为“ ALS-WR”，它regParam减少了对数据集规模的依赖，因此我们可以将从采样子集中学习的最佳参数应用于整个数据集，并期望获得类似的性能。

3.冷启动策略

使用协同过滤模型进行预测时，通常会遇到训练模型期间不存在的用户和/或测试数据集中的项目。这通常在两种情况下发生：

在生产中，对于没有评级历史记录并且尚未对其进行训练的新用户或新项目（这是“冷启动问题”）。
在交叉验证期间，数据在训练集和评估集之间分配。当使用Spark CrossValidator或中的简单随机拆分时TrainValidationSplit，实际上很常见的是遇到评估集中未包含的用户和/或评估集中的项目

import org.apache.spark.ml.evaluation.RegressionEvaluatorimport org.apache.spark.ml.recommendation.ALSscala> case class Rating(userId: Int, movieId: Int, rating: Float, timestamp: Long)defined class Ratingscala> def parseRating(str: String): Rating = {     |   val fields = str.split("::")     |   assert(fields.size == 4)     |   Rating(fields(0).toInt, fields(1).toInt, fields(2).toFloat, fields(3).toLong)     | }parseRating: (str: String)Ratingscala> val ratings = spark.read.textFile("file:///usr/local/spark/data/mllib/als/sample_movielens_ratings.txt").map(parseRating).toDF()ratings: org.apache.spark.sql.DataFrame = [userId: int, movieId: int ... 2 more fields]scala> val Array(training, test) = ratings.randomSplit(Array(0.8, 0.2))training: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [userId: int, movieId: int ... 2 more fields]test: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [userId: int, movieId: int ... 2 more fields]scala> val als = new ALS().setMaxIter(5).setRegParam(0.01).setUserCol("userId").setItemCol("movieId").setRatingCol("rating")als: org.apache.spark.ml.recommendation.ALS = als_afbfc80de8a8scala> val model = als.fit(training)model: org.apache.spark.ml.recommendation.ALSModel = als_afbfc80de8a8scala> model.setColdStartStrategy("drop")res49: model.type = als_afbfc80de8a8scala> val predictions = model.transform(test)predictions: org.apache.spark.sql.DataFrame = [userId: int, movieId: int ... 3 more fields]scala> val evaluator = new RegressionEvaluator().setMetricName("rmse").setLabelCol("rating").setPredictionCol("prediction")evaluator: org.apache.spark.ml.evaluation.RegressionEvaluator = regEval_2e35fe5e4779scala> val rmse = evaluator.evaluate(predictions)rmse: Double = 1.8669648502700513                                               scala> println(s"Root-mean-square error = $rmse")Root-mean-square error = 1.8669648502700513scala> val userRecs = model.recommendForAllUsers(10)userRecs: org.apache.spark.sql.DataFrame = [userId: int, recommendations: array>]scala> val movieRecs = model.recommendForAllItems(10)movieRecs: org.apache.spark.sql.DataFrame = [movieId: int, recommendations: array>]scala> val users = ratings.select(als.getUserCol).distinct().limit(3)users: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [userId: int]scala> val userSubsetRecs = model.recommendForUserSubset(users, 10)userSubsetRecs: org.apache.spark.sql.DataFrame = [userId: int, recommendations: array>]scala> val movies = ratings.select(als.getItemCol).distinct().limit(3)movies: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [movieId: int]scala> val movieSubSetRecs = model.recommendForItemSubset(movies, 10)movieSubSetRecs: org.apache.spark.sql.DataFrame = [movieId: int, recommendations: array>]

七、频繁模式挖掘

挖掘频繁项、项集、子序列或其他子结构通常是分析大规模数据集的第一步，而这是多年来数据挖掘中的活跃研究主题。我们向用户推荐Wikipedia的关联规则学习，以获取更多信息。

1.FP增长

FP增长算法在Han等人的论文中进行了描述，该算法挖掘没有候选者的频繁模式，其中“ FP”代表频繁模式。给定交易数据集，FP增长的第一步是计算项目频率并识别频繁项目。与为相同目的设计的类似Apriori的算法不同，FP-growth的第二步使用后缀树（FP-tree）结构对交易进行编码，而无需显式生成候选集，这通常成本较高。第二步之后，可以从FP树中提取频繁项集。

spark.ml的FP-growth实现采用以下超参数：

minSupport：对某个项目集的最低支持，该项目集被确定为频繁使用。例如，如果某项出现在5个事务中的3个，则其支持率为3/5 = 0.6。
minConfidence：生成关联规则的最低置信度。置信度表示发现关联规则为真的频率。例如，如果交易中的项目集X出现4次，X 并且Y仅共发生2次，则规则的置信度为X => Y2/4 = 0.5。该参数不会影响频繁项目集的挖掘，但会指定从频繁项目集生成关联规则的最小置信度。
numPartitions：用于分发作品的分区数。默认情况下，未设置参数，并且使用输入数据集的分区数。

scala> import org.apache.spark.ml.fpm.FPGrowthimport org.apache.spark.ml.fpm.FPGrowthscala> val dataset = spark.createDataset(Seq("1 2 5","1 2 3 5","1 2")).map(t => t.split(" ")).toDF("items")dataset: org.apache.spark.sql.DataFrame = [items: array]scala> val fpgrowth = new FPGrowth().setItemsCol("items").setMinSupport(0.5).setMinConfidence(0.6)fpgrowth: org.apache.spark.ml.fpm.FPGrowth = fpgrowth_dd559c554e9ascala> val model = fpgrowth.fit(dataset)model: org.apache.spark.ml.fpm.FPGrowthModel = fpgrowth_dd559c554e9ascala> model.freqItemsets.show()+---------+----+|    items|freq|+---------+----+... ...scala> model.associationRules.show()+----------+----------+------------------+----+|antecedent|consequent|        confidence|lift|+----------+----------+------------------+----+... ... ... ...scala> model.transform(dataset).show()+------------+----------+|       items|prediction|+------------+----------+... ...

2.前缀跨度

spark.ml的PrefixSpan实现采用以下参数：

minSupport：被视为频繁顺序模式所需的最低支持。
maxPatternLength：频繁顺序模式的最大长度。任何超出此长度的频繁模式都不会包含在结果中。
maxLocalProjDBSize：在开始对投影数据库进行本地迭代之前，前缀投影数据库中允许的最大项目数。该参数应根据执行程序的大小进行调整。
sequenceCol：数据集中序列列的名称（默认为“ sequence”），该列中为空的行将被忽略。

import org.apache.spark.ml.fpm.PrefixSpanscala> val smallTestData = Seq(Seq(Seq(1, 2), Seq(3)),Seq(Seq(1), Seq(3, 2), Seq(1, 2)),Seq(Seq(1, 2), Seq(5)),Seq(Seq(6)))smallTestData: Seq[Seq[Seq[Int]]] = List(List(List(1, 2), List(3)), List(List(1), List(3, 2), List(1, 2)), List(List(1, 2), List(5)), List(List(6)))scala> val df = smallTestData.toDF("sequence")df: org.apache.spark.sql.DataFrame = [sequence: array>]scala> val result = new PrefixSpan().setMinSupport(0.5).setMaxPatternLength(5).setMaxLocalProjDBSize(32000000).findFrequentSequentialPatterns(df).show()20/02/26 20:20:38 WARN fpm.PrefixSpan: Input data is not cached.+----------+----+|  sequence|freq|+----------+----+... ...

八、模型选择和交叉验证

1.模型选择

ML中的一项重要任务是模型选择，或使用数据为给定任务找到最佳模型或参数。可以针对单个Estimator例如LogisticRegression或针对整个Pipeline进行调整，包括多个算法，功能化和其他步骤。用户可以Pipeline一次调整一个整体，而不必分别调整每个元素Pipeline。

2.交叉验证

交叉验证（CrossValidator）是在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预测，并求这小部分样本的预报误差，记录它们的平方加和。确定ParamMap最佳值后，CrossValidator最后使用Estimator的最佳值ParamMap和整个数据集重新拟合。

有关Spark MLlib的内容至此结束，前文笔记请参考下面的链接：

Spark大数据分布式处理实战笔记（一）：快速开始

Spark大数据分布式处理实战笔记（二）：RDD、共享变量

Spark大数据分布式处理实战笔记（三）：Spark SQL

Spark大数据分布式处理实战笔记（四）：Spark Streaming

你可能感兴趣的:(Spark)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

Spark大数据分布式机器学习处理实战

VectorSlicer：是一个采用特征向量并输出带有原始特征子数组的新特征向量的转换器。这对于从向量列中提取特征很有用。VectorSlicer接受具有指定索引的向量列，然后输出一个新的向量列，其值通过这些索引选择。

你可能感兴趣的:(Spark)