周润发的弟弟

【SparkML实践7】特征选择器FeatureSelector

本节介绍了用于处理特征的算法，大致可以分为以下几组：

提取（Extraction）：从“原始”数据中提取特征。
转换（Transformation）：缩放、转换或修改特征。
选择（Selection）：从更大的特征集中选择一个子集。
局部敏感哈希（Locality Sensitive Hashing, LSH）：这类算法结合了特征转换的方面与其他算法。

Feature Selectors

VectorSlicer

VectorSlicer 是一个转换器，它接受一个特征向量，并输出一个新的特征向量，该向量包含原始特征的子数组。它用于从向量列中提取特征。

VectorSlicer 接受一个带有指定索引的向量列，然后输出一个新的向量列，其值通过这些索引选择。有两种类型的索引：

整数索引，代表向量中的索引，使用 setIndices() 设置。
字符串索引，代表向量中的特征名称，使用 setNames() 设置。这要求向量列具有 AttributeGroup，因为实现是基于 Attribute 的 name 字段进行匹配的。

整数和字符串规格都是可以接受的。此外，您可以同时使用整数索引和字符串名称。至少必须选择一个特征。不允许有重复的特征，所以选定的索引和名称之间不能有重叠。请注意，如果选择了特征的名称，在遇到空的输入属性时会抛出异常。

输出向量将首先按照给定的顺序排列选定的索引特征，然后按照给定的顺序排列选定的名称特征。

Examples

Suppose that we have a DataFrame with the column userFeatures:

userFeatures	x
[0.0, 10.0, 0.5]

userFeatures 是一个向量列，包含三个用户特征。假设 userFeatures 的第一列全是零，因此我们想要移除它，只选择最后两列。VectorSlicer 通过 setIndices(1, 2) 选择最后两个元素，然后生成一个名为 features 的新向量列：

userFeatures	features
[0.0, 10.0, 0.5]	[10.0, 0.5]

假设我们还有 userFeatures 的潜在输入属性，即 [“f1”, “f2”, “f3”]，那么我们可以使用 setNames(“f2”, “f3”) 来选择它们。

userFeatures	features
[0.0, 10.0, 0.5]	[10.0, 0.5]
[“f1”, “f2”, “f3”]	[“f2”, “f3”]

import org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}
import org.apache.spark.ml.feature.VectorSlicer
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.{Row, SparkSession}

import java.util.Arrays

object VectorSlicerExample {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .master("local")
      .appName("VectorSlicerExample")
      .getOrCreate()

    val data = Arrays.asList(
      Row(Vectors.sparse(3, Seq((0, -2.0), (1, 2.3)))),
      Row(Vectors.dense(-2.0, 2.3, 0.0))
    )

    val defaultAttr = NumericAttribute.defaultAttr
    val attrs = Array("f1", "f2", "f3").map(defaultAttr.withName)
    val attrGroup = new AttributeGroup("userFeatures", attrs.asInstanceOf[Array[Attribute]])

    val dataset = spark.createDataFrame(data, StructType(Array(attrGroup.toStructField())))

    val slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")

    slicer.setIndices(Array(1)).setNames(Array("f3"))
    // or slicer.setIndices(Array(1, 2)), or slicer.setNames(Array("f2", "f3"))

    val output = slicer.transform(dataset)
    output.show(false)

    spark.stop()
  }
}

RFormula

RFormula 通过指定 R 模型公式来选择列。目前我们支持 R 操作符的一个有限子集，包括 ‘~’、‘.’、‘:’、‘+’ 和 ‘-’。基本操作符有：

分隔目标和项

连接项，“+ 0” 表示去除截距
移除一个项，“- 1” 表示去除截距
: 交互作用（数值的乘积，或二值化的类别值）
. 所有列除了目标
假设 a 和 b 是双精度列，我们使用以下简单的例子来说明 RFormula 的效果：
y ~ a + b 表示模型 y ~ w0 + w1 * a + w2 * b，其中 w0 是截距，w1、w2 是系数。
y ~ a + b + a:b - 1 表示模型 y ~ w1 * a + w2 * b + w3 * a * b，其中 w1、w2、w3 是系数。
RFormula 生成一个特征向量列和一个双精度或字符串列的标签。就像在 R 中用于线性回归的公式一样，数值列将被转换为双精度数。至于字符串输入列，它们首先会通过 StringIndexer 转换，使用由 stringOrderType 确定的顺序，并且在排序后的最后一个类别会被丢弃，然后双精度数将被进行独热编码。

假设有一个包含值 {‘b’, ‘a’, ‘b’, ‘a’, ‘c’, ‘b’} 的字符串特征列，我们设置 stringOrderType 来控制编码：

ChiSqSelector

ChiSqSelector 代表卡方特征选择。它作用于带有类别特征的标记数据。ChiSqSelector 使用卡方独立性检验来决定选择哪些特征。它支持五种选择方法：numTopFeatures、percentile、fpr、fdr、fwe：

numTopFeatures 根据卡方检验选择固定数量的顶级特征。这类似于选择具有最高预测能力的特征。
percentile 与 numTopFeatures 类似，但它选择所有特征的一定比例，而不是固定数量。
fpr 选择所有 p 值低于阈值的特征，从而控制选择的假阳性率。
fdr 使用 Benjamini-Hochberg 程序选择所有假发现率低于阈值的特征。
fwe 选择所有 p 值低于阈值的特征。阈值通过 1/numFeatures 缩放，从而控制选择的家族错误率。
默认情况下，选择方法为 numTopFeatures，且默认的顶级特征数量设置为 50。用户可以使用 setSelectorType 选择一个选择方法。

示例

假设我们有一个 DataFrame，它包含列 id、features 和 clicked，clicked 被用作我们要预测的目标：

id	features	clicked
7	[0.0, 0.0, 18.0, 1.0]	1.0
8	[0.0, 1.0, 12.0, 0.0]	0.0
9	[1.0, 0.0, 15.0, 0.1]	0.0

如果我们使用 ChiSqSelector 并设置 numTopFeatures = 1，那么根据我们的标签 clicked，我们特征中的最后一列将被选为最有用的特征：

id	features	clicked	selectedFeatures
7	[0.0, 0.0, 18.0, 1.0]	1.0	[1.0]
8	[0.0, 1.0, 12.0, 0.0]	0.0	[0.0]
9	[1.0, 0.0, 15.0, 0.1]	0.0	[0.1]


import org.apache.spark.ml.feature.ChiSqSelector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession

object ChiSqSelectorExample {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .master("local")
      .appName("ChiSqSelectorExample")
      .getOrCreate()
    import spark.implicits._

    val data = Seq(
      (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0),
      (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0),
      (9, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0)
    )

    val df = spark.createDataset(data).toDF("id", "features", "clicked")

    val selector = new ChiSqSelector()
      .setNumTopFeatures(1)
      .setFeaturesCol("features")
      .setLabelCol("clicked")
      .setOutputCol("selectedFeatures")

    val result = selector.fit(df).transform(df)

    println(s"ChiSqSelector output with top ${selector.getNumTopFeatures} features selected")
    result.show()

    spark.stop()
  }
}

UnivariateFeatureSelector

单变量特征选择器（UnivariateFeatureSelector）可以操作具有类别型/连续型标签的类别型/连续型特征。用户可以设置特征类型（featureType）和标签类型（labelType），Spark会根据指定的特征类型和标签类型选择使用的评分函数。

特征类型	标签类型	评分函数
categorical（类别型）	categorical	chi-squared (chi2)
continuous	categorical	ANOVATest (f_classif)
continuous	continuous	F-value (f_regression)

它支持五种选择模式：numTopFeatures、percentile、fpr、fdr、fwe：

numTopFeatures 选择固定数量的最优特征。
percentile 类似于numTopFeatures，但它选择所有特征的一定比例，而不是固定数量。
fpr 选择所有p值低于阈值的特征，从而控制选择的假阳性率。
fdr 使用Benjamini-Hochberg程序选择所有假发现率低于阈值的特征。
fwe 选择所有p值低于阈值的特征。阈值通过1/numFeatures进行缩放，从而控制选择的家族误差率。
默认情况下，选择模式为numTopFeatures，且默认的selectionThreshold设置为50。

示例

假设我们有一个DataFrame，包含列id、features和label，label是我们预测的目标：

id	features	label
1	[1.7, 4.4, 7.6, 5.8, 9.6, 2.3]	3.0
2	[8.8, 7.3, 5.7, 7.3, 2.2, 4.1]	2.0
3	[1.2, 9.5, 2.5, 3.1, 8.7, 2.5]	3.0
4	[3.7, 9.2, 6.1, 4.1, 7.5, 3.8]	2.0
5	[8.9, 5.2, 7.8, 8.3, 5.2, 3.0]	4.0
6	[7.9, 8.5, 9.2, 4.0, 9.4, 2.1]	4.0
如果我们将特征类型设置为连续型，标签类型设置为类别型，且numTopFeatures = 1，则我们的特征中的最后一列被选为最有用的特征：

id	features	label	selectedFeatures
1	[1.7, 4.4, 7.6, 5.8, 9.6, 2.3]	3.0	[2.3]
2	[8.8, 7.3, 5.7, 7.3, 2.2, 4.1]	2.0	[4.1]
3	[1.2, 9.5, 2.5, 3.1, 8.7, 2.5]	3.0	[2.5]
4	[3.7, 9.2, 6.1, 4.1, 7.5, 3.8]	2.0	[3.8]
5	[8.9, 5.2, 7.8, 8.3, 5.2, 3.0]	4.0	[3.0]
6	[7.9, 8.5, 9.2, 4.0, 9.4, 2.1]	4.0	[2.1]


import org.apache.spark.ml.feature.UnivariateFeatureSelector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession

/**
 * An example for UnivariateFeatureSelector.
 * Run with
 * {{{
 * bin/run-example ml.UnivariateFeatureSelectorExample
 * }}}
 */
object UnivariateFeatureSelectorExample {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .appName("UnivariateFeatureSelectorExample")
      .getOrCreate()
    import spark.implicits._

    val data = Seq(
      (1, Vectors.dense(1.7, 4.4, 7.6, 5.8, 9.6, 2.3), 3.0),
      (2, Vectors.dense(8.8, 7.3, 5.7, 7.3, 2.2, 4.1), 2.0),
      (3, Vectors.dense(1.2, 9.5, 2.5, 3.1, 8.7, 2.5), 3.0),
      (4, Vectors.dense(3.7, 9.2, 6.1, 4.1, 7.5, 3.8), 2.0),
      (5, Vectors.dense(8.9, 5.2, 7.8, 8.3, 5.2, 3.0), 4.0),
      (6, Vectors.dense(7.9, 8.5, 9.2, 4.0, 9.4, 2.1), 4.0)
    )

    val df = spark.createDataset(data).toDF("id", "features", "label")

    val selector = new UnivariateFeatureSelector()
      .setFeatureType("continuous")
      .setLabelType("categorical")
      .setSelectionMode("numTopFeatures")
      .setSelectionThreshold(1)
      .setFeaturesCol("features")
      .setLabelCol("label")
      .setOutputCol("selectedFeatures")

    val result = selector.fit(df).transform(df)

    println(s"UnivariateFeatureSelector output with top ${selector.getSelectionThreshold}" +
      s" features selected using f_classif")
    result.show()

    spark.stop()
  }
}

VarianceThresholdSelector

VarianceThresholdSelector 是一个选择器，用于移除低方差特征。那些样本方差不大于 varianceThreshold 的特征将被移除。如果没有设置 varianceThreshold，默认值为 0，这意味着只有方差为 0 的特征（即在所有样本中具有相同值的特征）将被移除。

示例

假设我们有一个 DataFrame，它包含列 id 和 features，这些特征用作我们要预测的目标：

id	features
1	[6.0, 7.0, 0.0, 7.0, 6.0, 0.0]
2	[0.0, 9.0, 6.0, 0.0, 5.0, 9.0]
3	[0.0, 9.0, 3.0, 0.0, 5.0, 5.0]
4	[0.0, 9.0, 8.0, 5.0, 6.0, 4.0]
5	[8.0, 9.0, 6.0, 5.0, 4.0, 4.0]
6	[8.0, 9.0, 6.0, 0.0, 0.0, 0.0]

这6个特征的样本方差分别为16.67、0.67、8.17、10.17、5.07和11.47。如果我们使用VarianceThresholdSelector并设置varianceThreshold = 8.0，那么方差小于等于8.0的特征将被移除：

id	features	selectedFeatures
1	[6.0, 7.0, 0.0, 7.0, 6.0, 0.0]	[6.0,0.0,7.0,0.0]
2	[0.0, 9.0, 6.0, 0.0, 5.0, 9.0]	[0.0,6.0,0.0,9.0]
3	[0.0, 9.0, 3.0, 0.0, 5.0, 5.0]	[0.0,3.0,0.0,5.0]
4	[0.0, 9.0, 8.0, 5.0, 6.0, 4.0]	[0.0,8.0,5.0,4.0]
5	[8.0, 9.0, 6.0, 5.0, 4.0, 4.0]	[8.0,6.0,5.0,4.0]
6	[8.0, 9.0, 6.0, 0.0, 0.0, 0.0]	[8.0,6.0,0.0,0.0]

Locality Sensitive Hashing

局部敏感哈希（LSH）是一类重要的哈希技术，通常用于大数据集的聚类、近似最近邻搜索和异常值检测。

LSH的基本思想是使用一族函数（“LSH族”）将数据点哈希到桶中，使得彼此接近的数据点有很高的概率落在同一个桶里，而彼此距离较远的数据点则很可能落在不同的桶中。一个LSH族正式定义如下。

在一个度量空间（M, d）中，其中M是一个集合，d是M上的一个距离函数，一个LSH族是一族满足以下性质的函数h：
∀p,q∈M,
d(p,q)≤r1⇒Pr(h§=h(q))≥p1
d(p,q)≥r2⇒Pr(h§=h(q))≤p2
这样的LSH族称为(r1, r2, p1, p2)-敏感的。

在Spark中，不同的LSH族在不同的类中实现（例如，MinHash），并且每个类中都提供了特征转换、近似相似性连接和近似最近邻搜索的API。

在LSH中，我们定义一个假正例为一对距离较远的输入特征（满足d(p,q)≥r2）被哈希到同一个桶中，我们定义一个假反例为一对接近的特征（满足d(p,q)≤r1）被哈希到不同的桶中。

LSH Operations

我们描述了LSH可用于的主要操作类型。一个训练好的LSH模型具有这些操作的各自方法。

Feature Transformation

特征转换是添加哈希值作为新列的基本功能。这对于降维很有用。用户可以通过设置inputCol和outputCol来指定输入和输出列的名称。

LSH还支持多个LSH哈希表。用户可以通过设置numHashTables来指定哈希表的数量。这也用于近似相似性连接和近似最近邻搜索中的OR放大。增加哈希表的数量将提高精度，但也会增加通信成本和运行时间。

outputCol的类型是Seq[Vector]，其中数组的维度等于numHashTables，向量的维度目前设置为1。在未来的版本中，我们将实现AND放大，以便用户可以指定这些向量的维度。

Approximate Similarity Join

近似相似性连接接受两个数据集，并近似返回数据集中距离小于用户定义阈值的行对。近似相似性连接支持连接两个不同的数据集和自连接。自连接会产生一些重复的对。

近似相似性连接接受转换过的和未转换过的数据集作为输入。如果使用未转换的数据集，它将自动被转换。在这种情况下，哈希签名将作为outputCol创建。

在连接的数据集中，可以在datasetA和datasetB中查询原始数据集。输出数据集中将添加一个距离列，以显示返回的每对行之间的真实距离。

Approximate Nearest Neighbor Search

近似最近邻搜索接受一个数据集（特征向量集）和一个键（单个特征向量），它近似返回数据集中最接近该向量的指定数量的行。

近似最近邻搜索接受转换过的和未转换过的数据集作为输入。如果使用未转换的数据集，它将自动被转换。在这种情况下，哈希签名将作为outputCol创建。

输出数据集中将添加一个距离列，以显示每个输出行与搜索键之间的真实距离。

注意：当哈希桶中没有足够的候选者时，近似最近邻搜索将返回少于k行。

LSH Algorithms

import org.apache.spark.ml.feature.BucketedRandomProjectionLSH
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.col

val dfA = spark.createDataFrame(Seq(
  (0, Vectors.dense(1.0, 1.0)),
  (1, Vectors.dense(1.0, -1.0)),
  (2, Vectors.dense(-1.0, -1.0)),
  (3, Vectors.dense(-1.0, 1.0))
)).toDF("id", "features")

val dfB = spark.createDataFrame(Seq(
  (4, Vectors.dense(1.0, 0.0)),
  (5, Vectors.dense(-1.0, 0.0)),
  (6, Vectors.dense(0.0, 1.0)),
  (7, Vectors.dense(0.0, -1.0))
)).toDF("id", "features")

val key = Vectors.dense(1.0, 0.0)

val brp = new BucketedRandomProjectionLSH()
  .setBucketLength(2.0)
  .setNumHashTables(3)
  .setInputCol("features")
  .setOutputCol("hashes")

val model = brp.fit(dfA)

// Feature Transformation
println("The hashed dataset where hashed values are stored in the column 'hashes':")
model.transform(dfA).show()

// Compute the locality sensitive hashes for the input rows, then perform approximate
// similarity join.
// We could avoid computing hashes by passing in the already-transformed dataset, e.g.
// `model.approxSimilarityJoin(transformedA, transformedB, 1.5)`
println("Approximately joining dfA and dfB on Euclidean distance smaller than 1.5:")
model.approxSimilarityJoin(dfA, dfB, 1.5, "EuclideanDistance")
  .select(col("datasetA.id").alias("idA"),
    col("datasetB.id").alias("idB"),
    col("EuclideanDistance")).show()

// Compute the locality sensitive hashes for the input rows, then perform approximate nearest
// neighbor search.
// We could avoid computing hashes by passing in the already-transformed dataset, e.g.
// `model.approxNearestNeighbors(transformedA, key, 2)`
println("Approximately searching dfA for 2 nearest neighbors of the key:")
model.approxNearestNeighbors(dfA, key, 2).show()

MinHash for Jaccard Distance

MinHash是一种用于Jaccard距离的LSH族，输入特征是自然数集合。两个集合的Jaccard距离由它们交集和并集的基数定义：
d(A, B) = 1 - |A ∩ B| / |A ∪ B|
MinHash对集合中的每个元素应用一个随机哈希函数g，并取所有哈希值的最小值：
h(A) = min_{a∈A}(g(a))

MinHash的输入集合表示为二进制向量，向量索引代表元素本身，向量中的非零值表示集合中该元素的存在。尽管支持密集和稀疏向量，但通常推荐使用稀疏向量以提高效率。例如，Vectors.sparse(10, Array[(2, 1.0), (3, 1.0), (5, 1.0)])表示空间中有10个元素。这个集合包含元素2、元素3和元素5。所有非零值都被视为二进制“1”值。

注意：空集不能通过MinHash转换，这意味着任何输入向量必须至少有一个非零条目。

import org.apache.spark.ml.feature.MinHashLSH
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.col

val dfA = spark.createDataFrame(Seq(
  (0, Vectors.sparse(6, Seq((0, 1.0), (1, 1.0), (2, 1.0)))),
  (1, Vectors.sparse(6, Seq((2, 1.0), (3, 1.0), (4, 1.0)))),
  (2, Vectors.sparse(6, Seq((0, 1.0), (2, 1.0), (4, 1.0))))
)).toDF("id", "features")

val dfB = spark.createDataFrame(Seq(
  (3, Vectors.sparse(6, Seq((1, 1.0), (3, 1.0), (5, 1.0)))),
  (4, Vectors.sparse(6, Seq((2, 1.0), (3, 1.0), (5, 1.0)))),
  (5, Vectors.sparse(6, Seq((1, 1.0), (2, 1.0), (4, 1.0))))
)).toDF("id", "features")

val key = Vectors.sparse(6, Seq((1, 1.0), (3, 1.0)))

val mh = new MinHashLSH()
  .setNumHashTables(5)
  .setInputCol("features")
  .setOutputCol("hashes")

val model = mh.fit(dfA)

// Feature Transformation
println("The hashed dataset where hashed values are stored in the column 'hashes':")
model.transform(dfA).show()

// Compute the locality sensitive hashes for the input rows, then perform approximate
// similarity join.
// We could avoid computing hashes by passing in the already-transformed dataset, e.g.
// `model.approxSimilarityJoin(transformedA, transformedB, 0.6)`
println("Approximately joining dfA and dfB on Jaccard distance smaller than 0.6:")
model.approxSimilarityJoin(dfA, dfB, 0.6, "JaccardDistance")
  .select(col("datasetA.id").alias("idA"),
    col("datasetB.id").alias("idB"),
    col("JaccardDistance")).show()

// Compute the locality sensitive hashes for the input rows, then perform approximate nearest
// neighbor search.
// We could avoid computing hashes by passing in the already-transformed dataset, e.g.
// `model.approxNearestNeighbors(transformedA, key, 2)`
// It may return less than 2 rows when not enough approximate near-neighbor candidates are
// found.
println("Approximately searching dfA for 2 nearest neighbors of the key:")
model.approxNearestNeighbors(dfA, key, 2).show()

Spark编程实验六：Spark机器学习库MLlib编程 Francek Chen Spark编程基础 spark mllib 大数据机器学习算法
目录一、目的与要求二、实验内容三、实验步骤1、数据导入2、进行主成分分析（PCA）3、训练分类模型并预测居民收入4、超参数调优四、结果分析与实验体会一、目的与要求1、通过实验掌握基本的MLLib编程方法；2、掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。二、实验内容1.数据导入从文件中导入数据，并转化为DataFrame。2、进行主成分分析（PCA）对6个连续型
Spark MLlib Francek Chen Spark编程基础 spark-ml spark mllib 机器学习
目录一、SparkMLlib简介（一）什么是机器学习（二）基于大数据的机器学习（三）Spark机器学习库MLlib二、机器学习流水线（一）机器学习流水线概念（二）流水线工作过程（三）构建一个机器学习流水线三、特征提取和转换（一）特征提取：TF-IDF（二）特征转换：标签和索引的转化四、分类与回归（一）逻辑斯蒂回归分类器（二）决策树分类器一、SparkMLlib简介（一）什么是机器学习机器学习可以看
【Spark】pyspark 基于DataFrame使用MLlib包 beautiful_huang Spark spark
在这里，我们将基于DataFrame使用MLlib包。另外，根据Spark文档，现在主要的Spark机器学习API是spark.ml包中基于DataFrame的一套模型。1ML包的介绍从顶层上看，ML包主要包含三大抽象类：转换器、预测器和工作流。1.1转换器（Transformer）从Transformer抽象类派生出来的每一个新的Transformer都需要实现一个.transform(…)方法
【Spark-ML源码解析】Word2Vec LotusQ spark-ml word2vec 人工智能
前言在阅读源码之前，需要了解Spark机器学习Pipline的概念。相关阅读：SparkMLlib之Pipeline介绍及其应用这里比较核心的两个概念是：Transformer和Estimator。Transformer包括特征转换和学习后的模型两种情况，用来将一个DataFrame转换成另一个DataFrame；Estimator接收一个DataFrame并输出一个模型（Transformer）
2018-11-12Pyspark win环境配置参考 QQsoso
Anaconda中配置Pyspark的Spark开发环境Spark搭建机器学习系统Spark机器学习win+本地Pyspark
大数据分析与应用实验任务十二陈希瑞数据分析数据挖掘
大数据分析与应用实验任务十二实验目的：通过实验掌握spark机器学习库本地向量、本地矩阵的创建方法；熟悉spark机器学习库特征提取、转换、选择方法；实验任务：一、逐行理解并参考编写运行教材8.3.1、8.3.3节各个例程代码，查看向量或本地矩阵结果请用.toArray()方法。1、本地向量首先安装numpy，否则会报错“ImportError:Nomodulenamed‘numpy’”sudop
spark mllib和spark ml机器学习基础知识厨神大数据 python spark
spark机器学习SparkMLib完整基础入门教程-y-z-f-博客园(cnblogs.com)参考spark机器学习简介机械学习是一门人工智能的科学，用于研究人工智能，强调算法，经验，性能开发者任务：spark基础+了解机器学习原理+相关参数含义millib：分类回归聚类协同过滤降维特征化：特则提取转化降维选择公交管道：构建评估调整机器学习管道持久性：保存和加载算法，模型和管道实用工具：线代(
人工智能学习路线，文末赠书活动（深度学习Spark机器学习）程序IT圈算法决策树人工智能机器学习深度学习
程序IT圈学习编程技术，关注这个公众号足够了现在人工智能，机器学习这么火热，很多人想入门却不知道要从哪里入门，从哪里开始学习，该学习些什么内容，下面是我以前看过的一篇关于机器学习的学习入线文章，可能可以帮助到你入门人工智能领域。另外本次文末机械工业出版社华章分社闫老师提供给本公众号五本技术图书《深度学习Spark机器学习》，免费赠送给大家！第一课：机器学习的数学基础1.机器学习的数学基础a.函数与
【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版） weixin_30894389 python 大数据人工智能
目录保序回归原理保序回归代码(SparkPython)保序回归原理待续...返回目录保序回归代码(SparkPython)代码里数据：https://pan.baidu.com/s/1jHWKG4I密码：acq1#-*-coding=utf-8-*-frompysparkimportSparkConf,SparkContextsc=SparkContext('local')importmathfr
Spark机器学习之分类与回归 dingcheng998 spark 机器学习
本页面介绍了分类和回归的算法。它还包括讨论特定类别的算法的部分，如线性方法，树和集合体。目录分类Classification-----------逻辑回归Logisticregression-------------------二项式逻辑回归Binomiallogisticregression-------------------多项Logistic回归Multinomiallogisticreg
机器学习(一)Spark机器学习基础大模型Maynor #机器学习机器学习 spark 人工智能
文章目录1.Spark机器学习基础1.0机器学习和大数据的区别和联系1.1机器学习引入1.2机器学习三次浪潮1.3人工智能领域基础概念区别1.3.1人工智能、机器学习、深度学习关系1.3.2数据分析、数据挖掘基本概念区别1.3.3各技术交叉点后记1.Spark机器学习基础l学习目标掌握机器学习与大数据的区别和联系掌握机器学习概念掌握机器学习如何构建机器学习模型过程1.0机器学习和大数据的区别和联系
3.Spark机器学习基础——监督学习许志辉Albert
Spark机器学习基础——监督学习1.1线性回归（加L1L2正则化）!head-3data/mllib/sample_linear_regression_data.txt1from__future__importprint_functionfrompyspark.ml.regressionimportLinearRegressionfrompyspark.sqlimportSparkSession
SparkML机器学习火玄 spark spark-ml 机器学习人工智能
SparkML机器学习:让机器学会人的学习行为,通过算法和数据来模拟或实现人类的学习行为，使之不断改善自身性能。机器学习的步骤:加载数据特征工程数据筛选:选取适合训练的特征列,例如用户id就不适合,因为它特性太显著.数据转化:将字符串的数据转化数据类型,因为模型训练的数据不能为字符串.将多个特征列转化为一个向量列,因为spark机器学习要求数据输入只能为一个特征列数据缩放:把所有的特征缩放到0~1
机器学习基础笔记硅谷工具人 #spark 机器学习机器学习笔记人工智能
文章目录1.机器学习简介1.1机器学习的一般功能1.2机器学习的应用1.3机器学习的方法1.4机器学习的种类1.5机器学习的常用框架2.Spark机器学习2.1MLlib介绍2.2MLlib的数据格式2.2.1本地向量2.2.2标签数据2.3MLlib与ml2.4MLlib的应用场景3.Spark环境搭建4.向量与矩阵4.1向量操作4.2矩阵操作5.基础统计5.1描述性统计5.2相关性度量5.3假
Spark机器学习实例 V丶Chao Spark 算法 python 机器学习大数据 java
2020/07/09-引言《LearningSpark》过程中只是简单介绍了mllib中的东西，没有一个完整的实践过程，暂时还没有去找有没有专门做这种的书，好像我看《sparkinaction》是有这部分内容，后续在看。本篇文章就利用这个鸢尾花的数据集来简单说明一下spark机器学习的过程，只是简单打下一个轮廓，然后记录使用过程中遇到的问题以及解决方案。在本文中，主要使用新版面向DataFrame
【Spark基础编程】第8章 Spark MLlib 小手の冰凉【数据科学与大数据技术】spark spark-ml 机器学习
系列文章目录文章目录系列文章目录前言【第8章SparkMLlib】8.1SparkMLlib简介8.1.1什么是机器学习8.1.2基于大数据的机器学习8.1.3Spark机器学习库MLLib8.2机器学习工作流8.2.1机器学习流水线概念8.2.2构建一个机器学习流水线8.3特征抽取、转化和选择8.4分类与回归【第8章总结】前言【第8章SparkMLlib】8.1SparkMLlib简介8.1.1
Spark-ML 线性回归 LinearRegression 鬼古神月
Spark-ML线性回归LinearRegression（1）LinearRegression参数详述：1.正则化参数-Regparam：（Double）默认值为0.0Regparam:TheRegularizationParameter.,DefaultIs0.0@Since(“1.3.0”)2.适应截距-FitIntercept：（Boolean）如果我们应该适应截距，默认值为true。Fit
计算机毕业设计之PyTroch+Spark+LSTM+Scrapy图书推荐系统图书爬虫可视化图书大数据图书数据分析计算机毕业设计大神
开发技术前端：vue.js、echarts、websocket后端API:springboot+mybatis-plus数据库：mysql数据分析：Spark机器学习：PyTroch（基于神经网络的混合CF推荐算法）、协同过滤算法(基于用户、基于物品全部实现)、lstm评论情感分析第三方平台：支付宝沙箱支付、百度AI图片识别、短信接口数据集：Scrapy爬虫框架(Python)创新点Spark大屏
数据结构-集成算法-随机森林辉常努腻机器学习 spark 数据结构算法随机森林机器学习
数据结构-集成算法-随机森林[内附spark-ml代码]随机森林集成算法随机森林的相关基础知识随机森林梯度提升树多层感知分类器随机森林集成模型指将基础模型组合成为一个模型。Spark支持两种主要的集成算法：随机森林和梯度提升树。集成算法集成学习（ensemblelearning）是目前非常流行的机器学习策略，基本上所有问题都可以借用其思想来得到效果上的提升。基本出发点就是把算法和各种策略集中在一起
PySpark机器学习 Machine Learning with PySpark - 2019.Pdf python测试开发
MachineLearningwithPySpark-2019.Pdfimage.png使用PySpark构建机器学习模型，自然语言处理应用程序和推荐系统，以解决各种业务挑战。本书从Spark的基础知识及其演变开始，然后介绍了传统机器学习算法的整个范围，以及使用PySpark的自然语言处理和推荐系统。使用PySpark进行机器学习向您展示如何构建有监督的机器学习模型，如线性回归，逻辑回归，决策树和
Spark机器学习实战 (十二) - 推荐系统实战 JavaEdge
0相关源码将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。1推荐系统简介1.1什么是推荐系统1.2推荐系统的作用1.2.1帮助顾客快速定位需求,节省时间1.2.2大幅度提高销售量1.3推荐系统的技术思想1.3.1推荐系统是一种机器学习的工程应用1.3.2推荐系统基于
电商推荐系统论文：基于Spark机器学习的电商推荐系统的设计与实现，大数据电商推荐系统毕设论文，Spring MLlib电商推荐系统诸葛钢铁云解决方案运维架构大数据运维 linux python
毕业设计（论文）题目：基于Spark机器学习的电商推荐系统的设计与实现这是我去年本科毕业时做的毕业设计论文，全文三万多字，知网查重对重复率1%，由于本科论文不会被发表到知网上，再加上我已毕业近一年，现在将论文发表到CSDN。如有需要做毕设论文可引用本文对内容，先到先得（内容纯原创，少有重复）。由于作者对水平有限，文章中难免有错误对内容或作者对相关技术有错误对见解，望读者予以谅解，谢谢！接上篇文章：
spark机器学习-分类回归总结 lixia0417mul2 python机器学习 spark 机器学习分类
1.spark支持的分类包括以下几个场景：a.二分类，顾名思义就是只分成A和B两类b.多分类分成A，B，C，D等多个分类不支持多标签分类，所谓的多标签分类是指一个样本可以属于多个分类，也就是比如样本X既属于A分类又属于B分类，spark目前不支持分类的算法主要有逻辑回归分类算法，决策树，随即森林等，不管是哪种算法，不同点主要在于支持的分类数量和样本数量的限制不同，评价分类算法的好坏的标志主要是看准
Spark机器学习工具链-MLflow简介 weixin_34353714
2019独角兽企业重金招聘Python工程师标准>>>Spark机器学习工具链-MLflow简介本文翻译自https://github.com/openthings/mlflow本文地址https://my.oschina.net/u/2306127/blog/1825638，byopenthings,2018.06.07.参考：mlflow项目由Databricks创建。官方主页https://
Apache Spark机器学习教程 danpu0978 算法大数据 python 机器学习深度学习
编者注：不要错过有关如何使用ApacheSpark创建数据管道应用程序的新的免费按需培训课程-在此处了解更多信息。决策树广泛用于分类和回归的机器学习任务。在此博客文章中，我将帮助您开始使用ApacheSpark的MLlib机器学习决策树进行分类。机器学习算法概述通常，机器学习可以分为两类算法：有监督算法和无监督算法。监督算法使用标记的数据，其中输入和输出都提供给算法。无监督算法没有预先的输出。这些
使用Apache Spark机器学习逻辑回归预测乳腺癌 danpu0978 算法大数据 python 机器学习人工智能
在此博客文章中，我将帮助您开始使用ApacheSpark的spark.mlLogistic回归来预测癌症恶性程度。Spark的spark.ml库目标是在DataFrames之上提供一组API，以帮助用户创建和调整机器学习工作流程或管道。将spark.ml与DataFrames一起使用可通过智能优化提高性能。分类分类是一类有监督的机器学习算法，该算法基于已知项目的标记示例（例如，已知为恶性的观察结果
logistic回归预测_使用Apache Spark机器学习Logistic回归预测乳腺癌 danpu0978 算法大数据 python 机器学习人工智能
logistic回归预测在此博客文章中，我将帮助您开始使用ApacheSpark的spark.mlLogistic回归来预测癌症恶性程度。Spark的spark.ml库目标是在DataFrames之上提供一组API，以帮助用户创建和调整机器学习工作流程或管道。将spark.ml与DataFrames一起使用可通过智能优化提高性能。分类分类是一类有监督的机器学习算法，该算法基于已知项目的标记示例（例
Spark机器学习解析 Legosnow 机器学习 spark 人工智能
源码加数据集：文件源码Gitee好像只收10M一下的文件类型，所以数据集就只能以链接的形式自己下了KMeans和决策树KDD99数据集，推荐使用10%的数据集：http://kdd.ics.uci.edu/databases/kddcup99/ALS电影推荐的Movielens数据集，推荐使用1m大小：https://files.grouplens.org/datasets/movielens/逻
Apache Spark 机器学习管道 3 uesowys 人工智能技术与架构 spark 人工智能
ApacheSpark的机器学习管道提供一个统一的、高级的APIs集合，该APIs集合是以数据框架（Datagrams）为基础，帮助开发人员创建或者优化一个用于实际环境的机器学习的管道。管道（Pipeline）的基本概念Spark机器学习类库MLlib提供丰富的用于机器学习的算法，使得机器学习更加容易地在一个管道、工作流程中综合多种不同的算法，以提供更加强大的机器学习能力，管道的基本概念如下所示：
Python Spark 机器学习与Hadoop 大数据（1）学习笔记一停止的闹钟 Python Spark Hadoop 机器学习大数据大数据 Spark 机器学习 Hadoop 学习笔记
PythonSpark机器学习与Hadoop大数据1.1机器学习机器学习框架机器学习（MachineLearning）：通过算法，和历史数据进行训练，产生得出模型。当有未知相匹配的数据时，我们可以通过模型进行一定程度上的预测。训练数据（监督学习）分为：Feature（数据特征）Label（数据标签，预测目标）机器学习分类：监督学习：有Feature,有Labul,无监督学习：有Feature，无L
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR