TIAN_R

scala-MLlib官方文档---spark.ml package--Extracting、transforming and selecting features

Extracting、transforming and selecting features

本节涵盖使用功能的算法，大致分为以下几类：

Extraction: 从“原始”数据中提取特征
Transformation: 缩放，转换或修改功能
Selection: 从更大的功能集中选择一个子集
Locality Sensitive Hashing (LSH): 这类算法将特征转换的各个方面与其他算法结合在一起。

特征抽取

1)TF-IDF

术语频率逆文档频率（TF-IDF）是一种特征向量化方法，广泛用于文本挖掘中，以反映术语对语料库中文档的重要性。用t表示项，用d表示文档，用D表示语料库。术语频率TF（t，d）是术语t在文档d中出现的次数，而文档频率DF（t，D）是数字包含术语t的文档。如果我们仅使用术语频率来衡量重要性，则很容易过分强调那些经常出现但几乎没有有关文档信息的术语，例如“一个”，“该”和“的”。如果术语经常出现在整个语料库中，则表示该术语不包含有关特定文档的特殊信息。反向文档频率是一个术语提供多少信息的数字度量：

| D |是语料库中文档的总数。由于使用对数，因此如果一个术语出现在所有文档中，则其IDF值将变为0。请注意，应用了平滑术语以避免对主体外的术语除以零。 TF-IDF度量只是TF和IDF的乘积：

术语频率和文档频率的定义有多种变体。在MLlib中，我们将TF和IDF分开以使其具有灵活性。
TF：HashingTF和CountVectorizer均可用于生成术语频率向量。
HashingTF是一个Transformer，它接受多个术语集并将这些术语集转换为固定长度的特征向量。在文本处理中，“一组术语”可能是一袋单词。 HashingTF利用了哈希技巧。通过应用哈希函数将原始特征映射到索引（项）。这里使用的哈希函数是MurmurHash3。然后根据映射的索引计算词频。这种方法避免了需要计算全局项到索引图的情况，这对于大型语料库可能是昂贵的，但是它会遭受潜在的哈希冲突，即哈希后不同的原始特征可能成为同一术语。为了减少冲突的机会，我们可以增加目标要素的维数，即哈希表的存储桶数。由于使用散列值的简单模来确定向量索引，因此建议使用2的幂作为特征维，否则特征将不会均匀地映射到向量索引。默认特征尺寸为2^18 = 262,144。可选的二进制切换参数控制项频率计数。当设置为true时，所有非零频率计数都设置为1。这对于模拟二进制而不是整数计数的离散概率模型特别有用。
CountVectorizer将文本文档转换为术语计数的向量。有关更多详细信息，请参考CountVectorizer。
IDF：IDF是适合数据集并生成IDFModel的估算器。 IDFModel采用特征向量（通常从HashingTF或CountVectorizer创建）并缩放每个特征。从直觉上讲，它降低了经常出现在语料库中的特征的权重。
注意：spark.ml不提供用于文本分割的工具。我们将用户推荐给Stanford NLP Group和scalanlp / chalk。
例子
在下面的代码段中，我们从一组句子开始。我们使用Tokenizer将每个句子分成单词。对于每个句子（单词袋），我们使用HashingTF将句子哈希为特征向量。我们使用IDF重新缩放特征向量。使用文本作为特征时，通常可以提高性能。然后，我们的特征向量可以传递给学习算法。

import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}

val sentenceData = spark.createDataFrame(Seq(
  (0.0, "Hi I heard about Spark"),
  (0.0, "I wish Java could use case classes"),
  (1.0, "Logistic regression models are neat")
)).toDF("label", "sentence")

val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
val wordsData = tokenizer.transform(sentenceData)

val hashingTF = new HashingTF()
  .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(20)

val featurizedData = hashingTF.transform(wordsData)
// alternatively, CountVectorizer can also be used to get term frequency vectors

val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(featurizedData)

val rescaledData = idfModel.transform(featurizedData)
rescaledData.select("label", "features").show()

2)Word2Vec

Word2Vec是一个估计器，它采用代表文档的单词序列并训练Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。 Word2VecModel使用文档中所有单词的平均值将每个文档转换为向量。然后，可以将此向量用作预测，文档相似度计算等的功能。有关更多详细信息，请参考Word2Vec上的MLlib用户指南。
例子
在下面的代码段中，我们从一组文档开始，每个文档都由一个单词序列表示。对于每个文档，我们将其转换为特征向量。然后可以将该特征向量传递给学习算法。

import org.apache.spark.ml.feature.Word2Vec
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row

// Input data: Each row is a bag of words from a sentence or document.
val documentDF = spark.createDataFrame(Seq(
  "Hi I heard about Spark".split(" "),
  "I wish Java could use case classes".split(" "),
  "Logistic regression models are neat".split(" ")
).map(Tuple1.apply)).toDF("text")

// Learn a mapping from words to Vectors.
val word2Vec = new Word2Vec()
  .setInputCol("text")
  .setOutputCol("result")
  .setVectorSize(3)
  .setMinCount(0)
val model = word2Vec.fit(documentDF)

val result = model.transform(documentDF)
result.collect().foreach { case Row(text: Seq[_], features: Vector) =>
  println(s"Text: [${text.mkString(", ")}] => \nVector: $features\n") }

3)CountVectorizer

CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。当先验字典不可用时，CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。该模型在词汇表上生成文档的稀疏表示，然后可以将其传递给其他算法，例如LDA。
在拟合过程中，CountVectorizer将选择整个语料库中按词频排列的前vocabSize词。可选参数minDF还通过指定一个术语必须出现在词汇表中的最小数量（或小于1.0的分数）来影响拟合过程。另一个可选的二进制切换参数控制输出向量。如果将其设置为true，则所有非零计数都将设置为1。这对于模拟二进制而不是整数计数的离散概率模型特别有用。
例子
假设我们具有以下带有列ID和文本的DataFrame：

id	texts
0	Array(“a”, “b”, “c”)
1	Array(“a”, “b”, “b”, “c”, “a”)

文本中的每一行都是Array [String]类型的文档。调用CountVectorizer的fit会生成带有词汇表（a，b，c）的CountVectorizerModel。转换后的输出列“ vector”包含：

id	texts	vector
0	Array(“a”, “b”, “c”)	(3,[0,1,2],[1.0,1.0,1.0])
1	Array(“a”, “b”, “b”, “c”, “a”)	(3,[0,1,2],[2.0,2.0,1.0])

每个向量代表整个词汇表中文档的标记计数。

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

val df = spark.createDataFrame(Seq(
  (0, Array("a", "b", "c")),
  (1, Array("a", "b", "b", "c", "a"))
)).toDF("id", "words")

// fit a CountVectorizerModel from the corpus
val cvModel: CountVectorizerModel = new CountVectorizer()
  .setInputCol("words")
  .setOutputCol("features")
  .setVocabSize(3)
  .setMinDF(2)
  .fit(df)

// alternatively, define CountVectorizerModel with a-priori vocabulary
val cvm = new CountVectorizerModel(Array("a", "b", "c"))
  .setInputCol("words")
  .setOutputCol("features")

cvModel.transform(df).show(false)

4)FeatureHasher

特征哈希将一组分类或数字特征投影到指定维度的特征向量中（通常大大小于原始特征空间的特征向量）。这是通过使用哈希技巧将特征映射到特征向量中的索引来完成的。
FeatureHasher变压器可在多列上运行。每列可以包含数字或分类特征。列数据类型的行为和处理如下：

Numeric columns: 对于数字特征，列名的哈希值用于将特征值映射到特征向量中的索引。默认情况下，数字功能不被视为分类功能（即使它们是整数）。要将它们视为分类，请使用categoricalCols参数指定相关列。
String columns: 对于分类特征，字符串“ column_name = value”的哈希值用于映射到矢量索引，指示符值为1.0。因此，分类特征被“一次热”编码（类似于使用具有dropLast = false的OneHotEncoder）。
Boolean columns: 布尔值的处理方式与字符串列相同。即，布尔特征表示为“ column_name = true”或“ column_name = false”，指示符值为1.0。

空（缺失）值将被忽略（在所得特征向量中隐式为零）。
这里使用的哈希函数也是HashingTF中使用的MurmurHash 3。由于使用散列值的简单模来确定矢量索引，因此建议使用2的幂作为numFeatures参数。否则，这些特征将不会均匀地映射到矢量索引。
例子
假设我们有一个DataFrame，其中有4个输入列real，bool，stringNum和string。这些不同的数据类型作为输入将说明生成一列特征向量的变换的行为。

real	bool	stringNum	string
2.2	true	1	foo
3.3	false	2	bar
4.4	false	3	baz
5.5	false	4	foo

然后，此DataFrame上FeatureHasher.transform的输出为：

real	bool	stringNum	string	features
2.2	true	1	foo	(262144,[51871, 63643,174475,253195],[1.0,1.0,2.2,1.0])
3.3	false	2	bar	(262144,[6031, 80619,140467,174475],[1.0,1.0,1.0,3.3])
4.4	false	3	baz	(262144,[24279,140467,174475,196810],[1.0,1.0,4.4,1.0])
5.5	false	4	foo	(262144,[63643,140467,168512,174475],[1.0,1.0,1.0,5.5])

然后可以将所得的特征向量传递给学习算法。

import org.apache.spark.ml.feature.FeatureHasher

val dataset = spark.createDataFrame(Seq(
  (2.2, true, "1", "foo"),
  (3.3, false, "2", "bar"),
  (4.4, false, "3", "baz"),
  (5.5, false, "4", "foo")
)).toDF("real", "bool", "stringNum", "string")

val hasher = new FeatureHasher()
  .setInputCols("real", "bool", "stringNum", "string")
  .setOutputCol("features")

val featurized = hasher.transform(dataset)
featurized.show(false)

Feature Transformers

1)Tokenizer

标记化是获取文本（例如句子）并将其分解为单个术语（通常是单词）的过程。一个简单的Tokenizer类提供了此功能。下面的示例显示了如何将句子分成单词序列。
RegexTokenizer允许基于正则表达式（regex）匹配进行更高级的标记化。默认情况下，参数“ pattern”（正则表达式，默认值：“ \ s +”）用作分隔输入文本的定界符。或者，用户可以将参数“ gap”设置为false，以表示正则表达式“ pattern”表示“令牌”，而不是拆分间隙，并找到所有匹配的出现作为标记化结果。

import org.apache.spark.ml.feature.{RegexTokenizer, Tokenizer}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

val sentenceDataFrame = spark.createDataFrame(Seq(
  (0, "Hi I heard about Spark"),
  (1, "I wish Java could use case classes"),
  (2, "Logistic,regression,models,are,neat")
)).toDF("id", "sentence")

val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
val regexTokenizer = new RegexTokenizer()
  .setInputCol("sentence")
  .setOutputCol("words")
  .setPattern("\\W") // alternatively .setPattern("\\w+").setGaps(false)

val countTokens = udf { (words: Seq[String]) => words.length }

val tokenized = tokenizer.transform(sentenceDataFrame)
tokenized.select("sentence", "words")
    .withColumn("tokens", countTokens(col("words"))).show(false)

val regexTokenized = regexTokenizer.transform(sentenceDataFrame)
regexTokenized.select("sentence", "words")
    .withColumn("tokens", countTokens(col("words"))).show(false)

2)StopWorsRemover

停用词是应从输入中排除的词，通常是因为这些词频繁出现且含义不大。
StopWordsRemover将一个字符串序列（例如Tokenizer的输出）作为输入，并从输入序列中删除所有停用词。停用词列表由stopWords参数指定。通过调用StopWordsRemover.loadDefaultStopWords（language）可以访问某些语言的默认停用词，其可用选项为“丹麦语”，“荷兰语”，“英语”，“芬兰语”，“法语”，“德语”，“匈牙利语”， “意大利语”，“挪威语”，“葡萄牙语”，“俄语”，“西班牙语”，“瑞典语”和“土耳其语”。布尔参数caseSensitive指示匹配是否区分大小写（默认情况下为false）。
例子：
假设我们有以下具有ID和raw列的DataFrame：

id	raw
0	[I, saw, the, red, baloon]
1	[Mary, had, a, little, lamb]

将Raw用作输入列，并将StopfiltersRemover应用于输出列，然后应用StopWordsRemover，我们应该获得以下内容：

id	raw	filtered
0	[I, saw, the, red, baloon]	[saw, red, baloon]
1	[Mary, had, a, little, lamb]	[Mary, little, lamb]

在过滤中，停用词“ I”，“ the”，“ had”和“ a”已被过滤掉。

import org.apache.spark.ml.feature.StopWordsRemover

val remover = new StopWordsRemover()
  .setInputCol("raw")
  .setOutputCol("filtered")

val dataSet = spark.createDataFrame(Seq(
  (0, Seq("I", "saw", "the", "red", "balloon")),
  (1, Seq("Mary", "had", "a", "little", "lamb"))
)).toDF("id", "raw")

remover.transform(dataSet).show(false)

3)n-gram

n-gram是某个整数n的n个标记（通常是单词）的序列。 NGram类可用于将输入要素转换为n-gram。
NGram将字符串序列作为输入（例如Tokenizer的输出）。参数n用于确定每个n-gram中的项数。输出将由一系列n-gram组成，其中每个n-gram由n个连续单词的以空格分隔的字符串表示。如果输入序列包含少于n个字符串，则不会产生输出。

import org.apache.spark.ml.feature.NGram

val wordDataFrame = spark.createDataFrame(Seq(
  (0, Array("Hi", "I", "heard", "about", "Spark")),
  (1, Array("I", "wish", "Java", "could", "use", "case", "classes")),
  (2, Array("Logistic", "regression", "models", "are", "neat"))
)).toDF("id", "words")

val ngram = new NGram().setN(2).setInputCol("words").setOutputCol("ngrams")

val ngramDataFrame = ngram.transform(wordDataFrame)
ngramDataFrame.select("ngrams").show(false)

4)Binarizer(二值化器)

二进制化是将数字特征阈值化为二进制（0/1）特征的过程。
Binarizer采用公共参数inputCol和outputCol以及二进制化的阈值。大于阈值的特征值将二值化为1.0；等于或小于阈值的值将二值化为0.0。 inputCol支持Vector和Double类型。
例子

import org.apache.spark.ml.feature.Binarizer

val data = Array((0, 0.1), (1, 0.8), (2, 0.2))
val dataFrame = spark.createDataFrame(data).toDF("id", "feature")

val binarizer: Binarizer = new Binarizer()
  .setInputCol("feature")
  .setOutputCol("binarized_feature")
  .setThreshold(0.5)

val binarizedDataFrame = binarizer.transform(dataFrame)

println(s"Binarizer output with Threshold = ${binarizer.getThreshold}")
binarizedDataFrame.show()

5)PCA

PCA是一种统计过程，它使用正交变换将一组可能相关的变量的观测值转换为一组线性不相关的变量值（称为主成分）。 PCA类训练模型以使用PCA将向量投影到低维空间。下例显示了如何将5维特征向量投影到3维主成分中。
例子

import org.apache.spark.ml.feature.PCA
import org.apache.spark.ml.linalg.Vectors

val data = Array(
  Vectors.sparse(5, Seq((1, 1.0), (3, 7.0))),
  Vectors.dense(2.0, 0.0, 3.0, 4.0, 5.0),
  Vectors.dense(4.0, 0.0, 0.0, 6.0, 7.0)
)
val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")

val pca = new PCA()
  .setInputCol("features")
  .setOutputCol("pcaFeatures")
  .setK(3)
  .fit(df)

val result = pca.transform(df).select("pcaFeatures")
result.show(false)

6)PolynomialExpansion

多项式扩展是将要素扩展到多项式空间的过程，该空间由原始尺寸的n次组合构成。 PolynomialExpansion类提供此功能。下面的示例显示如何将特征扩展到3度多项式空间。
例子

import org.apache.spark.ml.feature.PolynomialExpansion
import org.apache.spark.ml.linalg.Vectors

val data = Array(
  Vectors.dense(2.0, 1.0),
  Vectors.dense(0.0, 0.0),
  Vectors.dense(3.0, -1.0)
)
val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")

val polyExpansion = new PolynomialExpansion()
  .setInputCol("features")
  .setOutputCol("polyFeatures")
  .setDegree(3)

val polyDF = polyExpansion.transform(df)
polyDF.show(false)

7)Discrete Cosine Transform(DCT–离散余弦变换)

离散余弦变换将时域中长度为N的实值序列转换为频域中另一个长度为N的实值序列。 DCT类提供此功能，实现DCT-II并将结果缩放1 / 2‾√，以使变换的表示矩阵为matrix。没有移位应用于变换后的序列（例如，变换后的序列的第0个元素是第0个DCT系数而不是第N / 2个）。
例子

import org.apache.spark.ml.feature.DCT
import org.apache.spark.ml.linalg.Vectors

val data = Seq(
  Vectors.dense(0.0, 1.0, -2.0, 3.0),
  Vectors.dense(-1.0, 2.0, 4.0, -7.0),
  Vectors.dense(14.0, -2.0, -5.0, 1.0))

val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")

val dct = new DCT()
  .setInputCol("features")
  .setOutputCol("featuresDCT")
  .setInverse(false)

val dctDf = dct.transform(df)
dctDf.select("featuresDCT").show(false)

8)StringIndexer

StringIndexer将标签的字符串列编码为标签索引的列。索引位于[0，numLabels）中，并支持四个排序选项：“ frequencyDesc”：按标签频率的降序（最频繁的标签分配为0），“ frequencyAsc”：按标签频率的升序（最不频繁的标签分配为0），“ alphabetDesc”：字母降序，“ alphabetAsc”：字母升序（默认=“ frequencyDesc”）。如果用户选择保留，则看不见的标签将放置在索引numLabels处。如果输入列为数字，则将其强制转换为字符串并为字符串值编制索引。当下游管道组件（例如Estimator或Transformer）使用此字符串索引标签时，必须将组件的输入列设置为此字符串索引列名称。在许多情况下，可以使用setInputCol设置输入列。
例子：
假设我们有如下数据结构，其中列为Id和category

id	category
0	a
1	b
2	c
3	a
4	a
5	c

category是一个有三个标签是"a"，“b”和“c”的字符串列。在category这一列应用StringIndexer作为输入列，将得到categoryIndex作为输出列，内容如下：

id	category	categoryIndex
0	a	0.0
1	b	2.0
2	c	1.0
3	a	0.0
4	a	0.0
5	c	1.0

"a"的引用值为0是因为a标签出现的频率最高，接着是引用值为1的"c"和引用值为2的“b”。
另外，当你在一个数据集上拟合了StringIndexer并用它去转换另外的数据集时，这里有三种策略来帮助StringIndexer处理无法观测的标签

抛出一个异常（这是固定的）
完整的抛弃含有不能识别的标签的一整列
将看不见的标签放在索引numLabels的特殊附加存储桶中

例子
让我们回到我们之前的例子中，但是这次我们将重新在原来的数据集上定义StringIndexer

id	category
0	a
1	b
2	c
3	d
4	e

如果你没有设定StringIndexer如何处理不能识别的标签或者设定它为一个“错误”，那么一个异常将会被抛出。然而，如果你已经设定HandleInvalid(“skip”)，那么将会产生如下的数据集：

id	category	categoryIndex
0	a	0.0
1	b	2.0
2	c	1.0

注意，包含"d"和”e“的行并没有出现
如果你设定HandleInvalid(“keep”)，那么下列的数据集将会被产生：

id	category	categoryIndex
0	a	0.0
1	b	2.0
2	c	1.0
3	d	3.0
4	e	3

注意，这里包含"b"和“c”的列将会被映射到引用"3.0"

import org.apache.spark.ml.feature.StringIndexer

val df = spark.createDataFrame(
  Seq((0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c"))
).toDF("id", "category")

val indexer = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("categoryIndex")

val indexed = indexer.fit(df).transform(df)
indexed.show()

9)IndexToString

与StringIndexer相对成，IndexToString将一列标签指数映射回到含有字符串类型的原始标签列。一个常见的使用场景就是从StringIndexer的标签中产生引用值，训练一个含有这些引用值的模型然后使用IndexToString从预测索引的列中检索原始标签。然而，你可以自由的生产你自己的标签。
例子：
建立于StringIndexer的例子，让我们假设我们拥有如下列为id和categoryIndex的DataFrame：

id	categoryIndex
0	0.0
1	2.0
2	1.0
3	0.0
4	0.0
5	1.0

将categoryIndex作为数据的列应用IndexToString，OriginalCategory作为输出列，我们能够找回我们原始的标签（它们将从列的元数据里面推断出来）：

id	categoryIndex	originalCategory
0	0.0	a
1	2.0	b
2	1.0	c
3	0.0	a
4	0.0	a
5	1.0	c

代码应用

import org.apache.spark.ml.attribute.Attribute
import org.apache.spark.ml.feature.{IndexToString, StringIndexer}

val df = spark.createDataFrame(Seq(
  (0, "a"),
  (1, "b"),
  (2, "c"),
  (3, "a"),
  (4, "a"),
  (5, "c")
)).toDF("id", "category")

val indexer = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("categoryIndex")
  .fit(df)
val indexed = indexer.transform(df)

println(s"Transformed string column '${indexer.getInputCol}' " +
    s"to indexed column '${indexer.getOutputCol}'")
indexed.show()

val inputColSchema = indexed.schema(indexer.getOutputCol)
println(s"StringIndexer will store labels in output column metadata: " +
    s"${Attribute.fromStructField(inputColSchema).toString}\n")

val converter = new IndexToString()
  .setInputCol("categoryIndex")
  .setOutputCol("originalCategory")

val converted = converter.transform(indexed)

println(s"Transformed indexed column '${converter.getInputCol}' back to original string " +
    s"column '${converter.getOutputCol}' using labels in metadata")
converted.select("id", "categoryIndex", "originalCategory").show()

10)OneHotEncoderEstimator

独热编码将由标签指数代表的分类特征映射到有最多一个单独的值的二进制向量表明所有特征值集中存在特定特征值。这种编码使得需要连续的特征的算法，比如逻辑回归，能够使用分类特征。对于字符串类型的输入数据，通常首先使用StringIndexer对分类特征进行编码。
独热编码估计器能够转换多列，对于每个输入列都能够返回一个独热向量列。通常使用VectorAssembler将这些向量合并为单个特征向量。
OneHotEncoderEstimator支持handleInvalid参数，以选择在转换数据期间如何处理无效输入。可选的选项是‘keep’（任何无效的输入都分配给额外的分类索引）和‘error’(抛出一个错误)

import org.apache.spark.ml.feature.OneHotEncoderEstimator

val df = spark.createDataFrame(Seq(
  (0.0, 1.0),
  (1.0, 0.0),
  (2.0, 1.0),
  (0.0, 2.0),
  (0.0, 1.0),
  (2.0, 0.0)
)).toDF("categoryIndex1", "categoryIndex2")

val encoder = new OneHotEncoderEstimator()
  .setInputCols(Array("categoryIndex1", "categoryIndex2"))
  .setOutputCols(Array("categoryVec1", "categoryVec2"))
val model = encoder.fit(df)

val encoded = model.transform(df)
encoded.show()

11)VectorIndexer

VectorIndexer帮助索引Vector数据集中的分类特征。它既可以自动确定哪些特征是分类的，又可以将原始值转换为分类索引。具体来说，它执行以下操作：
采取类型为Vector的输入列和参数maxCategories。
根据不同值的数量确定应分类的要素，其中最多具有maxCategories的要素被声明为分类。
为每个分类特征计算从0开始的分类索引。
为分类特征建立索引，并将原始特征值转换为索引。
索引分类特征允许诸如决策树和树组合之类的算法适当地处理分类特征，从而提高性能。
例子：
在下述的例子中，我们读取了标记点的数据集，然后使用VectorIndexer决定应将哪些要素视为分类要素。我们将分类特征值转换为其索引。然后，可以将这种转换后的数据传递给处理分类特征的算法，例如DecisionTreeRegressor。

import org.apache.spark.ml.feature.VectorIndexer

val data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")

val indexer = new VectorIndexer()
  .setInputCol("features")
  .setOutputCol("indexed")
  .setMaxCategories(10)

val indexerModel = indexer.fit(data)

val categoricalFeatures: Set[Int] = indexerModel.categoryMaps.keys.toSet
println(s"Chose ${categoricalFeatures.size} " +
  s"categorical features: ${categoricalFeatures.mkString(", ")}")

// Create new column "indexed" with categorical values transformed to indices
val indexedData = indexerModel.transform(data)
indexedData.show()

12)Interaction

Interaction是一个Transformer，它采用向量列或双值列，并生成一个向量列，其中包含来自每个输入列的一个值的所有组合的乘积。
例如，如果你有两个向量类型的列，每一个都有3维作为输入列，那么你将得到9维的向量作为输出列。
例子
假设我们有如下列为"id1",“vec1”和"vec2"的DataFrame

id1	vec1	vec2
1	[1.0,2.0,3.0]	[8.0,4.0,5.0]
2	[4.0,3.0,8.0]	[7.0,9.0,8.0]
3	[6.0,1.0,9.0]	[2.0,3.0,6.0]
4	[10.0,8.0,6.0]	[9.0,4.0,5.0]
5	[9.0,2.0,7.0]	[10.0,7.0,3.0]
6	[1.0,1.0,4.0]	[2.0,8.0,4.0]

应用Interaction在这些输入列里面，然后我们就得到了输出列：InteractedCol

id1	vec1	vec2	interactedCol
1	[1.0,2.0,3.0]	[8.0,4.0,5.0]	[8.0,4.0,5.0,16.0,8.0,10.0,24.0,12.0,15.0]
2	[4.0,3.0,8.0]	[7.0,9.0,8.0]	[56.0,72.0,64.0,42.0,54.0,48.0,112.0,144.0,128.0]
3	[6.0,1.0,9.0]	[2.0,3.0,6.0]	[36.0,54.0,108.0,6.0,9.0,18.0,54.0,81.0,162.0]
4	[10.0,8.0,6.0]	[9.0,4.0,5.0]	[360.0,160.0,200.0,288.0,128.0,160.0,216.0,96.0,120.0]
5	[9.0,2.0,7.0]	[10.0,7.0,3.0]	[450.0,315.0,135.0,100.0,70.0,30.0,350.0,245.0,105.0]
6	[1.0,1.0,4.0]	[2.0,8.0,4.0]	[12.0,48.0,24.0,12.0,48.0,24.0,48.0,192.0,96.0]

代码实现

import org.apache.spark.ml.feature.Interaction
import org.apache.spark.ml.feature.VectorAssembler

val df = spark.createDataFrame(Seq(
  (1, 1, 2, 3, 8, 4, 5),
  (2, 4, 3, 8, 7, 9, 8),
  (3, 6, 1, 9, 2, 3, 6),
  (4, 10, 8, 6, 9, 4, 5),
  (5, 9, 2, 7, 10, 7, 3),
  (6, 1, 1, 4, 2, 8, 4)
)).toDF("id1", "id2", "id3", "id4", "id5", "id6", "id7")

val assembler1 = new VectorAssembler().
  setInputCols(Array("id2", "id3", "id4")).
  setOutputCol("vec1")

val assembled1 = assembler1.transform(df)

val assembler2 = new VectorAssembler().
  setInputCols(Array("id5", "id6", "id7")).
  setOutputCol("vec2")

val assembled2 = assembler2.transform(assembled1).select("id1", "vec1", "vec2")

val interaction = new Interaction()
  .setInputCols(Array("id1", "vec1", "vec2"))
  .setOutputCol("interactedCol")

val interacted = interaction.transform(assembled2)

interacted.show(truncate = false)

13)Normalizer

归一化是一个转换器，将一个向量为行的数据集，归一化每一个向量使其有单位规范。
它采用参数p，该参数指定用于归一化的p范数。(默认p=2)。归一化可以帮助标准化你的输入数据并提升学习算法的表现
例子：
下列列子表明如果在libsvm格式下导入一个数据集并归一化每一列到单位为L1正则和L∞正则
代码示例

import org.apache.spark.ml.feature.Normalizer
import org.apache.spark.ml.linalg.Vectors

val dataFrame = spark.createDataFrame(Seq(
  (0, Vectors.dense(1.0, 0.5, -1.0)),
  (1, Vectors.dense(2.0, 1.0, 1.0)),
  (2, Vectors.dense(4.0, 10.0, 2.0))
)).toDF("id", "features")

// Normalize each Vector using $L^1$ norm.
val normalizer = new Normalizer()
  .setInputCol("features")
  .setOutputCol("normFeatures")
  .setP(1.0)

val l1NormData = normalizer.transform(dataFrame)
println("Normalized using L^1 norm")
l1NormData.show()

// Normalize each Vector using $L^\infty$ norm.
val lInfNormData = normalizer.transform(dataFrame, normalizer.p -> Double.PositiveInfinity)
println("Normalized using L^inf norm")
lInfNormData.show()

14)StrandardScaler

StandardScaler转换Vector行的数据集，将每个要素归一化以具有单位标准差和/或零均值。
它拥有以下的参数：

withStd: 默认为True。将数据缩放到单位标准偏差。
withMean: 默认为False。在缩放之前，将数据以均值居中。它将生成密集的输出，因此在应用于稀疏输入时要小心。

StandardScaler是一个估计器，可以拟合一个数据集来产生StandardScaler模型；这等价于计算摘要信息。然后，该模型可以将数据集中的Vector列转换为具有单位标准差和/或零均值特征。
请注意，如果特征的标准偏差为零，它将在向量中返回该特征的默认0.0值。
例子：
下述列子展示了如何加载libsvm类型的数据集并归一化每一个特征使其拥有单位标准偏差。

import org.apache.spark.ml.feature.StandardScaler

val dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")

val scaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures")
                                 .setWithStd(true).setWithMean(false)

// Compute summary statistics by fitting the StandardScaler.
val scalerModel = scaler.fit(dataFrame)

// Normalize each feature to have unit standard deviation.
val scaledData = scalerModel.transform(dataFrame)
scaledData.show()

15)MinMaxScaler

MinMaxScaler转换Vector行的数据集，将每个要素重新缩放到特定范围 (通常 [0, 1]). 它需要参数:

min: 默认为0.0。转换后的下限，所有特征共享
max: 默认为1.0。转换后的上限，所有特征共享

MinMaxScaler计算一个数据集上的摘要统计值，并产生一个MinMaxScaler模型。这个模型之后可以在给定的范围内转换每一个特征。
对于特征E来说，重新缩放的值计算方式如下：

Note that since zero values will probably be transformed to non-zero values, output of the transformer will be DenseVector even for sparse input.
示例代码

import org.apache.spark.ml.feature.MinMaxScaler
import org.apache.spark.ml.linalg.Vectors

val dataFrame = spark.createDataFrame(Seq(
  (0, Vectors.dense(1.0, 0.1, -1.0)),
  (1, Vectors.dense(2.0, 1.1, 1.0)),
  (2, Vectors.dense(3.0, 10.1, 3.0))
)).toDF("id", "features")

val scaler = new MinMaxScaler()
  .setInputCol("features")
  .setOutputCol("scaledFeatures")

// Compute summary statistics and generate MinMaxScalerModel
val scalerModel = scaler.fit(dataFrame)

// rescale each feature to range [min, max].
val scaledData = scalerModel.transform(dataFrame)
println(s"Features scaled to range: [${scaler.getMin}, ${scaler.getMax}]")
scaledData.select("features", "scaledFeatures").show()

16)MaAbsScaler

MaxAbsScaler转换Vector行的数据集，通过除以每个要素中的最大绝对值，将每个要素重新缩放为[-1，1]范围。它不会移动/居中数据，因此不会破坏任何稀疏性。
MaxAbsScaler计算数据集的摘要统计信息，并生成MaxAbsScalerModel。然后，模型可以将每个特征分别转换为范围[-1，1]。
示例代码

import org.apache.spark.ml.feature.MaxAbsScaler
import org.apache.spark.ml.linalg.Vectors

val dataFrame = spark.createDataFrame(Seq(
  (0, Vectors.dense(1.0, 0.1, -8.0)),
  (1, Vectors.dense(2.0, 1.0, -4.0)),
  (2, Vectors.dense(4.0, 10.0, 8.0))
)).toDF("id", "features")

val scaler = new MaxAbsScaler()
  .setInputCol("features")
  .setOutputCol("scaledFeatures")

// Compute summary statistics and generate MaxAbsScalerModel
val scalerModel = scaler.fit(dataFrame)

// rescale each feature to range [-1, 1]
val scaledData = scalerModel.transform(dataFrame)
scaledData.select("features", "scaledFeatures").show()

17)Bucketizer

Bucketizer将一列连续要素转换为一列要素存储桶，其中存储桶由用户指定。它带有一个参数：

splits: 用于将连续要素映射到存储桶的参数。通过n + 1个拆分，有n个存储桶。拆分x，y定义的存储桶除最后一个存储桶（也包括y）外，其值都在[x，y）范围内。分割数应严格增加。必须明确提供-inf，inf的值以覆盖所有Double值；否则，超出指定分割的值将被视为错误。拆分的两个示例是Array（Double.NegativeInfinity，0.0，1.0，Double.PositiveInfinity）和Array（0.0，1.0，2.0）。

请注意，如果您不了解目标列的上限和下限，则应添加Double.NegativeInfinity和Double.PositiveInfinity作为拆分的边界，以防止潜在的超出Bucketizer边界的异常。
还请注意，您提供的拆分必须严格按升序排列，即s0 可以在Bucketizer的API文档中找到更多详细信息。
示例代码

import org.apache.spark.ml.feature.Bucketizer

val splits = Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Double.PositiveInfinity)

val data = Array(-999.9, -0.5, -0.3, 0.0, 0.2, 999.9)
val dataFrame = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")

val bucketizer = new Bucketizer()
  .setInputCol("features")
  .setOutputCol("bucketedFeatures")
  .setSplits(splits)

// Transform original data into its bucket index.
val bucketedData = bucketizer.transform(dataFrame)

println(s"Bucketizer output with ${bucketizer.getSplits.length-1} buckets")
bucketedData.show()

val splitsArray = Array(
  Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Double.PositiveInfinity),
  Array(Double.NegativeInfinity, -0.3, 0.0, 0.3, Double.PositiveInfinity))

val data2 = Array(
  (-999.9, -999.9),
  (-0.5, -0.2),
  (-0.3, -0.1),
  (0.0, 0.0),
  (0.2, 0.4),
  (999.9, 999.9))
val dataFrame2 = spark.createDataFrame(data2).toDF("features1", "features2")

val bucketizer2 = new Bucketizer()
  .setInputCols(Array("features1", "features2"))
  .setOutputCols(Array("bucketedFeatures1", "bucketedFeatures2"))
  .setSplitsArray(splitsArray)

// Transform original data into its bucket index.
val bucketedData2 = bucketizer2.transform(dataFrame2)

println(s"Bucketizer output with [" +
  s"${bucketizer2.getSplitsArray(0).length-1}, " +
  s"${bucketizer2.getSplitsArray(1).length-1}] buckets for each input column")
bucketedData2.show()

18)ElementwiseProduct

ElementwiseProduct使用逐元素乘法将每个输入向量乘以提供的“权重”向量。换句话说，它通过标量乘子缩放数据集的每一列。这表示输入向量v和变换向量w之间的Hadamard乘积，以产生结果向量。

示例代码

import org.apache.spark.ml.feature.ElementwiseProduct
import org.apache.spark.ml.linalg.Vectors

// Create some vector data; also works for sparse vectors
val dataFrame = spark.createDataFrame(Seq(
  ("a", Vectors.dense(1.0, 2.0, 3.0)),
  ("b", Vectors.dense(4.0, 5.0, 6.0)))).toDF("id", "vector")

val transformingVector = Vectors.dense(0.0, 1.0, 2.0)
val transformer = new ElementwiseProduct()
  .setScalingVec(transformingVector)
  .setInputCol("vector")
  .setOutputCol("transformedVector")

// Batch transform the vectors to create new column:
transformer.transform(dataFrame).show()

19)SQLTransfomer

SQLTransformer实现由SQL语句定义的转换。当前，我们仅支持SQL语法，例如“ SELECT … FROM THIS …”，其中“ THIS”代表输入数据集的基础表。 select子句指定要在输出中显示的字段，常量和表达式，并且可以是Spark SQL支持的任何select子句。用户还可以使用Spark SQL内置函数和UDF对这些选定的列进行操作。例如，SQLTransformer支持以下语句：

SELECT a, a + b AS a_b FROM THIS
SELECT a, SQRT(b) AS b_sqrt FROM THIS where a > 5
SELECT a, b, SUM© AS c_sum FROM THIS GROUP BY a, b

示例代码
有关该API的更多详细信息，请参考SQLTransformer Scala文档。

import org.apache.spark.ml.feature.SQLTransformer

val df = spark.createDataFrame(
  Seq((0, 1.0, 3.0), (2, 2.0, 5.0))).toDF("id", "v1", "v2")

val sqlTrans = new SQLTransformer().setStatement(
  "SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__")

sqlTrans.transform(df).show()

20)VectorAssembler

VectorAssembler是一种转换器，它将给定的列列表组合为单个向量列。这对于将原始特征和由不同特征转换器生成的特征合并到单个特征向量中很有用，以便训练逻辑模型回归和决策树之类的ML模型。 VectorAssembler接受以下输入列类型：所有数字类型，布尔类型和向量类型。在每一行中，输入列的值将按指定顺序连接到向量中。

示例代码

import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors

val dataset = spark.createDataFrame(
  Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0))
).toDF("id", "hour", "mobile", "userFeatures", "clicked")

val assembler = new VectorAssembler()
  .setInputCols(Array("hour", "mobile", "userFeatures"))
  .setOutputCol("features")

val output = assembler.transform(dataset)
println("Assembled columns 'hour', 'mobile', 'userFeatures' to vector column 'features'")
output.select("features", "clicked").show(false)

21)VectorSizeHint

有时为VectorType的列显式指定向量的大小可能很有用。例如，VectorAssembler使用其输入列中的大小信息来为其输出列生成大小信息和元数据。尽管在某些情况下可以通过检查列的内容来获取此信息，但是在流数据帧中，只有在启动流之后，内容才可用VectorSizeHint允许用户显式指定列的向量大小，以便VectorAssembler或可能需要知道向量大小的其他转换器可以将该列用作输入。
要使用VectorSizeHint，用户必须设置inputCol和size参数。将此转换器应用于数据框将生成一个新的数据框，其中包含用于inputCol的更新元数据，以指定矢量大小。生成的数据帧上的下游操作可以使用Meatadata获得此大小。
VectorSizeHint也可以采用可选的handleInvalid参数，当vector列包含null或错误大小的vector时，该参数控制其行为。默认情况下，handleInvalid设置为“错误”，指示应引发异常。此参数也可以设置为“跳过”，指示应从结果数据框中过滤出包含无效值的行，或“乐观”，指示不应检查该列的无效值，而应保留所有行。请注意，使用“乐观”可能导致结果数据帧处于不一致状态，即：VectorVectorHint列应用于的元数据与该列的内容不匹配。用户应注意避免这种不一致的状态。
示例代码

import org.apache.spark.ml.feature.{VectorAssembler, VectorSizeHint}
import org.apache.spark.ml.linalg.Vectors

val dataset = spark.createDataFrame(
  Seq(
    (0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0),
    (0, 18, 1.0, Vectors.dense(0.0, 10.0), 0.0))
).toDF("id", "hour", "mobile", "userFeatures", "clicked")

val sizeHint = new VectorSizeHint()
  .setInputCol("userFeatures")
  .setHandleInvalid("skip")
  .setSize(3)

val datasetWithSize = sizeHint.transform(dataset)
println("Rows where 'userFeatures' is not the right size are filtered out")
datasetWithSize.show(false)

val assembler = new VectorAssembler()
  .setInputCols(Array("hour", "mobile", "userFeatures"))
  .setOutputCol("features")

// This dataframe can be used by downstream transformers as before
val output = assembler.transform(datasetWithSize)
println("Assembled columns 'hour', 'mobile', 'userFeatures' to vector column 'features'")
output.select("features", "clicked").show(false)

22)QuantileDiscretizer

QuantileDiscretizer接收具有连续特征的列，并输出具有合并分类特征的列。箱数由numBuckets参数设置。例如，如果输入的不同值太少而无法创建足够的不同分位数，则所使用的存储桶的数量可能会小于该值。
NaN值：在QuantileDiscretizer拟合期间，将从柱中除去NaN值。这将产生一个Bucketizer模型进行预测。在转换期间，Bucketizer在数据集中找到NaN值时将引发错误，但用户也可以通过设置handleInvalid选择保留还是删除数据集中的NaN值。如果用户选择保留NaN值，则将对其进行特殊处理并将其放入自己的存储桶中，例如，如果使用4个存储桶，则将非NaN数据放入存储桶[0-3]中，但NaN将被存储放在一个特殊的桶中[4]。
算法：bin范围是使用近似算法选择的（有关详细说明，请参见aboutQuantile的文档）。可以使用relativeError参数控制近似精度。设置为零时，将计算精确的分位数（注意：计算精确的分位数是一项昂贵的操作）。 bin的上下边界将是-Infinity和+ Infinity，覆盖所有实数值。

示例代码
有关该API的更多详细信息，请参考QuantileDiscretizer Scala文档。

import org.apache.spark.ml.feature.QuantileDiscretizer

val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))
val df = spark.createDataFrame(data).toDF("id", "hour")

val discretizer = new QuantileDiscretizer()
  .setInputCol("hour")
  .setOutputCol("result")
  .setNumBuckets(3)

val result = discretizer.fit(df).transform(df)
result.show(false)

23)Imputer

Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前，Imputer不支持分类特征，并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue（custom_value）插入“ NaN”以外的自定义值。例如，.setMissingValue（0）将估算所有出现的（0）。
请注意，输入列中的所有空值都被视为丢失，因此也会被估算。

示例代码

import org.apache.spark.ml.feature.Imputer

val df = spark.createDataFrame(Seq(
  (1.0, Double.NaN),
  (2.0, Double.NaN),
  (Double.NaN, 3.0),
  (4.0, 4.0),
  (5.0, 5.0)
)).toDF("a", "b")

val imputer = new Imputer()
  .setInputCols(Array("a", "b"))
  .setOutputCols(Array("out_a", "out_b"))

val model = imputer.fit(df)
model.transform(df).show()

Feature Selectors（特征选择器）

1)VectorSlicer

VectorSlicer是一个转换器可以将特征向量输出为一个新的原始特征的子序列的特征向量。当从一个向量列里面抽取特征时它是有用的。VectorSlicer接受具有指定索引的向量列，然后输出一个新的向量列，其值通过这些索引选择。
这里有两种索引，

整数索引可以将索引放入到向量中，setIndices()
字符索引可以将变量的名字放入到向量中，setNames()。这需要向量列具有AttributeGroup，因为这种操作匹配了Attribute的名字范围。

指定为整数和字符都可以接受。另外，你可以同时使用整数和字符索引，而且至少要选择一个特征。复制的特征将不会被允许，所以选择的索引和名字之间将不会有重合。注意如果特征的名字被选择了，则在遇到空的输入属性时将引发异常。输出的特征将会首先按照选中的索引进行排序（在给定的顺序下），然后是根据名字进行索引(在给定的名字下)。
例子：
假定我们有一个列为userFeatures的DataFrames：
Suppose that we have a DataFrame with the column userFeatures:

userFeatures是一个包含了三个用户特征的向量列。假定userFeatures的第一列都是零，所以我们想要去除它然后只选择后面的两列。VectorSlicer方法使用setIndices(1, 2) 选择了后面的两个元素然后产生了一个名为features的新的一列：

userFeatures	features
[0.0, 10.0, 0.5]	[10.0, 0.5]

假设我们可能也会在userFeatures里面发现可能的输入属性，例如 [“f1”, “f2”, “f3”]，那么我们将会使用setNames(“f2”, “f3”) 来选择他们。

userFeatures	features
[0.0, 10.0, 0.5]	[10.0, 0.5]
[“f1”, “f2”, “f3”]	[“f2”, “f3”]

import java.util.Arrays
import org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}
import org.apache.spark.ml.feature.VectorSlicer
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.StructType

val data = Arrays.asList(
  Row(Vectors.sparse(3, Seq((0, -2.0), (1, 2.3)))),
  Row(Vectors.dense(-2.0, 2.3, 0.0))
)

val defaultAttr = NumericAttribute.defaultAttr
val attrs = Array("f1", "f2", "f3").map(defaultAttr.withName)
val attrGroup = new AttributeGroup("userFeatures", attrs.asInstanceOf[Array[Attribute]])

val dataset = spark.createDataFrame(data, StructType(Array(attrGroup.toStructField())))

val slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")

slicer.setIndices(Array(1)).setNames(Array("f3"))
// or slicer.setIndices(Array(1, 2)), or slicer.setNames(Array("f2", "f3"))

val output = slicer.transform(dataset)
output.show(false)

2)RFormula

RFormula选择由R模型公式指定的列。当前，我们支持R操作符的有限子集，包括“〜”，“。”，“：”，“ +”和“-”。基本运算符为：

~ 目标和条款分开

concat术语，“ + 0”表示删除拦截

remove a term, “- 1” means removing intercept
: 交互（数字值或二进制分类值的乘法）
. 除目标外的所有列

假设a和b是双列，我们使用以下简单示例说明RFormula的效果：

y ~ a + b 表示模型y〜w0 + w1 * a + w2 * b，其中w0是截距，w1，w2是系数。
y ~ a + b + a:b - 1 表示模型y〜w1 * a + w2 * b + w3 * a * b其中w1，w2，w3是系数。

RFormula产生要素的向量列和标签的双列或字符串列。就像在R中使用公式进行线性回归时一样，数字列将转换为双精度。对于字符串输入列，将首先使用由stringOrderType确定的顺序使用StringIndexer对其进行转换，并删除排序后的最后一个类别，然后将对double进行一次热编码。
假设一个字符串要素列包含值{‘b’，‘a’，‘b’，‘a’，‘c’，‘b’}，我们设置stringOrderType来控制编码：

stringOrderType	Category mapped to 0 by StringIndexer	Category dropped by RFormula
‘frequencyDesc’	most frequent category (‘b’)	least frequent category (‘c’)
‘frequencyAsc’	least frequent category (‘c’)	most frequent category (‘b’)
‘alphabetDesc’	last alphabetical category (‘c’)	first alphabetical category (‘a’)
‘alphabetAsc’	first alphabetical category (‘a’)	last alphabetical category (‘c’)

如果标签列的类型为字符串，则将首先使用frequencyDesc顺序使用StringIndexer将其转换为double。如果DataFrame中不存在label列，则将从公式中指定的响应变量创建输出label列。
注意：排序选项stringOrderType不用于标签列。索引标签列后，它将使用StringIndexer中的默认降序频率排序。
例子
假设我们有一个带有ID，国家，小时和单击列的DataFrame：

id	country	hour	clicked
7	“US”	18	1.0
8	“CA”	12	0.0
9	“NZ”	15	0.0

如果我们将RFormula与带有单击的〜国家+小时的公式字符串一起使用，这表示我们要基于国家和小时来预测点击，则在转换之后，我们应该获得以下DataFrame：

id	country	hour	clicked	features	label
7	“US”	18	1.0	[0.0, 0.0, 18.0]	1.0
8	“CA”	12	0.0	[0.0, 1.0, 12.0]	0.0
9	“NZ”	15	0.0	[1.0, 0.0, 15.0]	0.0

import org.apache.spark.ml.feature.RFormula

val dataset = spark.createDataFrame(Seq(
  (7, "US", 18, 1.0),
  (8, "CA", 12, 0.0),
  (9, "NZ", 15, 0.0)
)).toDF("id", "country", "hour", "clicked")

val formula = new RFormula().setFormula("clicked ~ country + hour")
  .setFeaturesCol("features").setLabelCol("label")

val output = formula.fit(dataset).transform(dataset)
output.select("features", "label").show()

3)ChiSqSelector

ChiSqSelector代表Chi-Squared特征选择。它对具有分类特征的标记数据进行操作。 ChiSqSelector使用卡方独立性检验来决定选择哪些功能。它支持五种选择方法：numTopFeatures，percentile，fpr，fdr，fwe：

numTopFeatures根据卡方检验选择固定数量的顶部特征。这类似于产生具有最大预测能力的特征。
percentile与numTopFeatures相似，但选择所有功能的一部分而不是固定数量。
fpr 选择p值低于阈值的所有特征，从而控制选择的误报率。
fdr 使用Benjamini-Hochberg过程选择错误发现率低于阈值的所有特征。
fwe 选择p值低于阈值的所有特征。阈值按1 / numFeatures缩放，从而控制选择的家庭式错误率。默认情况下，选择方法是numTopFeatures，顶部要素的默认数量设置为50。用户可以使用setSelectorType选择选择方法。

例子：
假设我们有一个DataFrame，具有列ID，features和clicked，其中clicked是我们要预测的目标变量：

id	features	clicked
7	[0.0, 0.0, 18.0, 1.0]	1.0
8	[0.0, 1.0, 12.0, 0.0]	0.0
9	[1.0, 0.0, 15.0, 0.1]	0.0

如果我们使用ChiSqSelector并设定numTopFeatures=1，那么在最后一列的标签clicked作为特征将会被选中作为最有用的特征：

id	features	clicked	selectedFeatures
7	[0.0, 0.0, 18.0, 1.0]	1.0	[1.0]
8	[0.0, 1.0, 12.0, 0.0]	0.0	[0.0]
9	[1.0, 0.0, 15.0, 0.1]	0.0	[0.1]

import org.apache.spark.ml.feature.ChiSqSelector
import org.apache.spark.ml.linalg.Vectors

val data = Seq(
  (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0),
  (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0),
  (9, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0))

val df = spark.createDataset(data).toDF("id", "features", "clicked")

val selector = new ChiSqSelector()
  .setNumTopFeatures(1)
  .setFeaturesCol("features")
  .setLabelCol("clicked")
  .setOutputCol("selectedFeatures")

val result = selector.fit(df).transform(df)

println(s"ChiSqSelector output with top ${selector.getNumTopFeatures} features selected")
result.show()

Locality Sensitive Hashing

Locality Sensitive Hashing (LSH) 是一类重要的哈希技术，常用于聚类、近似最近邻居搜索和大数据的异常点探测。
LSH的基本观点是使用一族的函数(“LSH簇”)将数据点散列到存储桶中，这样彼此相近的点将有很高的概率被放入同一个桶里面，彼此距离很远的点将很有可能被放入到不同的桶里面。一个LSH簇被定义为如下：
在一个矩阵空间(M , d)中，M是一个集合，d是在M中的一个距离公式，一个LSH簇是一簇函数，满足如下的性质：

在Spark中，不用的LSH家族将会在分开的类别里面实施（例如：MinHash）并且在每一个类别里面会有不同的特征转换的API、近似相似连接和近似最近邻居。
在LSH中，我们定义一个false positive是一对遥远的输入特征(具有d(p,q)>2)，将会被散列到同一个桶中，并且我们定义一个false negative是一堆相近的特征(具有d(p,q)<=1)，将会被散列到不同的桶中。

1)LSH Operations

我们描述了LSH可以被使用的主要的操作。一个拟合好的模型将会有针对这些操作的方法
(1)Feature Transformation(特征转换)
特征转换是将哈希值添加为新列的基本功能。这对于减少尺寸很有用。用户可以通过设置inputCol和outputCol来指定输入和输出列的名称。
LSH还支持多个LSH哈希表。用户可以通过设置numHashTables来指定哈希表的数量。这也用于近似相似连接和近似最近邻中的OR放大。散列表的数量增加将提高准确性，但也会增加通信成本和运行时间。
outputCol的类型为Seq [Vector]，其中数组的维数等于numHashTables，向量的维数当前设置为1。在将来的版本中，我们将实现AND放大，以便用户可以指定这些向量的维数。

(2)Approximates Similarity Join(近似相似连接)
近似相似联接采用两个数据集，并近似返回数据集中距离小于用户定义阈值的行对。近似相似联接既支持联接两个不同的数据集，也支持自联接。自连接会产生一些重复的对。
近似相似性联接接受已转换和未转换的数据集作为输入。如果使用未转换的数据集，它将被自动转换。在这种情况下，哈希签名将创建为outputCol。
在合并的数据集中，可以在数据集A和数据集B中查询原始数据集。距离列将添加到输出数据集中，以显示返回的每对行之间的真实距离。

(3)Approximate Nearest Neighbor Search(近似最近邻居搜索)
近似最近邻居搜索采用（特征向量的）数据集和键（单个特征向量），并近似返回数据集中最接近向量的指定行数。
近似最近邻搜索将已转换和未转换的数据集都接受为输入。如果使用未转换的数据集，它将被自动转换。在这种情况下，哈希签名将创建为outputCol。
距离列将添加到输出数据集中，以显示每个输出行和搜索到的键之间的真实距离。
注意：如果哈希存储桶中没有足够的候选者，则近似最近邻居搜索将返回少于k行的结果。

2)LSH Algorithms

(1)Bucketed Random Projection for Euclidean Distance
Bucketed Random Projection是一个用于欧几里得距离的LBH簇，欧几里得距离定义如下：
它的LSH簇投影特征向量x到一个随机单位向量并且将预测结果分配到哈希桶中
其中r是一个自定义的桶长度。这个桶的长度同样可以被用于控制哈希桶的平均尺寸（因此也可以是这个桶的数量）。一个更大的桶长度（例如更少数量的哈希桶）会提升特征被散列到同一个哈希桶的可能性（提升true和false positives的数量）
桶状随机投影接受任意矢量作为输入特征，并支持稀疏矢量和密集矢量。

import org.apache.spark.ml.feature.BucketedRandomProjectionLSH
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.col

val dfA = spark.createDataFrame(Seq(
  (0, Vectors.dense(1.0, 1.0)),
  (1, Vectors.dense(1.0, -1.0)),
  (2, Vectors.dense(-1.0, -1.0)),
  (3, Vectors.dense(-1.0, 1.0))
)).toDF("id", "features")

val dfB = spark.createDataFrame(Seq(
  (4, Vectors.dense(1.0, 0.0)),
  (5, Vectors.dense(-1.0, 0.0)),
  (6, Vectors.dense(0.0, 1.0)),
  (7, Vectors.dense(0.0, -1.0))
)).toDF("id", "features")

val key = Vectors.dense(1.0, 0.0)

val brp = new BucketedRandomProjectionLSH()
  .setBucketLength(2.0)
  .setNumHashTables(3)
  .setInputCol("features")
  .setOutputCol("hashes")

val model = brp.fit(dfA)

// Feature Transformation
println("The hashed dataset where hashed values are stored in the column 'hashes':")
model.transform(dfA).show()

// Compute the locality sensitive hashes for the input rows, then perform approximate
// similarity join.
// We could avoid computing hashes by passing in the already-transformed dataset, e.g.
// `model.approxSimilarityJoin(transformedA, transformedB, 1.5)`
println("Approximately joining dfA and dfB on Euclidean distance smaller than 1.5:")
model.approxSimilarityJoin(dfA, dfB, 1.5, "EuclideanDistance")
  .select(col("datasetA.id").alias("idA"),
    col("datasetB.id").alias("idB"),
    col("EuclideanDistance")).show()

// Compute the locality sensitive hashes for the input rows, then perform approximate nearest
// neighbor search.
// We could avoid computing hashes by passing in the already-transformed dataset, e.g.
// `model.approxNearestNeighbors(transformedA, key, 2)`
println("Approximately searching dfA for 2 nearest neighbors of the key:")
model.approxNearestNeighbors(dfA, key, 2).show()

(2)Minhash for Jaccard Distance
MinHash是Jaccard距离的LSH系列，其中输入要素是自然数集。两组的Jaccard距离由其交集和并集的基数定义：

MinHash将随机哈希函数g应用于集合中的每个元素，并采用所有哈希值中的最小值：

MinHash的输入集表示为二进制向量，其中向量索引表示元素本身，向量中的非零值表示该元素在集合中的存在。虽然同时支持密集和稀疏向量，但通常建议使用稀疏向量以提高效率。例如，Vectors.sparse（10，Array [（2，1.0），（3，1.0），（5，1.0）]）表示空间中有10个元素。该集合包含elem 2，elem 3和elem5。所有非零值都被视为二进制“ 1”值。
注意：MinHash不能转换空集，这意味着任何输入向量必须至少具有1个非零条目。

import org.apache.spark.ml.feature.MinHashLSH
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.col

val dfA = spark.createDataFrame(Seq(
  (0, Vectors.sparse(6, Seq((0, 1.0), (1, 1.0), (2, 1.0)))),
  (1, Vectors.sparse(6, Seq((2, 1.0), (3, 1.0), (4, 1.0)))),
  (2, Vectors.sparse(6, Seq((0, 1.0), (2, 1.0), (4, 1.0))))
)).toDF("id", "features")

val dfB = spark.createDataFrame(Seq(
  (3, Vectors.sparse(6, Seq((1, 1.0), (3, 1.0), (5, 1.0)))),
  (4, Vectors.sparse(6, Seq((2, 1.0), (3, 1.0), (5, 1.0)))),
  (5, Vectors.sparse(6, Seq((1, 1.0), (2, 1.0), (4, 1.0))))
)).toDF("id", "features")

val key = Vectors.sparse(6, Seq((1, 1.0), (3, 1.0)))

val mh = new MinHashLSH()
  .setNumHashTables(5)
  .setInputCol("features")
  .setOutputCol("hashes")

val model = mh.fit(dfA)

// Feature Transformation
println("The hashed dataset where hashed values are stored in the column 'hashes':")
model.transform(dfA).show()

// Compute the locality sensitive hashes for the input rows, then perform approximate
// similarity join.
// We could avoid computing hashes by passing in the already-transformed dataset, e.g.
// `model.approxSimilarityJoin(transformedA, transformedB, 0.6)`
println("Approximately joining dfA and dfB on Jaccard distance smaller than 0.6:")
model.approxSimilarityJoin(dfA, dfB, 0.6, "JaccardDistance")
  .select(col("datasetA.id").alias("idA"),
    col("datasetB.id").alias("idB"),
    col("JaccardDistance")).show()

// Compute the locality sensitive hashes for the input rows, then perform approximate nearest
// neighbor search.
// We could avoid computing hashes by passing in the already-transformed dataset, e.g.
// `model.approxNearestNeighbors(transformedA, key, 2)`
// It may return less than 2 rows when not enough approximate near-neighbor candidates are
// found.
println("Approximately searching dfA for 2 nearest neighbors of the key:")
model.approxNearestNeighbors(dfA, key, 2).show()

你可能感兴趣的:(scala-MLlib官方文档)

CosyVoice安装过程详解菜Queen AIGC python
CosyVoice安装过程详解安装过程参考官方文档前情提要系统环境：Ubuntu22.04.1python环境：miniconda25.3.1git：2.34.1git-lfs:3.0.21.Clone代码$gitclone--recursivehttps://github.com/FunAudioLLM/CosyVoice.git#若是submodule下载失败，要先进入CosyVoice目录再
centos8.4使用本地yum源安装提示：Error: No available modular metadata for modular package 付兄 linux centos
安装modulemd-toolsmodulemd-tools安装和使用详细过程参考官方文档https://github.com/rpm-software-management/modulemd-tools。更换centos8.4yum源wget-O/etc/yum.repos.d/CentOS-Base.repohttps://mirrors.aliyun.com/repo/Centos-8.re
苹果UI 设计蒙小萌1993 ui cocoa macos
不同平台不同框架以下是对iOSUIKit核心组件（AppDelegate、UIWindow、UIViewController、UIView、UINavigationController）的深度解析，依据Apple官方文档的设计哲学和实现原理：核心组件关系与架构或者通常为点击手机应用图标UIApplicationAppDelegateUIWindowrootViewControllerUITable
微信小程序-自定义placeholder颜色和样式赵羽珩
自定义placeholder颜色和样式如图，这是微信小程序input组件的官方文档描述，下图红框里的placeholder-style和placeholder-class就是微信小程序里用来给placeholder设置样式的属性。
React Native打开相册选择图片或拍照 -- react-native-image-picker
官方文档：https://www.npmjs.com/package/react-native-image-picker场景：点击按钮打开相册选择图片或者点击按钮拍照import{launchCamera,launchImageLibrary}from'react-native-image-picker';//...{//调相册选择图片const{assets}=awaitlaunchImageL
UI 组件 | Button 测试开发小白变怪兽
最近在与其他自学CocosCreator的小伙伴们交流过程中，发现许多小伙伴对基础组件的应用并不是特别了解，自己在编写游戏的过程中也经常对某个属性或者方法的用法所困扰，而网上也没有比较清晰的用法讲解，所以准备对常用的UI组件常用用法进行一个总结，方便自己和其他小伙伴们查看，下面正文开始（注：属性介绍部分大部分内容我会取自官方文档）。Button（按钮）组件Button组件可以响应用户的点击操作，当
第三章【vue】基础（超详细） ᝰ落念英 javascript 开发语言 ecmascript vue.js 前端 web 前端框架
eslint安装npminstalleslint-D初始化npxeslint--initvueUse的应用安装npmi@vueuse/corevueuse官方文档(opensnewwindow)获取滚动距离import{useScroll}from"@vueuse/core";const{y}=useScroll(window);监听元素进入视口import{useIntersectionObse
第二篇 html5和css3开发基础与应用 ᝰ落念英 html5 css3 前端开发语言 web html css
第一章html5开发基础与应用第一节简介2014年10月28日，W3C组织公开发布HTML5标准规范。官方文档地址为：https://www.w3.org/TR/2014/REC-html5-20141028/HTML5.1文档地址：https://www.w3.org/TR/2015/WD-html51-20151008/HTML5.2文档地址：https://www.w3.org/TR/201
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
redis管道 -redis pipeline -redis pipelining shuair redis redis bootstrap 数据库
redis管道文档redis单机安装redis常用的五种数据类型redis数据类型-位图bitmapredis数据类型-基数统计HyperLogLogredis数据类型-地理空间GEOredis数据类型-流Streamredis数据类型-位域bitfieldredis持久化-RDBredis持久化-AOFredis持久化-RDB+AOF混合模式redis事务官方文档官网操作命令指南页面：https
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
spring揭秘31-spring任务调度02-spring集成任务执行与调度-spring官方文档
文章目录【README】【1】spring任务执行器（TaskExecutor）抽象【1.1】TaskExecutor实现类（执行器）【1.2】使用TaskExecutor代码实践【2】spring任务调度抽象(TaskScheduler)【2.1】Trigger触发器接口【2.1.1】Trigger实现类【2.2】任务调度器(TaskScheduler)实现【3】任务调度与任务异步执行的注解支持
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
MyBatis-Plus 使用wrapper自定义SQL
MyBatis-Plus使用wrapper自定义SQL，以下是单表查询。官方文档官方的例子：//mapper接口@Select("select*frommysql_data${ew.customSqlSegment}")ListgetAll(@Param(Constants.WRAPPER)Wrapperwrapper);//xmlListgetAll(Wrapperew);SELECT*FROM
SpringBoot快速集成RocketMQ大全，SpringBoot使用RocketMQ收发消息
文章目录一、写在前面二、发送消息三、接收消息1、push2、Pull模式四、事务消息五、消息轨迹六、ACL功能七、请求应答语义支持八、常见问题一、写在前面官方文档：https://github.com/apache/rocketmq-spring/wiki/%E7%94%A8%E6%88%B7%E6%89%8B%E5%86%8C引包：org.apache.rocketmqrocketmq-spri
面试必问的线程池原理与实战：从源码到应用全解析混进IT圈 Java 线程池面试多线程并发编程 Tomcat Netty
摘要：本文结合JDK官方文档、《Java并发编程实战》等权威资料，深入剖析线程池的核心原理，并通过电商、消息中间件等真实场景演示选型策略。全文包含20+代码示例、5大避坑指南，帮你轻松应对面试中的高频考点。一、线程池核心原理：从JDK源码到Tomcat扩展1.1JDK原生线程池的工作机制（附源码）JDK线程池的核心是ThreadPoolExecutor，其工作流程可概括为：//核心执行逻辑（简化版
Dify小白入门指南：通过官方文档学习工作流编排和API调用伟大无须多言学习 dify ai
Dify小白入门指南：通过官方文档学习工作流编排和API调用一、Dify平台简介与核心功能Dify是一个开源的LLM应用开发平台，被设计为一个"生成式AI应用创新引擎"，它提供了从Agent构建到AI工作流编排、RAG检索、模型管理等全方位能力，帮助用户轻松构建和运营生成式AI原生应用。作为一个强大的LLMOps平台，Dify已成为众多开发者构建AI应用的首选工具，尤其适合想要快速开发AI应用但缺
IntelliJ IDEA 2025.1.3 升级指南：比 2024.3.1.1 强在哪？这些功能太实用！码学弟时事新闻 intellij-idea java ide
最新版值不值得升级？深度对比两个版本，揭秘关键差异一、版本现状与升级背景作为Java开发者，我们每天都在与IntelliJIDEA打交道。当前官方最新版本已迭代至2025.1.3，而很多开发者仍停留在2024.3.1.1版本（2024.3的早期小版本）。那么问题来了：有必要立即升级吗？新版究竟带来了哪些实用改进？经过深度体验和官方文档分析，本文将对比2024.3.1.1与2025.1.3的核心差异
别再只用 text 了！深度揭秘 Element UI el-input 的 type 属性宝藏 ✨ 小丁学Java vue2 和 element-ui ui vue.js 前端
这是一篇关于ElementUI(ElementUI,一套为开发者、设计师和产品经理准备的基于Vue2.0的桌面端组件库)el-input组件type属性的深度解析技术博客，它结合了ElementUI官方文档和MDN(MDNWebDocs,一个汇集众多网络开发者资源的开源网站)的原生类型。别再只用text了！深度揭秘ElementUIel-input的type属性宝藏大家好！作为Vue开发者，el-
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
Flume到Kafka且均分到多个partition 小学僧来啦 Flume Kafka partition Flume
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录说明情况解决方法说明情况Flume向kafka发布数据时，发现kafka接收到的数据总是在一个partition中，而我们希望发布来的数据在所有的partition平均分布。应该怎么做呢？解决方法Flume的官方文档是这么说的：KafkaSinkusesthetopicandkey
crazyswarm无人机集群搭建笔记（一）资料索引 X_SWARM 无人机集群无人机笔记 stm32
前言为了开展无人机集群虚实结合任务调度算法测试，这次采购了crazyflie套件，本系列主要记录从零开始搭建crazyswarm集群的详细步骤。本节主要包含crazyflie安装调试主要参考的文章和教程。一、crazyflie安装使用基本资料1.Bitcraze官方网站（1）Bitcraze官方网站主页（2）Bitcraze官网安装教程（3）crazyswarm2官方文档（4）crazyswarm
个人总结 - LangChain4j应用（1）艾露z AI java langchain ai 人工智能
个人总结-LangChain4j应用（1）github：Releases·langchain4j/langchain4j·GitHub官方文档：Introduction|LangChain4j简要介绍：LangChain4j是一个旨在简化大语言模型（LLMs）与Java应用程序集成的框架。ChatandLanguageModels：LanguageModel：最简单的聊天模型，简单的接收字符串，不
在WPF中使用CommunityToolkit.Mvvm——（一）为什么使用CommunityToolkit.Mvvm 永远的久远 wpf
前言阅读我文章的同学可能已经发现了，我总是会在一个系列文章的第一篇抛出问题，为什么要用到这个技术。因为一些成熟的库和技术会给我们带来生产力大幅的提升，同时通过学习一些优秀的开源项目，对我们个人的能力提升也会有帮助。接下来我们一起来看一下MVVMToolkit能为我们带来哪些惊喜～～CommunityToolkit.Mvvm是什么微软的官方文档这样介绍的CommunityToolkit.Mvvm包（
深入对比四大主流 JavaScript 包管理器：npm、Yarn、pnpm、Bun 止观止前端 javascript npm yarn pnpm Bun
引言在现代前端与Node.js开发中，包管理器（PackageManager）是构建高效工作流的关键工具，直接影响项目的安装速度、磁盘空间占用和团队协作效率。npm、Yarn、pnpm和Bun作为主流JavaScript包管理器，各有优劣。本文将基于权威资料（如npm官方文档、Yarn官方文档、pnpm官方文档、Bun官方文档），从核心原理、性能表现、依赖管理等维度进行深度解析，帮助开发者根据项目
【弃】Selenium官方文档中文版元圆源
【找到官方中文文档，无须个人翻译，可用作参考相关链接】Seleniumg浏览器自动化项目Selenium浏览器自动化项目Selenium是一个涵盖了了一些列工具和库的总体项目，这些工具和库允许和支持网站浏览器的自动化。它提供了模拟用户和浏览器交互的扩展，一个扩展浏览器配置的分布式服务器，以及用于实现W3C(WorldWideWebConsotium万维网联盟)WebDriver规范的基础结构，该规
json学习路线
学习nlohmann/json这个项目有两种角度：⸻✅你想学哪种？我可以分别给你指引：学习角度你想学的是对应建议用户角度（日常使用）如何使用它来解析/生成JSON阅读官方文档+写小项目练练⚙️开发者角度（源码剖析）它是如何实现JSON的（模板、结构等）阅读源码+分析AST+阅读测试用例⸻一、用户角度（快速掌握使用json库）✅第一步：先看官方文档示例官网仓库就有清晰用法：https://githu
PHP 协程 SiegeLionQi PHP php 协程 yield
协程，又称微线程，纤程。英文名Coroutine。PHP官方文档的解释:生成器提供了一种更容易的方法来实现简单的对象迭代，相比较定义类实现Iterator接口的方式，性能开销和复杂性大大降低。生成器允许你在foreach代码块中写代码来迭代一组数据而不需要在内存中创建一个数组,那会使你的内存达到上限，或者会占据可观的处理时间。相反，你可以写一个生成器函数，就像一个普通的自定义函数一样,和普通函数只
学习虚幻C++开发日志——初识虚幻框架未来牛马之星学习虚幻C++开发日志学习虚幻 c++
1.虚幻引擎架构1.1虚幻引擎模块（Modules）官方文档：虚幻引擎模块|虚幻引擎5.4文档|EpicDeveloperCommunity(epicgames.com)模块（Modules）是虚幻引擎（UE）的软件架构的基本构建块。Module分为引擎模块,项目模块,插件模块.注意：1.要控制模块的加载方式和时间，请在.uproject或.uplugin文件中为你的模块添加配置信息。这包括模块的
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul