云祁

【Spark MLlib】（二）Spark MLlib 特征工程 - 提取、转换和选择

Spark MLlib 中关于特征处理的相关算法，大致分为以下几组：

提取(Extraction)：从“原始”数据中提取特征
转换(Transformation)：缩放，转换或修改特征
选择(Selection)：从较大的一组特征中选择一个子集
局部敏感哈希(Locality Sensitive Hashing，LSH)：这类算法将特征变换的各个方面与其他算法相结合。

文章目录

- 一、特征的提取
- - 1.1 TF-IDF
  - 1.2 Word2Vec
  - 1.3 CountVectorizer
  - 1.4 FeatureHasher
- 二、特征的变换
- - 2.1 Tokenizer（分词器）
  - 2.2 StopWordsRemover（去停用词）
  - 2.3 N-gram（N元模型）
  - 2.4 Binarizer（二值化）
  - 2.5 PCA（主元分析）
  - 2.6 PolynomialExpansion（多项式扩展）
  - 2.7 Discrete Cosine Transform（DCT离散余弦变换）
  - 2.8 StringIndexer（字符串-索引变换）
  - 2.9 IndexToString（索引-字符串变换）
  - 2.10 OneHotEncoder（独热编码）
  - 2.11 VectorIndexer（向量类型索引化）
  - 2.12 Interaction（相互作用）
  - 2.13 Normalizer（范数p-norm规范化）
  - 2.14 StandardScaler（标准化）
  - 2.15 MinMaxScaler（最大-最小规范化）
  - 2.16 MaxAbsScaler（绝对值规范化）
  - 2.17 VectorAssembler（特征向量合并）
  - 2.18 QuantileDiscretizer（分位数离散化）
  - 2.19 其他的几种变换
- 三、特征的选择
- - 3.1 VectorSlicer（向量切片机）
  - 3.2 RFormula（R模型公式）
  - 3.3 ChiSqSelector（卡方特征选择器）

一、特征的提取

1.1 TF-IDF

词频-逆文本频率(Term frequency-inverse document frequency, (TF-IDF)是在文本挖掘中广泛使用的特征向量化方法，以反映术语对语料库中的文档的重要性。用t表示一个术语，用d表示一个文件，用D表示语料库。词频TF(t，d)是术语t出现在文件d中的次数，而文档频率DF(t，D)是包含术语t的文件数量。如果我们仅使用词频来衡量重要性，那么过分强调经常出现但很少提供有关文档的信息的术语非常容易，例如： “a”，“the”和“of”。如果词语在语料库中经常出现，则表示它不包含有关特定文档的特殊信息。逆向文档频率是词语提供的信息量的数字度量：

其中|D|是语料库中的文档总数。由于使用了对数log，如果一个术语出现在所有文档中，其IDF值将变为0。请注意，应用平滑词语以避免语料库外的术语除以零。 TF-IDF指标只是TF和IDF的产物：

词频和文档频率的定义有几种变体。在MLlib中，我们将TF和IDF分开以使其灵活。

TF（词频）：HashingTF与CountVectorizer用于生成词频TF向量。HashingTF是一个特征词集的转换器（Transformer），它可以将这些集合转换成固定长度的特征向量。HashingTF利用hashingtrick，原始特征通过应用哈希函数映射到索引中。然后根据映射的索引计算词频。这种方法避免了计算全局特征词对索引映射的需要，这对于大型语料库来说可能是昂贵的，但是它具有潜在的哈希冲突，其中不同的原始特征可以在散列之后变成相同的特征词。为了减少碰撞的机会，我们可以增加目标特征维度，即哈希表的桶数。由于使用简单的模数将散列函数转换为列索引，建议使用两个幂作为特征维，否则不会将特征均匀地映射到列。默认功能维度为2^18=262144。可选的二进制切换参数控制词频计数。当设置为true时，所有非零频率计数设置为1。这对于模拟二进制而不是整数的离散概率模型尤其有用。
IDF（逆向文档频率）：IDF是一个适合数据集并生成IDFModel的评估器，IDFModel获取特征向量并缩放每列。直观地说，它下调了再语料库中频繁出现的列。

package sparkml
 
import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
import org.apache.spark.sql.SparkSession
 
object TFIDF {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("TFIDF")
      .master("local[*]")
      .getOrCreate()
 
    //通过代码的方式，设置Spark log4j的级别
    spark.sparkContext.setLogLevel("WARN")
 
    val sentenceData = spark.createDataFrame(Seq(
      (0.0, "Hi I heard about Spark"),
      (0.0, "I wish Java could use case classes"),
      (1.0, "Logistic regression models are neat")
    )).toDF("label", "sentence")
 
    val tokenizer = new Tokenizer()
      .setInputCol("sentence")
      .setOutputCol("words")
    val wordData = tokenizer.transform(sentenceData)
    wordData.show()
 
    val hashingTF = new HashingTF()
      .setInputCol("words")
      .setOutputCol("rawFeatures")
      .setNumFeatures(20)
    val featurizedData = hashingTF.transform(wordData)
    featurizedData.show()
 
    val idf = new IDF()
      .setInputCol("rawFeatures")
      .setOutputCol("features")
    val idfModel = idf.fit(featurizedData)
    val rescaledData = idfModel.transform(featurizedData)
    rescaledData.show()
  }
 
}

运行结果如下：

+-----+--------------------+--------------------+
|label|            sentence|               words|
+-----+--------------------+--------------------+
|  0.0|Hi I heard about ...|[hi, i, heard, ab...|
|  0.0|I wish Java could...|[i, wish, java, c...|
|  1.0|Logistic regressi...|[logistic, regres...|
+-----+--------------------+--------------------+
 
+-----+--------------------+--------------------+--------------------+
|label|            sentence|               words|         rawFeatures|
+-----+--------------------+--------------------+--------------------+
|  0.0|Hi I heard about ...|[hi, i, heard, ab...|(20,[0,5,9,17],[1...|
|  0.0|I wish Java could...|[i, wish, java, c...|(20,[2,7,9,13,15]...|
|  1.0|Logistic regressi...|[logistic, regres...|(20,[4,6,13,15,18...|
+-----+--------------------+--------------------+--------------------+
 
+-----+--------------------+--------------------+--------------------+--------------------+
|label|            sentence|               words|         rawFeatures|            features|
+-----+--------------------+--------------------+--------------------+--------------------+
|  0.0|Hi I heard about ...|[hi, i, heard, ab...|(20,[0,5,9,17],[1...|(20,[0,5,9,17],[0...|
|  0.0|I wish Java could...|[i, wish, java, c...|(20,[2,7,9,13,15]...|(20,[2,7,9,13,15]...|
|  1.0|Logistic regressi...|[logistic, regres...|(20,[4,6,13,15,18...|(20,[4,6,13,15,18...|
+-----+--------------------+--------------------+--------------------+--------------------+

1.2 Word2Vec

Word2Vec是一个Estimator，它采用代表文档的单词序列并训练Word2VecModel。该模型将每个单词映射到一个唯一的固定大小的向量。 Word2VecModel使用文档中所有单词的平均值将每个文档转换为向量; 然后，此向量可用作预测，文档相似度计算等功能。

举例

我们从一组文档开始，每个文档都表示为一系列单词。对于每个文档，我们将其转换为特征向量。然后可以将该特征向量传递给学习算法：

package sparkml
 
import org.apache.spark.ml.feature.Word2Vec
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.ml.linalg.Vector
 
object Word2vec {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Word2vec")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val documentDF = spark.createDataFrame(Seq(
      "Hi I heard about Spark".split(" "),
      "I wish Java could use case classes".split(" "),
      "Logistic regression models are neat".split(" ")
    ).map(Tuple1.apply)).toDF("text")
 
    val word2vec = new Word2Vec()
      .setInputCol("text")
      .setOutputCol("result")
      .setVectorSize(3)
      .setMinCount(0)
    val model = word2vec.fit(documentDF)
    val result = model.transform(documentDF)
    result.show(false)
    result.collect().foreach{
      case Row(text:Seq[_], features:Vector) =>
        println(s"Text: [${text.mkString(",")}] => \nVector: $features\n")
    }
  }
 
}

运行结果如下：

+------------------------------------------+----------------------------------------------------------------+
|text                                      |result                                                          |
+------------------------------------------+----------------------------------------------------------------+
|[Hi, I, heard, about, Spark]              |[-0.008142343163490296,0.02051363289356232,0.03255096450448036] |
|[I, wish, Java, could, use, case, classes]|[0.043090314205203734,0.035048123182994974,0.023512658663094044]|
|[Logistic, regression, models, are, neat] |[0.038572299480438235,-0.03250147425569594,-0.01552378609776497]|
+------------------------------------------+----------------------------------------------------------------+
 
Text: [Hi,I,heard,about,Spark] => 
Vector: [-0.008142343163490296,0.02051363289356232,0.03255096450448036]
 
Text: [I,wish,Java,could,use,case,classes] => 
Vector: [0.043090314205203734,0.035048123182994974,0.023512658663094044]
 
Text: [Logistic,regression,models,are,neat] => 
Vector: [0.038572299480438235,-0.03250147425569594,-0.01552378609776497]

1.3 CountVectorizer

CountVectorizer和CountVectorizerModel旨在帮助将文本文档集合转换为计数向量(vectors of token counts)。当a-priori字典不可用时，CountVectorizer可用作Estimator来提取词汇表，并生成CountVectorizerModel。该模型为词汇表上的文档生成稀疏表示，然后可以将其传递给其他算法，如LDA。

在拟合过程中，CountVectorizer将选择按语料库中的术语频率排序的顶级词汇量词。可选参数minDF还通过指定词语必须出现在文档中的最小数量（或<1.0）来影响拟合过程。另一个可选的二进制切换参数控制输出向量。如果设置为true，则所有非零计数都设置为1.这对于模拟二进制而非整数计数的离散概率模型尤其有用。

package sparkml
 
import org.apache.spark.ml.feature.{CountVectorizerModel, CountVectorizer}
import org.apache.spark.sql.SparkSession
 
object CountVectorizer {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("CountVectorizer")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val df = spark.createDataFrame(Seq(
      (0, Array("a", "b", "c")),
      (1, Array("a", "b", "b", "c", "a"))
    )).toDF("id", "words")
 
    val cvModel: CountVectorizerModel = new CountVectorizer()
      .setInputCol("words")
      .setOutputCol("features")
      .setVocabSize(3)
      .setMinDF(2)
      .fit(df)
 
    val cvm = new CountVectorizerModel(Array("a", "b", "c"))
      .setInputCol("words")
      .setOutputCol("features")
    cvModel.transform(df).show(false)
    cvm.transform(df).show(false)
  }
 
}

运行结果如下：

+---+---------------+-------------------------+
|id |words          |features                 |
+---+---------------+-------------------------+
|0  |[a, b, c]      |(3,[0,1,2],[1.0,1.0,1.0])|
|1  |[a, b, b, c, a]|(3,[0,1,2],[2.0,2.0,1.0])|
+---+---------------+-------------------------+
 
+---+---------------+-------------------------+
|id |words          |features                 |
+---+---------------+-------------------------+
|0  |[a, b, c]      |(3,[0,1,2],[1.0,1.0,1.0])|
|1  |[a, b, b, c, a]|(3,[0,1,2],[2.0,2.0,1.0])|
+---+---------------+-------------------------+

1.4 FeatureHasher

特征散列(Feature Hashing)将一组分类或数字特征映射到指定尺寸的特征向量中（通常远小于原始特征空间的特征向量）。这是使用散列技巧将要素映射到特征向量中的索引来完成的。

FeatureHasher转换器在多个特征上运行。每个特征可能是数值特征或分类特征。不同数据类型的处理方法如下：

数值特征：对于数值特征，特征名称的哈希值用于将值映射到向量中的索引。默认情况下，数值元素不被视为分类属性（即使它们是整数）。要将它们视为分类属性，请使用categoricalCols参数指定相关列。
字符串(属性)特征：对于属性特征，字符串“column_name = value”的哈希值用于映射到矢量索引，指示符值为1.0。因此，属性特征是“one-hot”编码的（类似于使用具有dropLast = false的OneHotEncoder）。
布尔特征：布尔值的处理方式与字符串特征相同。也就是说，布尔特征表示为“column_name = true”或“column_name = false”，指标值为1.0。

忽略空（缺失）值（在结果特征向量中隐式为零）。

这里使用的哈希函数也是HashingTF中使用的MurmurHash 3。由于散列值的简单模数用于确定向量索引，因此建议使用2的幂作为numFeatures参数;否则，特征将不会均匀地映射到矢量索引。

举例

假设我们有一个DataFrame，其中包含4个输入列real，bool，stringNum和string。这些不同的数据类型作为输入将说明变换的行为以产生一列特征向量。

real| bool|stringNum|string
----|-----|---------|------
 2.2| true|        1|   foo
 3.3|false|        2|   bar
 4.4|false|        3|   baz
 5.5|false|        4|   foo

训练过程示例：

# -*- coding: utf-8 -*-

"""
Describe:
        
"""
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.ml.feature import FeatureHasher


if __name__ == "__main__":
    spark = SparkSession\
        .builder\
        .appName("FeatureHasherExample")\
        .getOrCreate()

    dataset = spark.createDataFrame([
        (2.2, True, "1", "foo"),
        (3.3, False, "2", "bar"),
        (4.4, False, "3", "baz"),
        (5.5, False, "4", "foo")
    ], ["real", "bool", "stringNum", "string"])

    hasher = FeatureHasher(inputCols=["real", "bool", "stringNum", "string"],
                           outputCol="features")

    featurized = hasher.transform(dataset)
    featurized.show(truncate=False)

    spark.stop()

结果如下：

+----+-----+---------+------+--------------------------------------------------------+
|real|bool |stringNum|string|features                                                |
+----+-----+---------+------+--------------------------------------------------------+
|2.2 |true |1        |foo   |(262144,[174475,247670,257907,262126],[2.2,1.0,1.0,1.0])|
|3.3 |false|2        |bar   |(262144,[70644,89673,173866,174475],[1.0,1.0,1.0,3.3])  |
|4.4 |false|3        |baz   |(262144,[22406,70644,174475,187923],[1.0,1.0,4.4,1.0])  |
|5.5 |false|4        |foo   |(262144,[70644,101499,174475,257907],[1.0,1.0,5.5,1.0]) |
+----+-----+---------+------+--------------------------------------------------------+

二、特征的变换

2.1 Tokenizer（分词器）

Tokenization是将文本（如一个句子）拆分成单词的过程。（在Spark ML中）Tokenizer（分词器）提供此功能。RegexTokenizer 提供了（更高级的）基于正则表达式 (regex) 匹配的（对句子或文本的）单词拆分。默认情况下，参数"pattern"(默认的正则表达式: “\s+”) 作为分隔符用于拆分输入的文本。或者，用户可以将参数“gaps”设置为 false ，指定正则表达式"pattern"表示"tokens"，而不是分隔符，这样作为划分结果找到所有匹配项。

示例：

package sparkml
 
import org.apache.spark.ml.feature.{RegexTokenizer, Tokenizer}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
 
object Tokenizer {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Tokenizer")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val sentenceDataFrame = spark.createDataFrame(Seq(
      (0, "Hi I heard about Spark"),
      (1, "I wish Java could use case classes"),
      (2, "Logistic,regression,models,are,neat")
    )).toDF("id", "sentence")
 
    val tokenizer = new Tokenizer()
      .setInputCol("sentence")
      .setOutputCol("words")
    val regexTokenizer = new RegexTokenizer()
      .setInputCol("sentence")
      .setOutputCol("words")
      //.setPattern("\\w")//alternatively .setPattern("\\w+").setGaps(falsa)
 
    val countTokens = udf{(words: Seq[String]) => words.length}
    val tokenized = tokenizer.transform(sentenceDataFrame)
    tokenized.show(false)
 
    tokenized.select("sentence", "words")
      .withColumn("tokens", countTokens(col("words"))).show(false)
 
    val regexTokenized = regexTokenizer.transform(sentenceDataFrame)
    regexTokenized.select("sentence", "words")
      .withColumn("tokens", countTokens(col("words"))).show(false)
  }
 
}

运行结果如下：

+---+-----------------------------------+------------------------------------------+
|id |sentence                           |words                                     |
+---+-----------------------------------+------------------------------------------+
|0  |Hi I heard about Spark             |[hi, i, heard, about, spark]              |
|1  |I wish Java could use case classes |[i, wish, java, could, use, case, classes]|
|2  |Logistic,regression,models,are,neat|[logistic,regression,models,are,neat]     |
+---+-----------------------------------+------------------------------------------+
 
+-----------------------------------+------------------------------------------+------+
|sentence                           |words                                     |tokens|
+-----------------------------------+------------------------------------------+------+
|Hi I heard about Spark             |[hi, i, heard, about, spark]              |5     |
|I wish Java could use case classes |[i, wish, java, could, use, case, classes]|7     |
|Logistic,regression,models,are,neat|[logistic,regression,models,are,neat]     |1     |
+-----------------------------------+------------------------------------------+------+
 
+-----------------------------------+------------------------------------------+------+
|sentence                           |words                                     |tokens|
+-----------------------------------+------------------------------------------+------+
|Hi I heard about Spark             |[hi, i, heard, about, spark]              |5     |
|I wish Java could use case classes |[i, wish, java, could, use, case, classes]|7     |
|Logistic,regression,models,are,neat|[logistic,regression,models,are,neat]     |1     |
+-----------------------------------+------------------------------------------+------+

2.2 StopWordsRemover（去停用词）

Stop words（停用字）是在文档中频繁出现，但未携带太多意义的词语，它们不应该参与算法运算。

示例：

package sparkml
 
import org.apache.spark.ml.feature.StopWordsRemover
import org.apache.spark.sql.SparkSession
 
object StopWordsRemover {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("StopWordsRemover")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val dataset = spark.createDataFrame(Seq(
      (0, Seq("I", "saw", "the", "red", "baloon")),
      (1, Seq("Mary", "had", "a", "little", "lamb"))
    )).toDF("id", "raw")
 
    val remover = new StopWordsRemover()
      .setInputCol("raw")
      .setOutputCol("filtered")
 
    remover.transform(dataset).show()
  }
 
}

运行结果如下：

+---+--------------------+--------------------+
| id|                 raw|            filtered|
+---+--------------------+--------------------+
|  0|[I, saw, the, red...|  [saw, red, baloon]|
|  1|[Mary, had, a, li...|[Mary, little, lamb]|
+---+--------------------+--------------------+

2.3 N-gram（N元模型）

一个N-gram是一个长度为N（整数）的字的序列。NGram可用于将输入特征转换成N-grams。N-gram的输入为一系列的字符串，参数n表示每个N-gram中单词的数量。输出将由N-gram序列组成，其中每个N-gram由空格分割的n个连续词的字符串表示。如果输入的字符串序列少于n个单词，NGram输出为空。

package sparkml
 
import org.apache.spark.ml.feature.NGram
import org.apache.spark.sql.SparkSession
 
object Ngram {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Ngram")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val dataset = spark.createDataFrame(Seq(
      (0, Array("I", "saw", "the", "red", "baloon")),
      (1, Array("Mary", "had", "a", "little", "lamb")),
      (2, Array("xzw", "had", "as", "age", "qwe"))
    )).toDF("id", "words")
 
    val ngram = new NGram()
      .setN(2)
      .setInputCol("words")
      .setOutputCol("ngrams")
    val ngramDF = ngram.transform(dataset)
 
    ngramDF.select("ngrams").show(false)
  }
 
}

运行结果如下所示：

+----------------------------------------+
|ngrams                                  |
+----------------------------------------+
|[I saw, saw the, the red, red baloon]   |
|[Mary had, had a, a little, little lamb]|
|[xzw had, had as, as age, age qwe]      |
+----------------------------------------+

2.4 Binarizer（二值化）

Binarization是将数值特征阈值化为二进制特征的过程。

示例：

package sparkml
 
import org.apache.spark.ml.feature.Binarizer
import org.apache.spark.sql.SparkSession
 
object Binarizer {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Binarizer")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Array((0, 0.1), (1, 0.8), (2, 0.2))
    val dataFrame = spark.createDataFrame(data).toDF("id", "feature")
 
    val binarizer: Binarizer = new Binarizer()
      .setInputCol("feature")
      .setOutputCol("binarized_feature")
      .setThreshold(0.5)
    val binarizerDataFrame = binarizer.transform(dataFrame)
 
    println(s"Binarizer output with Threshold = ${binarizer.getThreshold}")
    binarizerDataFrame.show(false)
  }
 
}

运行结果如下：

Binarizer output with Threshold = 0.5
+---+-------+-----------------+
|id |feature|binarized_feature|
+---+-------+-----------------+
|0  |0.1    |0.0              |
|1  |0.8    |1.0              |
|2  |0.2    |0.0              |
+---+-------+-----------------+

2.5 PCA（主元分析）

PCA是使用正交变换将可能相关变量的一组观察值转换为主成分的线性不相关变量的值的一组统计过程。PCA类训练使用PCA将向量投影到低维空间的模型。

package sparkml
 
import org.apache.spark.ml.feature.PCA
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object PCA {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("PCA")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Array(
      Vectors.sparse(5, Seq((1, 1.0), (3, 7.0))),
      Vectors.dense(2.0, 0.0, 3.0, 4.0, 5.0),
      Vectors.dense(4.0, 0.0, 0.0, 6.0, 7.0)
    )
    val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
 
    val pca = new PCA()
      .setInputCol("features")
      .setOutputCol("pcafeatures")
      .setK(3)
      .fit(df)
 
    val result = pca.transform(df)
      .select("pcafeatures")
    result.show(false)
  }
 
}

运行结果如下：

+-----------------------------------------------------------+
|pcafeatures                                                |
+-----------------------------------------------------------+
|[1.6485728230883807,-4.013282700516296,-5.524543751369388] |
|[-4.645104331781534,-1.1167972663619026,-5.524543751369387]|
|[-6.428880535676489,-5.337951427775355,-5.524543751369389] |
+-----------------------------------------------------------+

2.6 PolynomialExpansion（多项式扩展）

多项式扩展是将特征扩展为多项式空间的过程，多项式空间由原始维度的n度组合而成。

package sparkml
 
import org.apache.spark.ml.feature.PolynomialExpansion
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object PolynomialExpansion {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("PolynomialExpansion")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Array(
      Vectors.dense(2.0, 1.0),
      Vectors.dense(0.0, 0.0),
      Vectors.dense(3.0, -1.0)
    )
    val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
 
    val polyExpansion = new PolynomialExpansion()
      .setInputCol("features")
      .setOutputCol("polyFeatures")
      .setDegree(3)
 
    val polyDF = polyExpansion.transform(df)
    polyDF.show(false)
  }
 
}

2.7 Discrete Cosine Transform（DCT离散余弦变换）

离散余弦变换是将时域的N维实数序列转换成频域的N维实数序列的过程，类似于离散的傅里叶变换。DCT类提供了离散余弦变换的功能，将离散余弦变换后结果乘以得到一个与时域矩阵长度一致的矩阵。没有偏移被应用于变换的序列，即输入序列与输出之间是一一对应的。

package sparkml
 
import org.apache.spark.ml.feature.DCT
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object DCT {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("DCT")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Array(
      Vectors.dense(0.0, 1.0, -2.0, 3.0),
      Vectors.dense(2.0, 0.0, 3.0, 4.0),
      Vectors.dense(4.0, 0.0, 0.0, 6.0)
    )
    val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
 
    val dct = new DCT()
      .setInputCol("features")
      .setOutputCol("featuresdct")
      .setInverse(false)
 
    val dctDF = dct.transform(df)
    dctDF.select("featuresdct").show(false)
  }
 
}

运行结果如下所示：

+----------------------------------------------------------------+
|featuresdct                                                     |
+----------------------------------------------------------------+
|[1.0,-1.1480502970952693,2.0000000000000004,-2.7716385975338604]|
|[4.5,-2.118357115095672,1.5000000000000002,1.418648347168368]   |
|[5.0,-1.3065629648763766,5.000000000000001,-0.5411961001461971] |
+----------------------------------------------------------------+

2.8 StringIndexer（字符串-索引变换）

StringIndexer（字符串-索引变换）将标签的字符串列编号改成标签索引列。标签索引序列的取值范围是[0，numLabels（字符串中所有出现的单词去掉重复的词后的总和）]，按照标签出现频率排序，出现最多的标签索引为0。如果输入是数值型，我们先将数值映射到字符串，再对字符串迕行索引化。如果下游的 pipeline（例如：Estimator 或者 Transformer）需要用到索引化后的标签序列，则需要将这个 pipeline 的输入列名字指定为索引化序列的名字。大部分情况下，通过setInputCol设置输入的列名。

2.9 IndexToString（索引-字符串变换）

与StringIndexer对应，IndexToString 将索引化标签还原成原始字符串。一个常用的场景是先通过 StringIndexer 产生索引化标签，然后使用索引化标签进行训练，最后再对预测结果使用IndexToString来获得其原始的标签字符串。

package sparkml
 
import org.apache.spark.ml.feature.{IndexToString, StringIndexer}
import org.apache.spark.sql.SparkSession
 
object StringToIndexer {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("StringToIndexer")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
    
    val df = spark.createDataFrame(Seq(
      (0, "a"),
      (1, "b"),
      (2, "c"),
      (3, "a"),
      (4, "a"),
      (5, "c")
    )).toDF("id", "category")
    
    //StringIndexer
    val indexer = new StringIndexer()
      .setInputCol("category")
      .setOutputCol("categoryIndex")
      .fit(df)
    val indexed = indexer.transform(df)
    indexed.show()
    
    //IndexToString
    val converter = new IndexToString()
      .setInputCol("categoryIndex")
      .setOutputCol("origCategory")
    val converted = converter.transform(indexed)
    converted.select("id", "categoryIndex", "origCategory").show()
  }
 
}

运行结果如下所示：

+---+--------+-------------+
| id|category|categoryIndex|
+---+--------+-------------+
|  0|       a|          0.0|
|  1|       b|          2.0|
|  2|       c|          1.0|
|  3|       a|          0.0|
|  4|       a|          0.0|
|  5|       c|          1.0|
+---+--------+-------------+
 
+---+-------------+------------+
| id|categoryIndex|origCategory|
+---+-------------+------------+
|  0|          0.0|           a|
|  1|          2.0|           b|
|  2|          1.0|           c|
|  3|          0.0|           a|
|  4|          0.0|           a|
|  5|          1.0|           c|
+---+-------------+------------+

2.10 OneHotEncoder（独热编码）

独热编码将一列标签索引映射到一列二进制向量，最多只有一个单值。该编码允许期望连续特征的算法使用分类特征。

package sparkml
 
import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer}
import org.apache.spark.sql.SparkSession
 
object OneHotEncoder {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("StringToIndexer")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val df = spark.createDataFrame(Seq(
      (0, "a"),
      (1, "b"),
      (2, "c"),
      (3, "a"),
      (4, "a"),
      (5, "c")
    )).toDF("id", "category")
 
    //StringIndexer
    val indexer = new StringIndexer()
      .setInputCol("category")
      .setOutputCol("categoryIndex")
      .fit(df)
    val indexed = indexer.transform(df)
    val encoder = new OneHotEncoder()
      .setInputCol("categoryIndex")
      .setOutputCol("categoryVec")
    val encoded = encoder.transform(indexed)
    encoded.show()
  }
 
}

运行结果如下：

+---+--------+-------------+-------------+
| id|category|categoryIndex|  categoryVec|
+---+--------+-------------+-------------+
|  0|       a|          0.0|(2,[0],[1.0])|
|  1|       b|          2.0|    (2,[],[])|
|  2|       c|          1.0|(2,[1],[1.0])|
|  3|       a|          0.0|(2,[0],[1.0])|
|  4|       a|          0.0|(2,[0],[1.0])|
|  5|       c|          1.0|(2,[1],[1.0])|
+---+--------+-------------+-------------+

2.11 VectorIndexer（向量类型索引化）

VectorIndexer是指定向量数据集中的分类（离散）特征。它可以自动确定哪些特征是离散的，并将原始值转换为离散索引。具体来说，它执行以下操作：取一个Vector类型的输入列和一个参数maxCategories；根据不同值的数量确定哪些特征是离散，其中最多maxCategories的功能被声明为分类；为每个分类功能计算基于0的类别索引；索引分类特征并将原始特征值转换为索引；索引分类功能允许诸如决策树和树组合之类的算法适当地处理分类特征，提高性能。

2.12 Interaction（相互作用）

交互是一个变换器，它采用向量或双值列，并生成一个单个向量列，其中包含来自每个输入列的一个值的所有组合的乘积。例如：你有2个向量类型的列，每个列具有3个维度作为输入列，那么你将获得一个9维向量作为输出列。

package sparkml
 
import org.apache.spark.ml.feature.{Interaction, VectorAssembler}
import org.apache.spark.sql.SparkSession
 
object Interaction {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Interaction")
      .master("local[*]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val df = spark.createDataFrame(Seq(
      (1, 1, 2, 3, 8, 4, 5),
      (2, 4, 3, 8, 7, 9, 8),
      (3, 6, 1, 9, 2, 3, 6),
      (4, 10, 8, 6, 9, 4, 5),
      (5, 9, 2, 7, 10, 7, 3),
      (6, 1, 1, 4, 2, 8, 4)
    )).toDF("id1", "id2", "id3", "id4", "id5", "id6", "id7")
    val assembler1 = new VectorAssembler()
      .setInputCols(Array("id2", "id3", "id4"))
      .setOutputCol("vec1")
    val assembled1 = assembler1.transform(df)
    val assembler2 = new VectorAssembler().
      setInputCols(Array("id5", "id6", "id7")).
      setOutputCol("vec2")
    val assembled2 = assembler2.transform(assembled1)
      .select("id1", "vec1", "vec2")
    val interaction = new Interaction()
      .setInputCols(Array("id1", "vec1", "vec2"))
      .setOutputCol("interactedCol")
 
    val interacted = interaction.transform(assembled2)
    interacted.show(truncate = false)
  }
 
}

运行结果如下：

+---+--------------+--------------+------------------------------------------------------+
|id1|vec1          |vec2          |interactedCol                                         |
+---+--------------+--------------+------------------------------------------------------+
|1  |[1.0,2.0,3.0] |[8.0,4.0,5.0] |[8.0,4.0,5.0,16.0,8.0,10.0,24.0,12.0,15.0]            |
|2  |[4.0,3.0,8.0] |[7.0,9.0,8.0] |[56.0,72.0,64.0,42.0,54.0,48.0,112.0,144.0,128.0]     |
|3  |[6.0,1.0,9.0] |[2.0,3.0,6.0] |[36.0,54.0,108.0,6.0,9.0,18.0,54.0,81.0,162.0]        |
|4  |[10.0,8.0,6.0]|[9.0,4.0,5.0] |[360.0,160.0,200.0,288.0,128.0,160.0,216.0,96.0,120.0]|
|5  |[9.0,2.0,7.0] |[10.0,7.0,3.0]|[450.0,315.0,135.0,100.0,70.0,30.0,350.0,245.0,105.0] |
|6  |[1.0,1.0,4.0] |[2.0,8.0,4.0] |[12.0,48.0,24.0,12.0,48.0,24.0,48.0,192.0,96.0]       |
+---+--------------+--------------+------------------------------------------------------+

2.13 Normalizer（范数p-norm规范化）

Normalizer是一个转换器，它可以将一组特征向量规划范，参数为p，默认值为2，p指定规范化中使用的p-norm。规范化操作可以使输入数据标准化，对后期机器学习算法的结果也有更好的表现。

package sparkml
 
import org.apache.spark.ml.feature.Normalizer
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object Norm {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("norm")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Seq(
      (0, Vectors.dense(0.0, 1.0, -2.0)),
      (1, Vectors.dense(2.0, 0.0, 3.0)),
      (2, Vectors.dense(4.0, 10.0, 2.0))
    )
    val df = spark.createDataFrame(data).toDF("id", "features")
 
    val normalizer = new Normalizer()
      .setInputCol("features")
      .setOutputCol("normFeatures")
      .setP(1.0)
    val l1NormData = normalizer.transform(df)
    l1NormData.show()
 
    val lInfNormData = normalizer.transform(df, normalizer.p -> Double.PositiveInfinity)
    lInfNormData.show()
  }
 
}

运行结果如下：

+---+--------------+--------------------+
| id|      features|        normFeatures|
+---+--------------+--------------------+
|  0|[0.0,1.0,-2.0]|[0.0,0.3333333333...|
|  1| [2.0,0.0,3.0]|       [0.4,0.0,0.6]|
|  2|[4.0,10.0,2.0]|  [0.25,0.625,0.125]|
+---+--------------+--------------------+
 
+---+--------------+--------------------+
| id|      features|        normFeatures|
+---+--------------+--------------------+
|  0|[0.0,1.0,-2.0]|      [0.0,0.5,-1.0]|
|  1| [2.0,0.0,3.0]|[0.66666666666666...|
|  2|[4.0,10.0,2.0]|       [0.4,1.0,0.2]|
+---+--------------+--------------------+

2.14 StandardScaler（标准化）

StandardScaler转换Vector行的数据集，使每个要素标准化以具有单位标准偏差和或零均值。它需要参数：
withStd：默认为True。将数据缩放到单位标准偏差。
withMean：默认为false。在缩放之前将数据中心为平均值。它将构建一个密集的输出，所以在应用于稀疏输入时要小心。
StandardScaler是一个Estimator，可以适合数据集生成StandardScalerModel; 还相当于计算汇总统计数据。然后，模型可以将数据集中的向量列转换为具有单位标准偏差和或零平均特征。
请注意，如果特征的标准偏差为零，它将在该特征的向量中返回默认的0.0值。

2.15 MinMaxScaler（最大-最小规范化）

MinMaxScaler转换Vector行的数据集，将每个要素重新映射到特定范围（通常为[0，1]）。它需要参数：
min：默认为0.0，转换后的下限。
max：默认为1.0，转换后的上限。
MinMaxScaler计算数据集的统计信息，并生成MinMaxScalerModel。然后，模型可以单独转换每个要素，使其在给定的范围内。
特征E的重新缩放值被计算为：

package sparkml
 
import org.apache.spark.ml.feature.MinMaxScaler
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object MinMaxScaler {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("MinMaxScaler")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Seq(
      (0, Vectors.dense(0.0, 1.0, -2.0)),
      (1, Vectors.dense(2.0, 0.0, 3.0)),
      (2, Vectors.dense(4.0, 10.0, 2.0))
    )
    val df = spark.createDataFrame(data).toDF("id", "features")
 
    val scaler = new MinMaxScaler()
      .setInputCol("features")
      .setOutputCol("scaledFeatures")
 
    val scalerModel = scaler.fit(df)
 
    val scaledData = scalerModel.transform(df)
    println(s"Features scaled to range: [${scaler.getMin}, ${scaler.getMax}]")
    scaledData.select("features", "scaledFeatures").show()
  }
 
}

运行代码如下：

Features scaled to range: [0.0, 1.0]
+--------------+--------------+
|      features|scaledFeatures|
+--------------+--------------+
|[0.0,1.0,-2.0]| [0.0,0.1,0.0]|
| [2.0,0.0,3.0]| [0.5,0.0,1.0]|
|[4.0,10.0,2.0]| [1.0,1.0,0.8]|
+--------------+--------------+

2.16 MaxAbsScaler（绝对值规范化）

MaxAbsScaler转换Vector行的数据集，通过划分每个要素中的最大绝对值，将每个要素的重新映射到范围[-1,1]。它不会使数据移动/居中，因此不会破坏任何稀疏性。MaxAbsScaler计算数据集的统计信息，并生成MaxAbsScalerModel。然后，模型可以将每个要素单独转换为范围[-1,1]。

package sparkml
 
import org.apache.spark.ml.feature.MaxAbsScaler
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object MaxAbsScaler {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("MaxAbsScaler")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Seq(
      (0, Vectors.dense(0.0, 1.0, -2.0)),
      (1, Vectors.dense(2.0, 0.0, 3.0)),
      (2, Vectors.dense(4.0, 10.0, 2.0))
    )
    val df = spark.createDataFrame(data).toDF("id", "features")
 
    val scaler = new MaxAbsScaler()
      .setInputCol("features")
      .setOutputCol("scaledFeatures")
 
    val scalerModel = scaler.fit(df)
    val scaledData = scalerModel.transform(df)
    scaledData.select("features", "scaledFeatures").show()
  }
 
}

运行结果如下：

+--------------+--------------------+
|      features|      scaledFeatures|
+--------------+--------------------+
|[0.0,1.0,-2.0]|[0.0,0.1,-0.66666...|
| [2.0,0.0,3.0]|       [0.5,0.0,1.0]|
|[4.0,10.0,2.0]|[1.0,1.0,0.666666...|
+--------------+--------------------+

2.17 VectorAssembler（特征向量合并）

VectorAssembler 是将给定的一系列的列合并到单个向量列中的 transformer。它可以将原始特征和不同特征transformers（转换器）生成的特征合并为单个特征向量，来训练ML模型,如逻辑回归和决策树等机器学习算法。VectorAssembler可接受以下的输入列类型：所有数值型、布尔类型、向量类型。输入列的值将按指定顺序依次添加到一个向量中。

package sparkml
 
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object VectorAssembler {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("VectorAssembler")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Seq(
      (0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0)
    )
    val df = spark.createDataFrame(data).toDF("id", "hour", "mobile", "userFeatures", "clicked")
 
    val assembler = new VectorAssembler()
      .setInputCols(Array("hour", "mobile", "userFeatures"))
      .setOutputCol("features")
 
    val output = assembler.transform(df)
    println(output.select("features", "clicked").first())
  }
 
}

运行结果如下：

[[18.0,1.0,0.0,10.0,0.5],1.0]

2.18 QuantileDiscretizer（分位数离散化）

QuantileDiscretizer（分位数离散化）采用具有连续特征的列，并输出具有分类特征的列。bin（分级）的数量由numBuckets 参数设置。buckets（区间数）有可能小于这个值，例如，如果输入的不同值太少，就无法创建足够的不同的quantiles（分位数）。

NaN values：在QuantileDiscretizer fitting时，NaN值会从列中移除，还将产生一个Bucketizer模型进行预测。在转换过程中，Bucketizer 会发出错误信息当在数据集中找到NaN值，但用户也可以通过设置handleInvalid来选择保留或删除数据集中的NaN值。如果用户选择保留NaN值，那么它们将被特别处理并放入自己的bucket（区间）中。例如，如果使用4个buckets（区间），那么非NaN数据将放入buckets[0-3]，NaN将计数在特殊的bucket[4]中。

Algorithm：使用近似算法来选择bin的范围。可以使用relativeError参数来控制近似的精度。当设置为零时，计算精确的quantiles（分位数）。

package sparkml
 
import org.apache.spark.ml.feature.QuantileDiscretizer
import org.apache.spark.sql.SparkSession
 
object QuantileDiscretizer {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("QuantileDiscretizer")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))
    var df = spark.createDataFrame(data).toDF("id", "hour")
 
    val discretizer = new QuantileDiscretizer()
      .setInputCol("hour")
      .setOutputCol("result")
      .setNumBuckets(3)
 
    val result = discretizer.fit(df)
      .transform(df)
    result.show()
  }
 
}

运行结果如下：

+---+----+------+
| id|hour|result|
+---+----+------+
|  0|18.0|   2.0|
|  1|19.0|   2.0|
|  2| 8.0|   1.0|
|  3| 5.0|   1.0|
|  4| 2.2|   0.0|
+---+----+------+

2.19 其他的几种变换

package sparkml
 
import org.apache.spark.ml.feature.SQLTransformer
import org.apache.spark.sql.SparkSession
 
object SQLTransformer {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("SQLTransformer")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val df = spark.createDataFrame(
      Seq((0, 1.0, 3.0), (2, 2.0, 5.0))).toDF("id", "v1", "v2")
    val sqlTrans = new SQLTransformer()
      .setStatement("SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__")
    sqlTrans.transform(df).show(false)
  }
 
}

+---+---+---+---+----+
|id |v1 |v2 |v3 |v4  |
+---+---+---+---+----+
|0  |1.0|3.0|4.0|3.0 |
|2  |2.0|5.0|7.0|10.0|
+---+---+---+---+----+

package sparkml
 
import org.apache.spark.ml.feature.Bucketizer
import org.apache.spark.sql.SparkSession
 
object Bucketizer {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Bucketizer")
      .master("local[*]")
      .getOrCreate()
    val splits = Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Double.PositiveInfinity)
 
    val data = Array(-999.9, -0.5, -0.3, 0.0, 0.2, 999.9)
    val dataFrame = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
 
    val bucketizer = new Bucketizer()
      .setInputCol("features")
      .setOutputCol("bucketedFeatures")
      .setSplits(splits)
 
    val bucketedData = bucketizer.transform(dataFrame)
 
    println(s"Bucketizer output with ${bucketizer.getSplits.length-1} buckets")
    bucketedData.show()
  }
 
}

Bucketizer output with 4 buckets
+--------+----------------+
|features|bucketedFeatures|
+--------+----------------+
|  -999.9|             0.0|
|    -0.5|             1.0|
|    -0.3|             1.0|
|     0.0|             2.0|
|     0.2|             2.0|
|   999.9|             3.0|
+--------+----------------+

package sparkml
 
import org.apache.spark.ml.feature.ElementwiseProduct
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object ElementwiseProduct {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Bucketizer")
      .master("local[*]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
 
    val dataFrame = spark.createDataFrame(Seq(
      ("a", Vectors.dense(1.0, 2.0, 3.0)),
      ("b", Vectors.dense(4.0, 5.0, 6.0)))).toDF("id", "vector")
    val transformingVector = Vectors.dense(0.0, 1.0, 2.0)
    val transformer = new ElementwiseProduct()
      .setScalingVec(transformingVector)
      .setInputCol("vector")
      .setOutputCol("transformedVector")
 
    transformer.transform(dataFrame).show(false)
  }
 
}

+---+-------------+-----------------+
|id |vector       |transformedVector|
+---+-------------+-----------------+
|a  |[1.0,2.0,3.0]|[0.0,2.0,6.0]    |
|b  |[4.0,5.0,6.0]|[0.0,5.0,12.0]   |
+---+-------------+-----------------+

三、特征的选择

3.1 VectorSlicer（向量切片机）

向量切片机是一个转换器，它采用特征向量，并输出一个新的特征向量与原始特征的子阵列。从向量列中提取特征很有用。向量切片机接受具有指定索引的向量列，然后输出一个新的向量列，其值通过这些索引进行选择。有两种类型的指数：代表向量中的索引的整数索引，setIndices()；表示向量中特征名称的字符串索引，setNames()，此类要求向量列有AttributeGroup，因为实现在Attribute的name字段上的匹配。

整数和字符串的规格都可以接受。此外，可以同时使用整数索引和字符串名称。必须至少选择一个特征。重复的功能是不允许的，所以选择的索引和名词之间不能有重叠。如果选择了功能的名称，则在遇到空的输入属性时会抛出异常。

package sparkml
 
import java.util
 
import org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}
import org.apache.spark.ml.feature.VectorSlicer
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.{Row, SparkSession}
 
object VectorSlicer {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("VectorSlicer")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = util.Arrays.asList(
      Row(Vectors.sparse(3, Seq((0, -2.0), (1, 2.3)))),
      Row(Vectors.dense(-2.0, 2.3, 0.0))
    )
    val defaultAttr = NumericAttribute.defaultAttr
    val attrs = Array("f1", "f2", "f3").map(defaultAttr.withName)
    val attrGroup = new AttributeGroup("userFeatures", attrs.asInstanceOf[Array[Attribute]])
    val dataset = spark.createDataFrame(data, StructType(Array(attrGroup.toStructField())))
    val slicer = new VectorSlicer()
      .setInputCol("userFeatures")
      .setOutputCol("features")
    slicer.setIndices(Array(1)).setNames(Array("f3"))
 
    val output = slicer.transform(dataset)
    output.show(false)
  }
 
}

+--------------------+-------------+
|userFeatures        |features     |
+--------------------+-------------+
|(3,[0,1],[-2.0,2.3])|(2,[0],[2.3])|
|[-2.0,2.3,0.0]      |[2.3,0.0]    |
+--------------------+-------------+

3.2 RFormula（R模型公式）

RFormula选择由R模型公式指定的列。目前，支持R运算符的有限子集，包括’_{’，’.’，’:’，‘+’以及’-’，基本操作如下：}分割目标和对象；+合并对象，“+0”表示删除截距；-删除对象，“-1”表示删除截距；:交互（数字乘法或二值化分类值）；.出了目标外的全部列。

package sparkml
 
import org.apache.spark.ml.feature.RFormula
import org.apache.spark.sql.SparkSession
 
object RFormula {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("RFormula")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val dataset = spark.createDataFrame(Seq(
      (7, "US", 18, 1.0),
      (8, "CA", 12, 0.0),
      (9, "NZ", 15, 0.0)
    )).toDF("id", "country", "hour", "clicked")
 
    val formula = new RFormula()
      .setFormula("clicked ~ country + hour")
      .setFeaturesCol("features")
      .setLabelCol("label")
 
    val output = formula.fit(dataset).transform(dataset)
    output.select("features", "label").show()
  }
 
}

运行结果如下：

+--------------+-----+
|      features|label|
+--------------+-----+
|[0.0,0.0,18.0]|  1.0|
|[1.0,0.0,12.0]|  0.0|
|[0.0,1.0,15.0]|  0.0|
+--------------+-----+

3.3 ChiSqSelector（卡方特征选择器）

ChiSqSelector代表卡方特征选择。它适用于带有类别特征的标签数据。ChiSqSelector使用卡方独立测试来决定选择哪些特征。它支持三种选择方法：numTopFeatures, percentile, fpr。
numTopFeatures根据卡方检验选择固定数量的顶级功能。返类似于产生具有最大预测能力的功能；
percentile类似于numTopFeatures，但选择所有功能的一部分，而不是固定数量；
fpr选择p值低于阈值的所有特征，从而控制选择的假阳性率。
默认情况下，选择方法是numTopFeatures，默认的顶级功能数量设置为50。用户可以使用setSelectorType选择一种选择方法。

package sparkml
 
import org.apache.spark.ml.feature.ChiSqSelector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
 
object ChiSqSelector {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("ChiSqSelector")
      .master("local[*]")
      .getOrCreate()
 
    spark.sparkContext.setLogLevel("WARN")
 
    val data = Seq(
      (7, Vectors.dense(0.0, 1.0, -2.0, 1.0), 1.0),
      (8, Vectors.dense(2.0, 0.0, 3.0, 0.0), 0.0),
      (9, Vectors.dense(4.0, 10.0, 2.0, 0.1), 0.0)
    )
    val df = spark.createDataFrame(data).toDF("id", "features", "clicked")
    val selector = new ChiSqSelector()
      .setNumTopFeatures(1)
      .setFeaturesCol("features")
      .setLabelCol("clicked")
      .setOutputCol("selectedFeatures")
    val result = selector.fit(df)
      .transform(df)
    println(s"ChiSqSelector output with top ${selector.getNumTopFeatures} features selected")
    result.show()
  }
 
}

运行结果如下：

ChiSqSelector output with top 1 features selected
+---+------------------+-------+----------------+
| id|          features|clicked|selectedFeatures|
+---+------------------+-------+----------------+
|  7|[0.0,1.0,-2.0,1.0]|    1.0|           [0.0]|
|  8| [2.0,0.0,3.0,0.0]|    0.0|           [2.0]|
|  9|[4.0,10.0,2.0,0.1]|    0.0|           [4.0]|
+---+------------------+-------+----------------+

你可能感兴趣的:(#,----,Spark,MLlib,机器学习)

图像处理篇---opencv中的图像特征 Ronin-Lotus 图像处理篇深度学习篇图像处理 opencv 人工智能 python
文章目录前言一、纹理特征：局部二值模式（LBP）1.LBP简介2.LBP计算步骤3.OpenCV实现4.优点5.缺点二、形状特征：Hu矩1.Hu矩简介2.Hu矩计算步骤3.OpenCV实现4.优点5.缺点三、其他可用于传统机器学习的特征1.颜色特征颜色直方图颜色矩2.边缘特征Canny边缘检测HOG（方向梯度直方图）3.关键点特征SIFTSURF4.纹理特征Haralick纹理特征5.几何特征轮廓
深度学习篇---Opencv中的机器学习和深度学习 Ronin-Lotus 深度学习篇图像处理篇深度学习 opencv 机器学习 python
文章目录前言一、OpenCV中的机器学习1.概述2.使用步骤步骤1：准备数据步骤2：创建模型步骤3：训练模型步骤4：预测3.优点简单易用轻量级实时性4.缺点特征依赖性能有限二、OpenCV中的深度学习1.概述图像分类（如ResNet、MobileNet）目标检测（如YOLO、SSD）语义分割（如DeepLab）人脸检测（如OpenFace）2.使用步骤步骤1：加载模型步骤2：准备输入数据步骤3：推
spark集群，kafka集群和zookeeper的docker集群快速搭建醉与浮 tools docker spark kafka
准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务，是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke
光学超表面的人工智能 Luis Li 的猫猫人工智能专区基础及拓展超表面设计人工智能机器学习算法
光学超表面，即能够控制光传播的平面人工介质，正在从实验室过渡到商业应用。这种转变需要先进的超结构和超表面设计，考虑可制造性并通过后处理算法提高光学性能。人工智能，尤其是机器学习的优化，为这些需求提供了解决方案。该文章系统地回顾了AI在三个关键领域的潜在影响：AI支持的超表面可制造性设计（DFM）、超越经典局部相位近似的设计以及AI赋能的计算后端。Introduction超表面是超材料的二维（2D）
DeepSeek这么火，一文教你本地部署DeepSeek! 入职啦 python python deepseek 部署持续部署 AI 人工智能
要说年假最火的是什么，DeepSeek绝对在话题榜上，公众号几乎都是关于他的，今天入职啦也来和大家聊一聊我们AI领域的新星–DeepSeek，顺便也教大家部署一套属于自己的本地搜索服务。为什么DeepSeek这么火？一、技术架构优势DeepSeek采用创新的混合模型架构，将传统机器学习与深度学习有机结合。这种架构既保留了传统方法的可解释性，又具备深度学习的强大表征能力。通过自适应学习机制，Deep
python程序员工资高吗？ lmseo5hy python培训 python程序员
据统计数据显示，北京Python平均薪资为18860元，Python不同岗位薪资范围为：Python全栈开发工程师（10k-20K）、Python运维开发工程师（15k-20K）、Python高级开发工程师（15k-30K）、Python大数据工程师（15K-30K）、Python机器学习工程师（15k-30K）、Python架构师（20k-40k）等，相比于Java、PHP、C#等其他的编程语言
#深度优化提示词模板：解锁DeepSeek R1终极潜力的系统方案领码科技 AI应用技能篇低代码提示词优化 DeepSeek R1 AI交互设计智能对话系统
摘要本文提出针对DeepSeekR1大模型的深度提示词优化体系，基于认知心理学原理与机器学习特征构建四维优化框架。通过解析模型工作机制、设计结构化模板、实战案例验证及进阶调优策略，形成覆盖基础到高阶的完整优化方案。研究显示优化后的提示词模板可使任务准确率提升40%，响应相关性提高55%。方案兼具理论深度与实践价值，为开发者提供可落地的优化指南。关键词：提示词优化、DeepSeekR1、AI交互设计
【Java】已解决java.lang.NoClassDefFoundError异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
介绍 TensorFlow 的基本概念和使用场景。大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
TensorFlow是一个由谷歌开发的开源机器学习框架，广泛应用于深度学习领域。它提供了一个灵活的平台，可以用于构建各种机器学习模型，包括神经网络。TensorFlow的基本概念和使用场景如下：张量（Tensor）：TensorFlow中的基本数据结构就是张量，可以简单理解为多维数组。张量可以是标量（0维张量）、向量（1维张量）、矩阵（2维张量）等。在TensorFlow中，所有数据都以张量的形式
Python爬取58同城广州房源+可视化分析 R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。消失了一段时间，这段时间在CSDN阅读了不少关于Python爬虫的文章，也学习了秦璐老师
深度学习中N维数组的介绍帅维维深度学习深度学习人工智能
N维数组是机器学习和神经网络的主要数据结构。下面是N维数组的实例：0维数组（标量）：通常表示一个类别。1维数组（向量）：通常表示一个特征向量。二维数组（矩阵）：通常表示一个样本--特征矩阵。三维矩阵：通常表示RGB图片（宽*高*通道）。四维矩阵：通常表示一个RGB图片批量（批量大小*宽*高*通道）。五维矩阵：通常表示一个视频批量（批量大小*时间*宽*高*通道）。
智能交通违章处理系统：AI赋能下的智慧交通解决方案 Echo_Wish Python 笔记 Python 算法人工智能
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Win7安装新版本anaconda出现Failed to extract packages解决方案爱编程的喵喵 Python基础课程 python anaconda win7 failed to extra
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Win7安装新版本anaconda出
大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化晴天彩虹雨大数据 spark big data
1.引言ApacheSpark是当前最流行的大数据计算框架之一，其中SparkSQL、DataFrame和RDD（ResilientDistributedDataset）是数据处理的三大核心API。如何优化Spark作业的性能，是大数据开发者必须掌握的关键技能。本文将深入探讨SparkSQL、DataFrame和RDD的性能优化方法，并结合实际案例进行分析。2.SparkSQL性能优化(1)使用P
机器学习在地图制图学中的应用地图模型炼丹师机器学习人工智能
原文链接：https://www.tandfonline.com/doi/full/10.1080/15230406.2023.2295948#abstractCSDN/2025/Machinelearningincartography.pdfatmain·keykeywu2048/CSDN·GitHub核心内容本文是《制图学与地理信息科学》特刊的扩展评论，系统探讨了机器学习（尤其是深度学习）在制
机器学习大纲总结 excellent121 机器学习人工智能
一、概念1.人工智能人工智能包含机器学习，机器学习包含深度学习2.机器学习机器学习是实现人工智能的一种途径机器学习=传统机器学习+深度学习3.深度学习深度学习是由机器学习的一种方法发展而来4.发展三要素数据、算法、算力5.发展史5.1符号主义（20世纪50-70）：专家系统占主导1950年：图灵设计国际象棋程序1962年：IBMArthurSamuel的跳棋程序战胜人类高手（人工智能第一次浪潮）5
机器学习入门知识十五境剑修机器学习人工智能
目录前言一、机器学习是什么？二、机器学习的基本类型1.监督学习2.无监督学习3.半监督学习4.强化学习三、机器学习的工作流程四、常见的机器学习算法五、机器学习的评价指标六、机器学习中的过拟合与欠拟合七、机器学习的应用八、学习机器学习的资源前言随着人工智能的发展，作为人工智能中的一个基础且重要的分支——机器学习也是愈发吸引大家来了解以及学习，那么在学习机器学习前，我们需要先来了解一下什么是机器学习，
【TVM 教程】使用元组输入（Tuple Inputs）进行计算和归约编译器编程后端人工智能深度学习
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：ZihengJiang若要在单个循环中计算具有相同shape的多个输出，或执行多个值的归约，例如argmax。这些问题可以通过元组输入来解决。本教程介绍了TVM中元组输入的用法。from__future__importabsolut
特征缩放：统一量纲，提高模型性能 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征缩放：统一量纲，提高模型性能1.背景介绍在机器学习和数据挖掘领域，我们经常会遇到不同特征之间量纲差异很大的情况。比如，一个数据集中可能包含年龄（0-100）、收入（0-100000）、身高（150-200cm）等不同尺度的特征。这种量纲不统一会给许多机器学习算法（如梯度下降）带来问题，导致收敛速度慢、模型性能差等。特征缩放（FeatureScaling）就是一种用于解决这个问题的常用数据预处理
Python 机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习算法链管道网格搜索
Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明目录Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明一、简单介绍二、算法链与管道1、算法链与管道的概念2、使用Pipeline的示例3、关键点说明三、用预处理进行参数选择四、构建管道五、在网格搜索中使用管道1、举例说
Kubeflow学习小高高不要bug 学习 kubernetes 大数据
Kubeflow学习介绍架构Kubeflow在ML工作流中的组件介绍Kubeflow致力于使在Kubernetes上部署机器学习工作流变得简单、可移植和可扩展。目标不是重新创建其他服务，而是提供一种直接的方式来将最佳的ML开源系统部署到不同的基础设施。在任何运行Kubenertes的地方，都应该能够运行Kubeflow。Kubeflow是Kubernetes的机器学习工具包。要使用Kubeflow
体育数据分析：竞技表现优化与商业价值挖掘的技术范式 Tina0898 数据分析数据挖掘
体育数据分析作为一门交叉学科，正在重塑现代体育产业的发展轨迹。通过多源数据采集、机器学习建模和商业智能分析，体育数据分析已经形成了完整的技术体系和应用生态。本文将深入探讨体育数据分析的技术架构、应用场景和商业价值。一、数据采集与处理技术架构现代体育数据采集系统采用分布式架构，集成了计算机视觉、惯性测量单元(IMU)和生物电传感器等多模态数据源。计算机视觉系统通过高速摄像机和深度学习算法，可实现运动
Django 中的算法应用与实现岱宗夫up 教学 sqlite 数据库 python django opencv
Django中的算法应用与实现在Django开发中，算法的应用可以极大地扩展Web应用的功能和性能。从简单的数据处理到复杂的机器学习模型，Django都可以作为一个强大的后端框架来支持这些算法的实现。本文将介绍几种常见的算法及其在Django中的使用方法。1\.协同过滤算法1.1算法简介协同过滤是一种常用的推荐系统算法，通过分析用户的行为数据（如评分、浏览历史等），为用户推荐他们可能感兴趣的内容。
特征工程 (Feature Engineering) AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征工程(FeatureEngineering)作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在机器学习和数据科学领域，特征工程（FeatureEngineering）一直是一个至关重要的环节。它指的是从原始数据中提取或构造出有助于模型学习的特征，从而提高模型预测准确性的过程。特征工程的成功与否，直接关系到模型性能的好坏
第0节机器学习与深度学习介绍汉堡go 李哥深度学习专栏人工智能机器学习神经网络
人工智能：能够感知、推理、行动和适应的程序机器学习：能够随着数据量的增加而不断改进性能的算法（数学上的可解释性但准确率不是百分百，灵活度不高）深度学习：机器学习的一个子集：利用多层神经网络从大量数据中进行学习（设计一个很深的网络架构让机器自己学）（深度学习就是找一个函数f）机器学习算法简介（狭义）一般是基于数学，或者统计学的方法，具有很强的可解释性经典传统机器学习算法：KNN、决策树、朴素贝叶斯一
awesome python 中文版相见恨晚！(pythonNB的第三方资源库) weixin_30788731
AwesomePython中文版来啦！原文链接：Python资源大全内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。GitHub-jobbole/awesome-python-cn:Python资源大全中文版环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单
【机器学习】决策树 ( Decision Tree ) AI天才研究院 ChatGPT DeepSeek R1 &大数据AI人工智能大模型深度学习实战机器学习决策树算法支持向量机人工智能
【机器学习】决策树(DecisionTree)文章目录【机器学习】决策树(DecisionTree)1.ID3(1)信息增益(2)ID3的算法流程(3)实现ID32.C4.53.CART(1)决策桩DecisionStump(2)回归CART：最小二乘回归树leastsquaresregressiontree⚪回归CART的例子(3)分类CART(4)处理缺失值Handlemissingfeatu
机器学习-随机森林解析 Mr终游机器学习机器学习随机森林人工智能
目录一、.随机森林的思想二、随机森林构建步骤1.自助采样2.特征随机选择3构建决策树4.集成预测三.随机森林的关键优势**(1)减少过拟合****(2)高效并行化****(3)特征重要性评估****(4)耐抗噪声**四.随机森林的优缺点优点缺点五.参数调优（以scikit-learn为例）波士顿房价预测一、.随机森林的思想1.通过组成多个弱学习器（决策树）形成一个学习器2.多样性增强：每颗决策树通
深度学习笔记——基础部分肆—— 深度学习深度学习笔记人工智能 python pytorch
深度学习是一种机器学习的方式，通过模仿人脑吃力信息的方式，使用多层神经网络来学习数据的复杂模式和特征。深度学习和机器学习的区别：在机器学习中，特征提取通常需要人工设计和选择，依赖于领域专家的知识来确定哪些特征对模型最为重要;而在深度学习中，特征提取是自动进行的，通过多层神经网络结构直接从原始数据(也可能需要初步处理)中学习复杂特征，减少了对人工干预的依赖，使得模型能够处理更加复杂的数据和任务。计算
机器学习基础（4） yyc_audio 深度学习 python 机器学习神经网络人工智能
超越基于常识的基准除了不同的评估方法，还应该利用基于常识的基准。训练深度学习模型就好比在平行世界里按下发射火箭的按钮，你听不到也看不到。你无法观察流形学习过程，它发生在数千维空间中，即使投影到三维空间中，你也无法解释它。唯一的反馈信号就是验证指标，就像隐形火箭的高度计。特别重要的是，我们需要知道火箭是否离开了地面。发射地点的海拔高度是多少？模型似乎有15%的精度——这算是很好吗？在开始处理一个数据
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class