如何原谅奋力过但无声

【8章】Spark编程基础(Python版)

课程资源：（林子雨）Spark编程基础(Python版)_哔哩哔哩_bilibili

第8章 Spark MLlib（6节）

机器学习算法库

（一）MLlib简介

1、机器学习

机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，优化计算机程序的性能标准。强调三个关键词：算法、经验、性能

模型：用数据对算法进行训练后得到的
算法：区别于模型

（1）传统机器学习算法

由于技术和单机存储的限制，只能在少量数据上使用，依赖于数据抽样

（2）Spark机器学习

大数据技术的出现可以支持在全量数据上进行机器学习

使用MapReduce对机器学习算法进行编写：MapReduce是基于磁盘的计算框架，机器学习算法涉及大量迭代计算，涉及反复读写磁盘的开销，有磁盘IO开销比较大的缺陷
而Spark是基于内存的计算框架，由于DAG机制避免频繁读写磁盘开销，适合大量迭代计算

2、MLlib-机器学习库

（1）简介

提供了常用机器学习算法的分布式实现。且PySpark的即席查询也是一个关键，算法工程师边写代码、边运行、边看结果

不是所有的机器学习算法都能用在Spark中，有的算法无法做成并行

MLlib中只包含能够在集群上运行良好的并行算法，有些经典的机器学习算法没有包含在其中，因为它们不能并行执行
相反地，一些较新研究得出的算法因为适用于集群，也被包含在MLlib中，例如分布式随机森林算法、最小交替二乘算法。这样的选择使得MLlib中的每一个算法都适用于大规模数据集
如果是小规模数据集上训练各机器学习模型，最好还是在各个节点上使用单节点的机器学习算法库（比如Weka）

（2）内容

MLlib是Spark机器学习库，旨在简化机器学习的工程实践工作

算法工具：分类、回归、聚类、协同过滤
特征化工具：特征提取、转换、降维、选择
流水线（Pineline）工具：构建+评估，调整机器学习工作流
持久性：保存、加载算法、模型、管道
实用性工具：线性代数、统计、数据处理

（3）与 spark.ml 的区别

是机器学习库不同的包

spark.mllib 是基于RDD的数据抽象，包含基于RDD的原始算法API。在1.0以前的版本已经包含，提供的算法实现都是基于原始RDD
spark.ml 是基于DataFrame的数据抽象，提供基于DataFrame高层次的API，可以用来构建机器学习工作流Pipeline（与Spark SQL完美融合），弥补了原始mllib库的不足，向用户提供了一个基于DataFrame的机器学习工作流式API套件

（二）机器学习流水线

1、概念

（1）DataFrame：结构化数据封装

使用Spark SQL中的DataFrame作为数据集，可以容纳各种数据类型。较之RDD，DataFrame包含了schema信息，更类似传统数据库中的二维表格。它被ML Pipeline用来存储源数据，例如，DataFrame中的列可以是存储的文本、特征向量、真实标签和预测标签等

（2）转换器：Transformer

将一个DataFrame转换为另一个DataFrame。比如一个模型就是一个Transformer，它可以把一个不包含预测标签的测试数据集DataFrame打上标签，转换成另一个包含预测标签的DataFrame。技术上，Transformer实现了一个方法 transform()，它通过附加一个或多个列，将一个DataFrame转换为另一个DataFrame

（3）评估器（算法）：Estimator

用数据对评估器训练得到模型，调用 .fit(DataFrame) 即可。它是学习算法或在训练数据上的训练方法的概念抽象，在Pipeline里通常是被用来操作DataFrame数据并生成一个Transformer。从技术上，Estimator实现了一个方法fit()，它接收一个DataFrame并产生一个转换器。比如，一个随机森林算法就是一个Estimator，它可以调用fit()，通过训练特征数据得到一个随机森林模型

（4）参数：Parameter

被用来设置Transformer或Estimator的参数。所有转换器和评估器可共享用于指定参数的公共API。ParamMap是一组 (参数, 值) 对

（5）流水线/管道：PipeLine

将多个工作流阶段（即转换器和评估器）连接起来形成机器学习工作流并获得输出结果

2、构建

定义Pipeline中的各个流水线阶段PipelineStage（包含转换器、评估器）
按照处理逻辑，转换器和评估器有序地组织起来构建成Pipeline

把训练数据集作为输入参数，调用fit()方法，返回一个PipelineModel类实例，输出被用来预测测试数据的标签

pipeline = Pipeline(stages = [stage1, stage2, stage3])

流水线各阶段运行，输入的DataFrame在它通过每个阶段时被转换：

Tokenizer：分词
HashingTF：把单词转换为特征向量

一个流水线，若一开始就包含了算法或评估器，那么它整体就是评估器，就可以调用 .fit() 对流水线进行训练，得到流水线模型PipelineModel。即：流水线本身也可以看做是一个评估器，在流水线的fit()方法运行之后，它产生一个PipelineModel，是一个Transformer，这个管道模型将在测试数据的时候使用

3、逻辑斯蒂回归案例

任务：查找所有包含Spark的句子，1即包含Spark，0即没有包含Spark

使用SparkSession对象（Spark2.0以上版本，PySpark在启动时会自动创建名为spark的SparkSession对象；但在编写独立代码时需自己生成）

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("WordCount").master("local").getOrCreate()
# SparkSession由其伴生对象的builder()方法创建

pyspark.ml 依赖numpy包，Ubuntu自带Python3是没有numpy的，执行命令安装：sudo pip3 install numpy

（1）引入要包含的包并构建训练数据集

from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import HashingTF, Tokenizer
from pyspark.ml import Pipeline

training = spark.createDataFrame([(0, "a b c d e spark", 1.0)
                                  ,(1, "b d", 0.0)
                                  ,(2, "spark f g h", 1.0)
                                  ,(3, "hadoop mapreduce", 0.0)],
                                 ["id", "text", "label"]
                                )

（2）定义Pipeline中各个流水线阶段PipelineStage

每个阶段是一个评估器或转换器

只要有评估器存在，整个流水线就是一个评估器，故可以调用fit()方法训练

tokenizer = Tokenizer(inputCol="text", outputCol="words")  # 分词器，words列是新生成的，会追加到DataFrame中
hashingTF = HashingTF(inputCol=tokenizer.getOutputCol(), outputCol="features")
lr = LogisticRegression(maxIter=10, regParam=0.001)

（3）按照处理逻辑有序地组织PipelineStage，创建Pipeline

pipline = Pipeline(stages=[tokenizer, hashingTF, lr])  # 现在构建的Pipeline本质上是一个estimator，在它的fit()方法运行后，将产生一个PipelineModel，它是一个Transformer
model = pipline.fit(training)  # model类型是一个PipelineModel，这个流水线模型将在测试数据的时候使用

（4）构建测试数据

test = spark.createDataFrame([(4, "spark i j k")
                              ,(5, "l m n")
                              ,(6, "spark hadoop spark")
                              ,(7, "apache hadoop")]
                             , ["id", "text"]   # 不包含label列
                            )

（5）生成预测结果

prediction = model.transform(test)
selected  = prediction.select("id", "text", "probability", "prediction")   # probability属于0/1的概率

for row in selected.collect():
    rid, text, prob, prediction = row
    # %d代表int占位符，%s代表字符串占位符，%f代表浮点数占位符
    print("(%d, %s) --> prob=%s, prediction=%f" % (rid, text, str(prob), prediction))

（三）特征抽取：TF-IDF

1、TF-IDF（词频-逆向文件频率）

文本挖掘中使用的特征向量化方法，体现一个文档中的词语在语料库中的重要程度

在Spark中，TF-IDF被分为两个部分：

TF（转换器）：HashingTF（哈希）。接收词条的集合，把这些集合转化成固定长度的特征向量，这个算法在哈希的同时会统计各个词条的词频
IDF（评估器）：在一个数据集上应用 fit() 方法，产生一个IDFModel。该IDFModel接收特征向量（由HashingTF产生），计算每一个词在文档中出现的频次。IDF会减少那些在语料库中出现频率较高的词的权重（因为这些词的区分度低，不重要）

2、代码

从一组句子开始，首先使用分词器Tokenizer把句子划分为单个词语，对每一个句子（词袋）使用HashingTF将句子转换为特征向量，最后使用IDF重新调整特征向量，以体现每个单词真正的重要性

# 导入TF-IDF所需包
from pyspark.ml.feature import HashingTF, IDF, Tokenizer

# 创建一个DataFrame，每一个句子代表一个文档
sentenceData = spark.createDataFrame([(0, "I heard about Spark and I love Spark")
                                      ,(0, "I wish Java could use case classes")
                                      ,(1, "Logistic regression models are neat")
                                     ]).toDF("label", "sentence")

# 得到文档集合后即可用tokenizer对句子进行分词
tokenizer = Tokenizer(inputCol="sentence", outputCol="words")
wordsData = tokenizer.transform(sentenceData)  # 转换后新增一列words，为分词结果
wordsData.show()

+-----+--------------------+--------------------+
|label|            sentence|               words|
+-----+--------------------+--------------------+
|    0|I heard about Spa...|[i, heard, about,...|
|    0|I wish Java could...|[i, wish, java, c...|
|    1|Logistic regressi...|[logistic, regres...|
+-----+--------------------+--------------------+

每次转换 .transform() 就会不断增加新的列

# 使用HashingTF的transform()把句子哈希成特征向量
hashingTF = HashingTF(inputCol="words", outputCol="rawfeatures", numFeatures=2000)   # 设置哈希表的桶数为2000
featurizedData = hashingTF.transform(wordsData)
featurizedData.select("words", "rawfeatures").show(truncate = False)

+---------------------------------------------+---------------------------------------------------------------------+
|words                                        |rawfeatures                                                          |
+---------------------------------------------+---------------------------------------------------------------------+
|[i, heard, about, spark, and, i, love, spark]|(2000,[240,673,891,956,1286,1756],[1.0,1.0,1.0,1.0,2.0,2.0])         |
|[i, wish, java, could, use, case, classes]   |(2000,[80,342,495,1133,1307,1756,1967],[1.0,1.0,1.0,1.0,1.0,1.0,1.0])|
|[logistic, regression, models, are, neat]    |(2000,[286,763,1059,1604,1871],[1.0,1.0,1.0,1.0,1.0])                |
+---------------------------------------------+---------------------------------------------------------------------+

(2000,[240,673,891,956,1286,1756],[1.0,1.0,1.0,1.0,2.0,2.0])

2000个哈希桶
240表示单词i被扔到了第240个哈希桶
1.0表示对应单词的出现次数

# 使用IDF评估器来对单纯的词频特征向量进行构造
idf = IDF(inputCol="rawfeatures", outputCol="features")
idfModel = idf.fit(featurizedData)   # 对评估器进行训练

# 调用IDFModel的transform()方法调权重
rescaledData = idfModel.transform(featurizedData)
rescaledData.select("features", "label").show(truncate = False)

（四）特征转换：Word2Vec（标签和索引的转换）

在机器学习处理过程中，为了方便相关算法的实现，经常需要把标签数据（一般是字符串）转换为整数索引，或是在计算结束后将整数索引还原为相应的标签

Spark ML包提供了几个相关的转换器，如：StringIndexer、IndexToString、OneHotEncoder、VectorIndexer，它们提供了十分方便的特征转换功能，这些转换器类都位于org.apache.spark.ml.feature包下

用于特征转换的转换器和其他机器学习算法一样，也属于ML Pipeline模型的一部分，可以用来构建机器学习流水线。以StringIndexer为例，其存储着进行标签数值化过程的相关超参数，是一个Estimator，对其调用fit()方法即可生成相应的模型StringIndexerModel类。很显然，它存储了用于DataFrame进行相关处理的参数，是一个Transformer（其他转换器也是同一原理）

1、StringIndexer

可以把一列类别型特征（或标签）进行编码，使其数值化。索引的范围从0开始，该过程可以使相应的特征索引化，使得某些无法接受类别型特征的算法可以使用，并提高诸如决策树等机器学习算法的效率

索引构建的顺序为标签的频率，优先编码频率较大的标签，所以出现频率最高的标签为0号
如果输入数值型的，会先把它转化成字符型，再对其进行编码

from pyspark.ml.feature import StringIndexer

# 构建DataFrame，设置StringIndexer的输入列和输出列
df = spark.createDataFrame([(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")]
                           ,["id", "category"]
                          )

# 构建转换器，字符串类型转为整型
indexer = StringIndexer(inputCol="category", outputCol="categoryIndex")

# 通过fit()进行模型训练，用训练出的模型对原数据集进行处理
model = indexer.fit(df)
indexed = model.transform(df)
indexed.show()   # 频率最高的会被转化为0

+---+--------+--------------+
| id|category| categoryIndex|
+---+--------+--------------+
|  0|       a|           0.0|
|  1|       b|           2.0|
|  2|       c|           1.0|
|  3|       a|           0.0|
|  4|       a|           0.0|
|  5|       c|           1.0|
+---+--------+--------------+
a出现3次，故为0.0
c出现2次，故为1.0
b出现1次，故为2.0

2、IndexToString（与 StringIndexer 相反）

把标签索引的一列重新映射回原有的字符型标签。其主要使用场景一般都是和 StringIndexer 配合，先用StringIndexer将标签转换成标签索引，进行模型训练，然后在预测标签时再把标签索引转换成原有的字符标签

from pyspark.ml.feature import IndexToString, StringIndexer

toString = IndexToString(inputCol="categoryIndex", outputCol="originalCategory")
indexString = toString.transform(indexed)
indexString.select("id", "originalCategory").show()

+---+----------------+
| id|originalCategory|
+---+----------------+
|  0|               a|       
|  1|               b|         
|  2|               c|           
|  3|               a|          
|  4|               a|         
|  5|               c|         
+---+----------------+

3、VectorIndexer

之前介绍的 StringIndexer 是针对单个类别型特征进行转换。倘若所有特征都已经被组织在一个向量中，又想对其中某些单个分量进行处理时，Spark ML提供了 VectorIndexer类来解决向量数据集中的类别型特征转换。通过为其提供 maxCategories 超参数，它可以自动识别哪些特征是类别型并将原始值转换为类别索引。它基于不同特征值的数量来识别哪些特征需要被类别化，那些取值可能性最多不超过 maxCategories 的特征会被认为是类别型

from pyspark.ml.feature import VectorIndexer
from pyspark.ml.linalg import Vector, Vectors

# 每一个vector是一个样本的特征向量，纵向编码
df = spark.createDataFrame([(Vectors.dense(-1.0, 1.0, 1.0),)
                            , (Vectors.dense(-1.0, 3.0, 1.0),)
                            , (Vectors.dense(0.0, 5.0, 1.0), )]
                           , ["features"]
                          )

# 构建VectorIndexer转换器，设置输入输出列，并进行模型训练
indexer = VectorIndexer(maxCategories=2, inputCol="features", outputCol="indexed")  # maxCategories表示超过此值后，不进行类别编码
indexerModel = indexer.fit(df)

# 通过categoryMaps成员来获得被转换的特征及其映射
categoricalFeatures = indexerModel.categoryMaps.keys()
print("Choose" + str(len(categoricalFeatures)) + "categorical features:" + str(categoricalFeatures))   # Choose 2 categorical features:[0,2]

# 把模型应用于原有数据，并打印结果
indexed = indexerModel.transform(df)
indexed.show()

+--------------+-------------+
|      features|      indexed|
+--------------+-------------+
|[-1.0,1.0,1.0]|[1.0,1.0,0.0]|    
|[-1.0,3.0,1.0]|[1.0,3.0,0.0]|
| [0.0,5.0,1.0]|[0.0,5.0,0.0]|
+--------------+-------------+

# 第一列 [-1.0,-1.0,0.0]  不同值个数为2个＝2，类别型特征，转换
# 第二列 [1.0,3.0,5.0]  不同值个数为3个＞2，不转换
# 第三列 [1.0,1.0,1.0]  不同值个数为1个＜2，类别型特征，转换

（五）逻辑斯蒂回归分类器

逻辑斯蒂回归（Logistic Regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的

1、iris数据集介绍

https://dblab.xmu.edu.cn/blog/wp-content/uploads/2017/03/iris.txt

iris 以鸢尾花的特征作为数据来源，数据集包含150个数据，分为3类，每类50个数据，每个数据包含4个属性，是在数据挖掘、数据分类中常用的训练集测试集

2、iris数据集分类实例

（1）导入需要的包

# 1 导入需要的包
from pyspark.ml.linalg import Vector, Vectors
from pyspark.sql import Row, functions
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml import Pipeline
from pyspark.ml.feature import IndexToString, StringIndexer, VectorIndexer, HashingTF, Tokenizer
from pyspark.ml.classification import LogisticRegression, LogisticRegressionModel, BinaryLogisticRegressionSummary, LogisticRegression

（2）定制函数返回数据字典

读取文本文件，第一个map把每行数据用逗号隔开。每行被分成5个部分，前4部分是鸢尾花的4个特征，最后一部分是鸢尾花的类别。把特征存储在Vector中，创建一个iris模式的RDD，然后转换为DataFrame

# 2 定制一个函数，来返回一个指定的数据字典
def f(x):   # 传入x为一个列表(4个特征+分类label)
    rel = {}
    rel['features'] = Vectors.dense(float(x[0]), float(x[1]), float(x[2]), float(x[3]))
    rel['label'] = str(x[4])
    return rel   # 两个键值对

data = spark.sparkContext. \
    textFile("file:///usr/local/spark/iris.txt"). \
    map(lambda line: line.split(',')). \
    map(lambda p: Row(**f(p))). \   # 根据数据字典封装成Row对象
    toDF()
data.show()

+-----------------+-----------+
|         features|      label|
+-----------------+-----------+
|[5.1,3.5,1.4,0.2]|Iris-setosa|
|[4.9,3.0,1.4,0.2]|Iris-setosa|
|[4.7,3.2,1.3,0.2]|Iris-setosa|
|[4.6,3.1,1.5,0.2]|Iris-setosa|
|[5.0,3.6,1.4,0.2]|Iris-setosa|

（3）分别获取标签列和特征列

# 3 分别获取标签列和特征列，进行索引并进行重命名
labelIndexer = StringIndexer(). \     # 把字符串标签转换为数值型索引
    setInputCol("label"). \
    setOutputCol("indexedLabel"). \
    fit(data)   # 评估器->转换器

featureIndexer = VectorIndexer(). \    # 把数值型特征向量转换为索引数值型特征向量
    setInputCol("features"). \
    setOutputCol("indexedFeatures"). \
    fit(data)   # 评估器->转换器

（4）设置LogisticRegression算法的参数

# 具体可以设置的参数，可以通过explainParams()来获取，还能看到程序已经设置的参数的结果
lr = LogisticRegression(). \
    setLabelCol("indexedLabel"). \
    setFeaturesCol("indexedFeatures"). \
    setMaxIter(100). \   # 循环次数为100次
    setRegParam(0.3). \   # 规范化项为0.3
    setElasticNetParam(0.8)
print("LogisticRegression parameters：\n" + lr.explainParams())

（5）设置一个IndexToString的转换器

构建一个机器学习流水线，设置各个阶段。上一个阶段的输出将是本阶段的输入

# 5 把预测的类别(数值型prediction) 转化成字符型的predictedLabel
labelConverter = IndexToString(). \
    setInputCol("prediction"). \    # 预测得到的分类
    setOutputCol("predictedLabel"). \
    setLabels(labelIndexer.labels)   # 标签来源

# 6 构建机器学习流水线(Pipeline)
lrPipeline = Pipeline().setStages([labelIndexer, featureIndexer, lr, labelConverter])

（6）训练+预测

Pipeline本质上是一个评估器，当Pipeline调用fit()的时候就产生了一个PipelineModel，它是一个转换器。然后，这个PipelineModel就可以调用transform()来进行预测，生成一个新的DataFrame，即利用训练得到的模型对测试集进行验证

# 把数据集随机分成训练集和测试集，其中训练集占70%
trainingData, testData = data.randomSplit([0.7, 0.3])
lrPipelineModel = lrPipeline.fit(trainingData)
lrPredictions = lrPipelineModel.transform(testData)   # testData只包含4个特征，不包含label

（7）输出预测的结果

# 7 select选择要输出的列
# collect获取所有行的数据
# 用foreach把每行打印出来
preRows = lrPredictions.select("label", "features", "probability", "predictedLabel").collect()
for row in preRows:
    label, features, probability, predictedLabel = row
    print("%s,%s --> prob=%s,predictedLabel：%s" % (label, features, probability, predictedLabel))

Iris-setosa,[4.3,3.0,1.1,0.1] --> prob=[0.5243322260103365,0.2807261844423659,0.1949415895472976],predictedLabel：Iris-setosa
Iris-setosa,[4.4,2.9,1.4,0.2] --> prob=[0.49729174541655624,0.2912406744481094,0.2114675801353344],predictedLabel：Iris-setosa
Iris-setosa,[4.4,3.2,1.3,0.2] --> prob=[0.5033392716254922,0.28773708047332464,0.20892364790118315],predictedLabel：Iris-setosa
Iris-setosa,[4.6,3.2,1.4,0.2] --> prob=[0.49729174541655624,0.2912406744481094,0.2114675801353344],predictedLabel：Iris-setosa

（8）对训练的模型进行评估

用set方法把预测分类的列名和真实分类的列名进行设置，然后计算预测准确率

# 8 创建一个MulticlassClassificationEvaluator实例
evaluator = MulticlassClassificationEvaluator(). \
    setLabelCol("indexedLabel"). \   # 真实字符串标签被转换为数值型标签的结果
    setPredictionCol("prediction")
lrAccuracy = evaluator.evaluate(lrPredictions)
print("lrAccuracy=%f" % lrAccuracy)   # 0.7774712643678161

（9）通过model来获取训练得到的逻辑斯蒂模型

# 9 lrPipelineModel是一个PipelineModel，因此可以通过调用它的stages方法来获取lr模型
lrModel = lrPipelineModel.stages[2]   # .stages是一个列表，lr是封装在机器学习流水线里
print("\nCoefficients: \n " + str(lrModel.coefficientMatrix) +
      "\nIntercept: " + str(lrModel.interceptVector) +
      "\n numClasses: " + str(lrModel.numClasses) +
      "\n numFeatures: " + str(lrModel.numFeatures)

Coefficients: 
 3 X 4 CSRMatrix
(0,2) -0.2419
(0,3) -0.1715
(1,3) 0.446
Intercept: [0.7417523479805953,-0.16623552721353418,-0.575516820767061]
 numClasses: 3
 numFeatures: 4

（六）决策树分类器

决策树是一种基本的分类和回归方法，这里主要介绍分类。

1、决策树

决策树模型呈树型结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。学习时利用训练数据，根据损失函数最小化的原则建立决策树模型；预测时对新的数据利用决策树模型进行分类

决策树学习步骤：特征选择 - 决策树生成 - 决策树剪枝

2、iris数据集分类实例

（1）导入需要的包

from pyspark.ml.linalg import Vector, Vectors
from pyspark.sql import Row
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml import Pipeline, PipelineModel
from pyspark.ml.feature import IndexToString, StringIndexer, VectorIndexer
from pyspark.ml.classification import DecisionTreeClassificationModel, DecisionTreeClassifier

（2）读取文本文件

def f(x):   # 传入x为一个列表(4个特征+分类label)
    rel = {}
    rel['features'] = Vectors.dense(float(x[0]), float(x[1]), float(x[2]), float(x[3]))
    rel['label'] = str(x[4])
    return rel   # 两个键值对

data = spark.sparkContext. \
    textFile("file:///usr/local/spark/iris.txt"). \
    map(lambda line: line.split(',')). \   # 把每行的数据用逗号隔开
    map(lambda p: Row(**f(p))). \   # 根据数据字典封装成Row对象
    toDF()

（3）处理特征和标签，以及数据分组

# 3 分别获取标签列和特征列，进行索引并进行重命名
labelIndexer = StringIndexer(). \     # 把字符串标签转换为数值型索引
    setInputCol("label"). \
    setOutputCol("indexedLabel"). \
    fit(data)   # 评估器->转换器

featureIndexer = VectorIndexer(). \    # 把原始特征向量转换为索引值特征向量
    setInputCol("features"). \
    setOutputCol("indexedFeatures"). \
    setMaxCategories(4).  \   # 不同数值个数≤4才转换成数值型标签
    fit(data)   # 评估器->转换器

labelConverter = IndexToString(). \
    setInputCol("prediction"). \    # 预测得到的分类(数值型分类标签)
    setOutputCol("predictedLabel"). \    # 转换为字符串类型标签列
    setLabels(labelIndexer.labels)   # 原来的字符串类型标签来源

trainingData, testData = data.randomSplit([0.7, 0.3])

（4）构建决策树分类模型，设置决策树的参数

通过set的方法来设置决策树的参数，也可以用ParamMap来设置。这里仅需设置特征列（FeaturesCol）和待预测列（LabelCol）。具体可以设置的参数可以通过 explainParams() 获取

dtClassifier = DecisionTreeClassifier(). \
               setLabelCol("indexedLabel"). \
               setFeaturesCol("indexedFeatures")

（5）构建机器学习流水线Pipeline，调用fit()进行模型训练

对评估器训练后得到模型，即转换器，即可对测试数据进行转换，得到预测结果

dtPipeline = Pipeline().setStages([labelIndexer, featureIndexer, dtClassifier, labelConverter])
dtPipelineModel = dtPipeline.fit(trainingData)
dtPredictions = dtPipelineModel.transform(testData)
dtPredictions.select("predictedLabel", "label", "features").show(20)

模型的预测准确率：

evaluator = MulticlassClassificationEvaluator(). \
    setLabelCol("indexedLabel"). \   # 真实字符串标签被转换为数值型标签的结果
    setPredictionCol("prediction")
dtAccuracy = evaluator.evaluate(dtPredictions)
print("dtAccuracy=%f" % dtAccuracy)   # 0.9726976552103888

（6）调用toDebugString方法查看训练的决策树模型结构

treeModelClassifier = dtPipelineModel.stages[2]   # .stages是一个列表，dt是封装在机器学习流水线里
print("Learned classification tree model：\n" + str(treeModelClassifier.toDebugString))

你可能感兴趣的:(大数据组件,spark,大数据,分布式)

深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
分布式系统中优化ELK日志采集性能 Alex艾力的IT数字空间 elk 微服务中间件架构 ux 安全性测试可用性测试
架构设计、组件调优、资源分配等多维度入手一、架构优化：分布式与解耦设计分层采集与缓冲Filebeat轻量级采集：在每台服务器部署Filebeat替代Logstash作为日志收集器，降低资源占用（CPU/内存减少70%以上）。引入缓冲队列：通过Redis或Kafka作为日志缓冲池，缓解Logstash或Elasticsearch的突发流量压力，避免数据丢失（如Logstash异常时Redis暂存数据
大数据时代下的时序数据库选型指南：基于工业场景的IoTDB技术优势与适用性研究 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在宝钢集团的智能工厂里，5万多个传感器每秒产生150万+数据点，传统数据库系统每天积压3TB未处理数据——这揭示了工业4.0时代的核心矛盾：**海量时序数据处理能力已成为智能制造的关键瓶颈**。###工业时序数据的四大特殊性工业场景下的时序数据与传统互联网数据存在本质差异：1.**高精度时间要求**-数控机床振动监测需微秒级时间戳-电网故障定位要求时间同步精度≤1μs2.**多源异构性**```
Agent架构解析及分布式Agent协作方案
来源：AI大模型应用实践AIAgent（智能体）系统发展迅猛，且关注点已经不再局限在Agent的规划推理等基本能力，智能体系统在扩展性、互操作、安全性等工程化方面的挑战也越来越引起重视，比如最近的MCP和A2A。上一篇我们介绍了A2A，今天接着再聊聊分布式Agent系统的话题。Agent模式架构解析Agent有效减少人类工作总量，人与AI协作才是最终形态。人类与AI交互可大致分为三种模式。Embe
24.park和unpark方法卷土重来… java并发编程 java
1.park方法可以暂停线程，线程状态为wait。2.unpark方法可以恢复线程，线程状态为runnable。3.LockSupport的静态方法。4.park和unpark方法调用不分先后，unpark先调用，park后执行也可以恢复线程。publicclassParkDemo{publicstaticvoidmain(String[]args){Threadt1=newThread(()->
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
RabbitMQ深度解析：从核心概念到实战应用 JouJz rabbitmq ruby 分布式
RabbitMQ深度解析：从核心概念到实战应用引言：现代分布式系统的通信枢纽在当今复杂的分布式系统架构中，消息队列已成为不可或缺的基础组件。作为最受欢迎的开源消息代理之一，RabbitMQ以其可靠性、灵活性和跨平台能力赢得了广泛青睐。本文将全面剖析RabbitMQ的核心机制、工作模式及高级特性，帮助开发者掌握这一强大的异步通信工具。一、RabbitMQ核心概念解析1.1基本架构模型RabbitMQ
Kafka深度解析：架构、原理与应用实践 JouJz kafka 架构 linq
Kafka深度解析：架构、原理与应用实践引言在现代分布式系统架构中，消息队列作为系统解耦、异步通信的核心组件发挥着至关重要的作用。而在众多消息队列解决方案中，ApacheKafka凭借其卓越的性能、高吞吐量和可靠性，已成为企业级数据管道的首选技术。本文将深入剖析Kafka的核心架构、工作原理以及实践应用，帮助开发者全面掌握这一强大的分布式消息系统。一、Kafka概述与核心概念1.1Kafka的诞生
深入理解红锁未来并未来 redis 数据库缓存
在构建高并发、高可用的分布式系统时，我们常常会遇到这样一个核心挑战：如何确保多个服务实例能够安全、有序地访问共享资源，避免竞态条件（RaceCondition）和数据不一致？传统单机环境下的锁机制（如Java的synchronized或ReentrantLock）在分布式场景下显得力不从心。于是，分布式锁应运而生，而基于Redis的分布式锁因其高性能和简单性而被广泛应用。然而，单节点Redis锁在
Redis分布式锁深度剖析：从原理到高可用实践 JouJz redis 分布式 wpf
Redis分布式锁深度剖析：从原理到高可用实践引言：分布式环境下的锁之殇在分布式系统中，共享资源互斥访问是保证数据一致性的核心挑战。传统单机锁（如synchronized）在跨进程场景下完全失效，这就是分布式锁的用武之地。Redis凭借其高性能、原子操作等特性，成为实现分布式锁的主流方案。本文将深入解析Redis分布式锁的实现原理、典型问题及工业级解决方案。一、分布式锁的本质要求1.1必须满足的核
JAVA中分布式环境中如何实现单点登录与session共享在远方的你等我
在单服务器web应用中，登录用户信息只需存在该服务的session中，这是我们几年前最长见的办法。而在当今分布式系统的流行中，微服务已成为主流，用户登录由某一个单点服务完成并存储session后，在高并发量的请求（需要验证登录信息）到达服务端的时候通过负载均衡的方式分发到集群中的某个服务器，这样就有可能导致同一个用户的多次请求被分发到集群的不同服务器上，就会出现取不到session数据的情况，于是
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring