hzbooks

深入理解XGBoost：分布式实现

本文将重点介绍XGBoost基于Spark平台Scala版本的实现，带领大家逐步完成特征提取、变换和选择、XGBoost模型训练、Pipelines、模型选择。

XGBoost回顾

XGBoost（Extreme Gradient Boosting）由华盛顿大学的陈天奇博士提出，最开始作为分布式（深度）机器学习研究社区（DMLC）小组的研究项目之一。后因在希格斯（Higgs）机器学习挑战赛中大放异彩，被业界所熟知，在数据科学应用中广泛应用。目前，一些主流的互联网公司如腾讯、阿里巴巴等都已将XGBoost应用到其业务中，在各种数据科学竞赛中XGBoost也成为竞赛者们夺冠的利器。XGBoost在推荐、搜索排序、用户行为预测、点击率预测、产品分类等问题上取得了良好的效果。虽然这些年神经网络（尤其是深度神经网络）变得越来越流行，但XGBoost仍旧在训练样本有限、训练时间短、、调参知识缺乏的场景下具有独特的优势。相比深度神经网络，XGBoost能够更好地处理表格数据，并具有更强的可解释性，另外具有易于调参、输入数据不变性等优势。

XGBoost是Gradient Boosting的实现，相比其他实现方法，XGBoost做了很多优化，在模型训练速度和精度上都有明显提升，其优良特性如下。

1）将正则项加入目标函数中，控制模型的复杂度，防止过拟合。

2）对目标函数进行二阶泰勒展开，同时用到了一阶导数和二阶导数。

3）实现了可并行的近似直方图算法。

4）实现了缩减和列采样（借鉴了GBDT和随机森林）。

5）实现了快速直方图算法，引入了基于loss-guide的树构建方法（借鉴了LightGBM）。

6）实现了求解带权值的分位数近似算法（weighted quantile sketch）。

7）可根据样本自动学习缺失值的分裂方向，进行缺失值处理。

8）数据预先排序，并以块（block）的形式保存，有利于并行计算。

9）采用缓存感知访问、外存块计算等方式提高数据访问和计算效率。

10）基于Rabit实现分布式计算，并集成于主流大数据平台中。

11）除CART作为基分类器外，XGBoost还支持线性分类器及LambdaMART排序模型等算法。

12）实现了DART，引入Dropout技术。

目前已经有越来越多的开发人员为XGBoost开源社区做出了贡献。XGBoost实现了多种语言的包，如Python、Scala、Java等。Python用户可将XGBoost与scikit-learn集成，实现更为高效的机器学习应用。另外，XGBoost集成到了Spark、Flink等主流大数据平台中。

分布式XGBoost

也许在竞赛中我们很少或者从不使用分布式XGBoost版本，可是在工业界爆炸式增长的数据规模，单机模式是很难满足用户需求，XGBoost也相应推出了分布式版本，这也是XGBoost如此流行的重要原因。本文将重点介绍XGBoost基于Spark平台的实现，带领大家逐步完成Spark版本的特征提取、变换和选择，以及XGBoost模型训练、Pipelines、模型选择。

1.基于Spark平台实现

Spark是一个通用且高效的大数据处理引擎，它是基于内存的大数据并行计算框架。因为Spark计算基于内存，因此能够保证大数据计算的实时性，相比传统的Hadoop MapReduce效率提升很多。Spark拥有一个丰富的生态环境，以Spark为核心，涵盖支持：结构化数据查询与分析的Spark SQL、分布式机器学习库MLlib、并行图计算框架GraphX、可容错流计算框架Spark Streaming等。由于Spark在工业界广泛应用，用户群体庞大，因此XGBoost推出了XGBoost4J-Spark以支持Spark平台。

1.1 Spark架构

如图1所示，Spark主要由如下组件构成。

Client：提交Spark job的客户端。
Driver：接受Spark job请求，启动SparkContext。
SparkContext：整个应用的上下文，可以控制应用的生命周期。
ClusterManager：集群管理器，为Application分配资源，包括多种类型，如Spark自带的Standalone、Meso或者YARN等。
Worker：集群中任意可执行Application代码的节点，运行一个或者多个Executor。
Executor：在Worker节点中提交Application的进程，启动并运行任务，负责将数据存于内存或者硬盘中。每个Application均有各自的Executor执行任务。

由图1可知，Spark作业提交流程如下：首先Client提交应用，Driver接收到请求后，启动SparkContext。SparkContext连接ClusterManager，ClusterManager负责为应用分配资源。Spark将在集群节点中获取到执行任务的Executor，这些Executor负责执行计算和存储数据。Spark将应用程序的代码发送给Executor，最后SparkContext将任务分配给Executor去执行。

图1 Spark结构

在Spark应用中，整个执行流程在逻辑上会转化为RDD（Resilient Distributed Dataset，弹性分布式数据集）的DAG（Directed Acyclic Graph，有向无环图）。RDD是Spark的基本运算单元，后续会详细介绍。Spark将任务转化为DAG形式的工作流进行调度，并进行分布式分发。图2通过示例展示了Spark执行DAG的整个流程。

图2 Spark执行DAG的整个流程

在图2中，Transformations是RDD的一类操作，包括map、flatMap、filter等，该类操作是延迟执行的，即从一个RDD转化为另一个RDD不立即执行，而只是将操作记录下来，直到遇到Actions类的操作才会真正启动计算过程进行计算。Actions类操作会返回结果或将RDD数据写入存储系统，是触发Spark启动计算的动因。Action算子触发后，将所有记录的算子生成一个RDD，Spark根据RDD之间的依赖关系将任务切分为不同的阶段（stage），然后由调度器调度RDD中的任务进行计算。图2中的A～E分别代表不同的RDD，RDD中的方块代表不同的分区。Spark首先通过HDFS将数据读入内存，形成RDD A和RDD C。RDD A转化为RDD B，RDD C执行map操作转化为RDD D，RDD B和RDD E执行join操作转化为RDD F。RDD B和RDD E连接转化为RDD F的过程中会执行Shuffle操作，最后RDD F通过函数saveAsSequenceFile输出并保存到HDFS上。

1.2 RDD

Spark引入了RDD概念，RDD是分布式内存数据的抽象，是一个容错的、并行的数据结构，是Spark中基本的数据结构，所有计算均基于该结构进行，Spark通过RDD和RDD操作设计上层算法。

RDD作为数据结构，本质上是一个只读的分区记录的集合，逻辑上可以把它想象成一个分布式数组，数组中的元素可以为任意的数据结构。一个RDD可以包含多个分区，每个分区都是数据集的一个子集。RDD可以相互依赖，通过依赖关系形成Spark的调度顺序，通过RDD的操作形成整个Spark程序。

RDD有两种操作算子：转换（transformation）与行动（actions）。

1. 转换

转换操作是延迟执行的，即从一个RDD转化为另一个RDD，且不立即执行，而只是将操作记录下来，直到遇到Actions类的操作才会真正启动计算过程。转换操作包括map、flatMap、mapPartitions等多种操作，下面对常用的转换操作进行介绍。

map：对原始RDD中的每个元素执行一个用户自定义函数生成一个新的RDD。任何原始RDD中的元素在新的RDD中有且只有一个元素与之对应。
flatMap：与map类似，原始RDD中的元素通过函数生成新的元素，并将生成的RDD的每个集合中的元素合并为一个集合。
mapPartitions：获取每个分区的迭代器，在函数中对整个迭代器的元素（即整个分区的元素）进行操作。
union：将两个RDD合并，合并后不进行去重操作，保留所有元素。使用该操作的前提是需要保证RDD元素的数据类型相同。
filter：对元素进行过滤，对每个元素应用函数，返回值为True的元素被保留。
sample：对RDD中的元素进行采样，获取所有元素的子集。
cache：将RDD元素从磁盘缓存到内存，相当于persist（MEMORY_ONLY）。
persist：对RDD数据进行缓存，由参数StorageLevel决定数据缓存到哪里，如DISK_ONLY表示仅磁盘缓存、MEMORY_AND_DISK表示内存和磁盘均缓存等。
groupBy：将RDD中元素通过函数生成相应的key，然后通过key对元素进行分组。
reduceByKey：将数据中每个key对应的多个value进行用户自定义的规约操作。
join：相当于SQL中的内连接，返回两个RDD以key作为连接条件的内连接。

2. 行动

行动操作会返回结果或将RDD数据写入存储系统，是触发Spark启动计算的动因。行动操作包括foreach、collect等。下面对常用的行动操作进行介绍。

foreach：对RDD中每个元素都调用用户自定义函数操作，返回Unit。
collect：对于分布式RDD，返回一个scala中的Array数组。
count：返回RDD中元素的个数。
saveAsTextFile：将数据以文本的形式存储到HDFS的指定目录。

DataSet是分布式的数据集合，它是在Spark 1.6之后新增的一个接口，其不但具有RDD的优点，而且同时具有Spark SQL优化执行引擎的优势。DataFrame是一个具有列名的分布式数据集，可以近似看作关系数据库中的表，但DataFrame可以从多种数据源进行构建，如结构化数据文件、Hive中的表、RDD等。DataFrame API可以在Scala、Java、Python和R中使用。下面只介绍几个常用的API（更多API可以参考相关资料[插图]）。

select（cols:Column*）：选取满足表达式的列，返回一个新的DataFrame。其中，cols为列名或表达式的列表。
filter（condition:Column）：通过给定条件过滤行。
count（）：返回DataFrame行数。
describe（cols:String*）：计算数值型列的统计信息，包括数量、均值、标准差、最小值、最大值。
groupBy（cols:Column*）：通过指定列进行分组，分组后可通过聚合函数对数据进行聚合。
join（right:Dataset[_]）：和另一个DataFrame进行join操作。
withColumn（colName:String,col:Column）：添加列或者替换具有相同名字的列，返回新的DataFrame。

1.3 XGBoost4J-Spark

随着Spark在工业界的广泛应用，积累了大量的用户，越来越多的企业以Spark为核心构建自己的数据平台来支持挖掘分析类计算、交互式实时查询计算，于是XGBoost4J-Spark应运而生。本节将介绍如何通过Spark实现机器学习，如何将XGBoost4J-Spark很好地应用于Spark机器学习处理的流水线中。

XGBoost4J-Spark在jvm-package中实现，因此在工程中调用XGBoost4J时，只需在pom.xml文件中加入如下依赖即可：


  ml.dmlc
  xgboost4j-spark
  0.7

图3展示了如何将XGBoost4J-Spark应用于Spark机器学习处理的流水线框架中。首先通过Spark将数据加载为RDD、DataFrame或DataSet。如果加载类型为DataFrame/DataSet，则可通过Spark SQL对其进行进一步处理，如去掉某些指定的列等。由Spark MLlib库完成特征工程，其提供了多种特征工程的方法供用户选择，此步骤是机器学习过程中非常重要的一步，因为好的特征可以决定机器学习的上限。特征工程完成后，便可将生成的训练数据送入XGBoost4J-Spark中进行训练，在此过程中可通过Spark MLlib进行参数调优，得到最优模型。得到训练模型后对预测集进行预测，最终得到预测结果。为了避免每次重复的训练模型，可将训练好的模型保存下来，在使用时直接加载即可。另外，训练完成后，XGBoost4J-Spark可对特征重要程度进行排名。最后，形成数据产品应用于相关业务。

图3 XGBoost4J-Spark模型训练流程图

0.70版本及以上版本的XGBoost4J-Spark支持用户在Spark中使用低级和高级内存抽象，即RDD和DataFrame/DataSet，而低版本（0.60版本）的仅支持RDD方式。DataFrame/DataSet可以近似看作数据库的一张表，不但包含数据，而且包含表结构，是结构化的数据。用户可以方便地利用Spark提供的DataFrame/DataSet API对其操作，也可以通过用户自定义函数（UDF）进行处理，例如，通过select函数可以很方便地选取需要的特征形成一个新的DataFrame/DataSet。以下示例将结构化数据保存在JSON文件中，并通过Spark的API解析为DataFrame，并以两行Scala代码来训练XGBoost模型。

1.val df = spark.read.json("data.json")  
2.//调用 XGBoost API 训练DataFrame类型的训练集
3.val xgboostModel = XGBoost.trainWithDataFrame(  
4.      df, paramMap, numRound, nWorkers, useExternalMemory)

上述代码是XGBoost4J-Spark 0.7x版本的实现代码，XGBoost4J-Spark 0.8x及以上版本中的部分API有所改动。训练代码如下：

1.val xgbClassifier = new XGBoostClassifier(paramMap).  
2.                    setFeaturesCol("features").  
3.                    setLabelCol("label")  
4.val xgbClassificationModel = xgbClassifier.fit(df)

下面通过示例简单介绍XGBoost4J-Spark中的一些常用API，其他可参考官方文档。首先，加载数据集，可通过Spark进行读取，例如外部文件加载、Spark SQL等。然后，设置模型参数，可根据具体问题及数据分布调整模型参数：

1.val paramMap = Map(  
2.    "eta" -> 0.1f,   
3.    "num_class" -> 3,   
4.    "max_depth" -> 3,   
5.    "objective" -> "multi:softmax")

模型训练调用方式这里不再赘述，下面介绍训练函数中各参数的含义

trainingData：训练集RDD。
params：模型训练参数。
round：模型迭代轮数。
nWorkers：XGBoost训练节点个数，如果设为0，则XGBoost会将训练集RDD的分区数作为nWorkers的数量。
obj：用户定义的目标函数，默认为Null。
eval：用户定义的评价函数，默认为Null。
useExternalMemory：是否利用外存缓存，如果设置为True，则可以节省运行XGBoost的RAM成本。
missing：数据集中指定为缺省值的值（注意，此处为XGBoost会将 missing值作为缺省值，在训练之前会将missing值置为空）。

模型训练完成之后，可将模型文件进行保存以供预测时使用。模型被保存为Hadoop文件，存储于HDFS上。0.7版本通过saveModelAsHadoopFile可实现该功能，调用示例如下：

xgboostModel.saveModelAsHadoopFile("/tmp/bst.model")

0.8及以上版本直接可通过save函数实现，如下：

xgboostModel.write.overwrite().save("/tmp/bst.model")

XGBoost可以将之前训练好的模型文件直接加载，以供使用，0.7x版本代码如下：

val model = XGBoost.loadModelFromHadoopFile("/tmp/bst.model")

0.8及以上版本，如下：

val model = XGBoostClassificationModel.load("/tmp/bst.model")

此处为分类模型，若为回归模型则为：

val model = XGBoostRegressionModel.load("/tmp/bst.model")

将预测集传入训练好的模型即可进行预测，0.7x版本对RDD类型数据预测代码，如下：

val predicts = model.predict(test)

0.8及以上版本则直接对DataSet类型数据进行预测，如下：

val predicts = model.transform(test)

Spark训练好的模型也可以下载到本地，通过本地的XGBoost（Python、Java或Scala）加载并进行预测。这样既可以实现模型通过分布式训练海量样本，提高模型的准确度，又可以通过单机调用分布式训练的模型进行预测，提高模型预测速度。

用户不仅可以通过DataFrame/DataSet API对数据集进行操作，而且可以通过Spark提供的MLlib机器学习包对特征进行处理。MLlib是构建于Spark之上的机器学习库，由通用的学习算法和工具类组成。通过MLlib可以方便地对特征进行提取和转化。MLlib还提供了非常丰富的算法，包括分类、回归、聚类、协同过滤、降维等，用户可以根据应用场景将这些算法和XGBoost结合使用。另外，MLlib还提供了模型选择工具，用户可以通过API定义的自动参数搜索过程来选择最佳模型。

特征提取、变换和选择

在将训练集送入XGBoost4J-Spark训练之前，可以首先通过MLlib对特征进行处理，包括特征提取、变换和选择。这是在进行模型训练前十分重要的一步，但不是必需的，用户可以根据应用场景进行选择。

在MLlib中，特征提取方法主要有如下3种。

TF-IDF：词频率-逆文档频率，是常见的文本预处理步骤。字词的重要性随着它在文件中出现的次数呈正比增加，但也会随着它在语料库中出现的频率呈反比下降。
Word2Vec：其将文档中的每个单词都映射为一个唯一且固定长度的向量。
CountVectorizer：用向量表示文档中每个词出现的次数。

特征变换在Spark机器学习流水线中占有重要地位，广泛应用在各种机器学习场景中。MLlib提供了多种特征变换的方法，此处只选择常用的方法进行介绍。

（1）StringIndexer

StringIndexer将标签的字符串列编码为标签索引列。索引取值为[0,numLabels]，按标签频率排序。如下表所示，category列为原数据列，categoryIndex列为通过StringIndexer编码后的列。a出现最频繁（编码为0.0），依次为c（编码为1.0）、b（编码为2.0）。

调用代码非常简单，只需如下两行即可实现：

1.val indexer = new StringIndexer()  
2.              .setInputCol("category")  
3.              .setOutputCol("categoryIndex")  
4.  
5.val indexed = indexer.fit(df).transform(df)

（2）OneHotEncoder

OneHotEncoder将一列标签索引映射到一列二进制向量，最多只有一个单值，可以将前面StringIndexer生成的索引列转化为向量。OneHotEncoder主要应用于类别特征上，如性别、国籍等。类别特征不能直接应用于机器学习模型中，因为即使通过StringIndexer将字符串转为数值型特征后，模型往往默认数据是连续的，并且是有序的；但是，类别特征数字并不是有序的，只是每个数字代表一个类别。

OneHotEncoder可以结合StringIndexer使用，代码如下：

1.val indexer = new StringIndexer()  
2.              .setInputCol("category")  
3.              .setOutputCol("categoryIndex")  
4.             .fit(df)  
5.val indexed = indexer.transform(df)  
6.  
7.val encoder = new OneHotEncoder()  
8.             .setInputCol("categoryIndex")  
9.             .setOutputCol("categoryVec")  
10.  
11.val encoded = encoder.transform(indexed)

（3）Normalizer

Normalizer可以将多行向量输入转化为统一的形式。参数p（默认为2）用来指定正则化操作中使用的p-norm。正则化操作可以使输入数据标准化并提高后期模型的效果。

1.val normalizer = new Normalizer()  
2.                .setInputCol("features")  
3.                .setOutputCol("normFeatures")  
4.                .setP(1.0)  
5.  
6.val l1NormData = normalizer.transform(dataFrame)

（4）StandardScaler

StandardScaler处理Vector数据，标准化每个特征使得其有统一的标准差及（或者）均值为零。它有如下参数：

1）withStd：默认值为真，使用统一标准差方式。

2）withMean：默认为假。这种方法将产生一个稠密输出，所以不适用于稀疏输入。

1.val scaler = new StandardScaler()  
2.            .setInputCol("features")  
3.            .setOutputCol("scaledFeatures")  
4.            .setWithStd(true)  
5.            .setWithMean(false)  
6.  
7.// 通过拟合StandardScaler计算汇总统计信息
8.val scalerModel = scaler.fit(dataFrame)  
9.  
10.// 标准化特征
11.val scaledData = scalerModel.transform(dataFrame)

（5）MinMaxScaler

MinMaxScaler通过重新调节大小将Vector形式的列转换到指定的范围内，通常为[0,1]。它的参数有以下2个。

1）min：默认为0.0，为转换后所有特征的上边界。

2）max：默认为1.0，为转换后所有特征的下边界。

1.val scaler = new MinMaxScaler()  
2.            .setInputCol("features")  
3.            .setOutputCol("scaledFeatures")  
4.  
5.// 计算统计信息，生成MinMaxScalerModel
6.val scalerModel = scaler.fit(dataFrame)  
7.  
8.// 重新缩放每个特征至[min, max]范围
9.val scaledData = scalerModel.transform(dataFrame)

（6）SQLTransformer

SQLTransformer实现了基于SQL语句定义的特征转换，如“SELECT...FROM__THIS__...”，其中“__THIS__”表示输入数据集的基础表。

1.val df = spark.createDataFrame(  
2.  Seq((0, 1.0, 3.0), (2, 2.0, 5.0))).toDF("id", "v1", "v2")  
3.  
4.val sqlTrans = new SQLTransformer().setStatement(  
5.  "SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__")  
6.  
7.sqlTrans.transform(df)

（7）VectorAssembler

VectorAssembler将给定的列列表组合到单个向量列中。它可以将原始特征和一系列通过其他转换器得到的特征合并为单一的特征向量，以训练如逻辑回归和决策树等机器学习算法。

1.val assembler = new VectorAssembler()  
2.               .setInputCols(Array("hour", "mobile", "userFeatures"))  
3.               .setOutputCol("features")  
4.  
5.val output = assembler.transform(dataset)

除了以上介绍的几种方法之外，MLlib还提供了其他特征变换方法，如用于特征分桶的Bucketizer、用于降维的PCA等，此处不再一一介绍，读者如感兴趣可查阅相关资料[插图]，基于应用场景合理选择相应的特征转变换方法。

特征选择是指通过剔除不相关或冗余的特征，从而达到减少特征个数、提高模型精确度、减少运行时间的目的。MLlib提供了如下几种特征选择的方法

VectorSlicer：从特征向量中输出一个新特征向量，该新特征向量为原特征向量的子集，在向量列中提取特征时很有用。
RFormula：选择由R模型公式指定的列。
ChiSqSelector：Chi-Squared特征选择，应用于类别特征数据。

XGBoost模型训练

在进行XGBoost模型训练前，通过MLlib对数据集进行特征提取、变换、选择，能够使数据集的特征更具有代表性，减少模型受到的噪声干扰，提高模型精度。另外，选取出真正相关的特征简化模型，协助理解数据产生的过程。下面通过示例介绍如何将MLlib的特征提取、变换、选择与XGBoost结合起来，此处采用iris数据集。下面给出来0.8x版本的具体实现：

1.import ml.dmlc.xgboost4j.scala.spark.{TrackerConf, XGBoostClassificationModel, 
   XGBoostClassifier, XGBoostRegressionModel, XGBoostRegressor}  
2.import org.apache.spark.ml.feature.StringIndexer  
3.import org.apache.spark.ml.feature.VectorAssembler  
4.import org.apache.spark.sql.types.{DoubleType, StringType, StructField, 
   StructType}  
5.  
6.// 读取数据集，生成DataFrame
7.val schema = new StructType(Array(  
8.  StructField("sepal length", DoubleType, true),  
9.  StructField("sepal width", DoubleType, true),  
10.  StructField("petal length", DoubleType, true),  
11.  StructField("petal width", DoubleType, true),  
12.  StructField("class", StringType, true)))  
13.val df = spark.read.schema(schema).csv("{HDFS PATH}/iris.txt")  
14.  
15.// 定义StringIndexer，将字符串类型列class转为数值型列label
16.val indexer = new StringIndexer()  
17.  .setInputCol("class")  
18.  .setOutputCol("label")  
19.  
20.// 对前述定义的列进行转换，并去掉原来的classz字段
21.val labelTransformed = indexer.fit(df).transform(df).drop("class")  
22.  
23.// 对特征进行vectorAssembler，生成features列
24.val vectorAssembler = new VectorAssembler().  
25.  setInputCols(Array("sepal length", "sepal width", "petal length", 
     "petal width")).  
26.  setOutputCol("features")  
27.val xgbInput = vectorAssembler.transform(labelTransformed).select
   ("features", "label")  
28.  
29.// 定义训练参数
30.val paramMap = Map(  
31.    "eta" -> 0.1f,   
32.    "num_class" -> 3,   
33.    "max_depth" -> 3,   
34.    "objective" -> "multi:softmax",  
35.    "num_round" -> 10,  
36.    "num_workers" -> 1)  
37.  
38.// 训练模型
39.val xgbClassifier = new XGBoostClassifier(paramMap).setFeaturesCol("features").
   setLabelCol("label")  
40.val xgbClassificationModel = xgbClassifier.fit(xgbInput)

Piplelines

MLlib中的Pipeline主要受scikit-learn项目的启发，旨在更容易地将多个算法组合成单个管道或工作流，向用户提供基于DataFrame的更高层次的API库，以更方便地构建复杂的机器学习工作流式应用。一个Pipeline可以集成多个任务，如特征变换、模型训练、参数设置等。下面介绍几个重要的概念。

DataFrame：相比于RDD，DataFrame还包含schema信息，可以将其近似看作数据库中的表。
Transformer：Transformer可以看作将一个DataFrame转换成另一个DataFrame的算法。例如，模型即可看作一个Transformer，它将预测集的DataFrame转换成了预测结果的DataFrame。
Estimator：一种可以适应DataFrame来生成Transformer的算法，操作于DataFrame数据并生成一个Transformer。
Pipeline：可以连接多个Transformer和Estimator形成机器学习的工作流。
Parameter：设置Transformer和Estimator的参数。

Pipeline是多个阶段形成的一个序列，每个阶段都是一个Transformer或者Estimator。这些阶段按顺序执行，当数据通过DataFrame输入Pipeline中时，数据在每个阶段按相应规则进行转换。在Transformer阶段，对DataFrame调用transform（）方法。在Estimator阶段，对DataFrame调用fit（）方法产生一个Transformer，然后调用该Transformer的transform（）。

MLlib允许用户将特征提取/变换/选择、模型训练、数据预测等构成一个完整的Pipeline。XGBoost也可以作为Pipeline集成到Spark的机器学习工作流中。下面通过示例介绍如何将特征处理的Transformer和XGBoost结合起来构成Spark的Pipeline。0.8.x版本的实现代码如下：

1.import ml.dmlc.xgboost4j.scala.spark.{TrackerConf, XGBoostClassificationModel, 
   XGBoostClassifier, XGBoostRegressionModel, XGBoostRegressor}   
2.import ml.dmlc.xgboost4j.scala.spark.XGBoostEstimator  
3.import org.apache.spark.ml.feature.StringIndexer  
4.import org.apache.spark.ml.feature.VectorAssembler  
5.import org.apache.spark.sql.types.{DoubleType, StringType, StructField, 
   StructType}  
6.import org.apache.spark.ml.Pipeline  
7.  
8.// 读取数据集，生成DataFrame
9.val schema = new StructType(Array(  
10.  StructField("sepal length", DoubleType, true),  
11.  StructField("sepal width", DoubleType, true),  
12.  StructField("petal length", DoubleType, true),  
13.  StructField("petal width", DoubleType, true),  
14.  StructField("class", StringType, true)))  
15.val df = spark.read.schema(schema).csv("{HDFS PATH}/iris.txt")  
16.  
17.// 定义StringIndexer，将字符串类型列class转为数值型列label
18.val indexer = new StringIndexer().  
19.   setInputCol("class").  
20.   setOutputCol("label")  
21.  
22.// 对特征进行vectorAssembler，生成features列
23.val vectorAssembler = new VectorAssembler().  
24.  setInputCols(Array("sepal length", "sepal width", "petal length", 
     "petal width")).  
25.  setOutputCol("features")  
26.  
27.// 定义训练参数
28.val paramMap = Map(  
29.    "eta" -> 0.1f,   
30.    "num_class" -> 3,   
31.    "max_depth" -> 3,   
32.    "objective" -> "multi:softmax",  
33.    "num_round" -> 10,  
34.    "num_workers" -> 1)  
35.  
36.// 定义模型
37.val xgbClassifier = new XGBoostClassifier(paramMap).
      setFeaturesCol("features").setLabelCol("label")  
38.  
39.// 构建pipeline
40.val pipeline = new Pipeline().setStages(Array(indexer, vectorAssembler, 
   xgbClassifier))  
41.val model = pipeline.fit(df)  
42.  
43.// 预测
44.val predict = model.transform(df)

模型选择

模型选择是机器学习中非常重要的任务，即通过数据找到具体问题的最佳模型和参数，也称超参数调整。模型选择可以在单独的Estimator（如逻辑回归）中完成，也可以在包含多个算法或者其他步骤的Pipeline中完成。用户可以一次调整整个Pipeline中的参数，而不是单独调整Pipeline中的每一个元素。MLlib支持CrossValidator和TrainValidationSplit两个模型选择工具。

（1）CrossValidator

即交叉验证，将数据集划分为若干份子集分别进行训练和测试。例如，设置k值为3，CrossValidator将产生3组数据，每组数据中的2/3作为训练集进行训练，1/3作为测试集进行测试。CrossValidator计算3组数据训练模型的评估准则的平均值。确定了最佳参数之后，CrossValidator使用最佳参数重新对整个数据集进行拟合得到最终模型。

（2）Train-Validation Split

除了CrossValidator之外，MLlib还提供了Train-Validation Split用以超参数调整。和CrossValidator不同的是，Train-Validation Split只验证1次，而非k次。Train-Validation Split的计算代价相较于CrossValidator更低，但是当训练数据集不够大时，结果可靠性不高。Train-Validation Split通过trainRatio参数将数据集分成两个部分。例如，设置trainRatio=0.75，TrainValidation Split则将75%的数据用于训练，25%的数据用于测试。

模型选择确定最佳参数是最大限度提高XGBoost模型的关键步骤之一。通过手工调整参数是一项费时又乏味的过程。最新版本的XGBoost4J-Spark可以通过MLlib的模型选择工具进行参数调优，极大地提高了机器学习过程中参数调优的效率。下面通过一个示例来说明如何利用MLlib模型选择工具对XGBoost进行参数调优。0.8x版本的实现代码如下：

1.import org.apache.spark.ml.tuning.ParamGridBuilder  
2.import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator  
3.import org.apache.spark.ml.tuning.TrainValidationSplit  
4.  
5.// 创建xgbClassifier
6.val xgbClassifier = new XGBoostClassifier(paramMap).
      setFeaturesCol("features").setLabelCol("label")   
7.  
8.// 设定参数调优时参数的范围
9.val paramGrid = new ParamGridBuilder().    
10.       addGrid(xgbEstimator.maxDepth, Array(5, 6)).    
11.       addGrid(xgbEstimator.eta, Array(0.1, 0.4)).   
12.       build()    
13.  
14.// 构建TrainValidationSplit，设置trainRatio=0.8，即80%的数据用于训练，20%的数据用于测试
15.val tv = new TrainValidationSplit().    
16.       setEstimator(xgbEstimator).    
17.       setEvaluator(new MulticlassClassificationEvaluator().
                       setLabelCol("label")).    
18.       setEstimatorParamMaps(paramGrid).    
19.       setTrainRatio(0.8)      
20.val model = tv.fit(xgbInput)

上述示例利用MLlib中的Train-Validation Split和RegressionEvaluator对XGBoost的eta和maxDepth两个参数进行调整，选择RegressionEvaluator定义的最小成本函数值的模型作为最佳模型。

通过XGBoost4J-Spark，用户可以构建一个基于Spark的更高效的数据处理流水线。该流水线可以很好地利用DataFrame/DataSet API对结构化数据进行处理，并且同时拥有强大的XGBoost作为机器学习模型。另外，XGBoost4J-Spark使得XGBoost和Spark MLlib无缝连接，使得特征提取/变换/选择和参数调优工作比以前更容易。

以上内容摘自《深入理解XGBoost 》一书并进行整理，经出版方授权发布。

新书速递

推荐语：大厂工程师撰写，帮你打通高效机器学习脉络，掌握竞赛神器XGBoost。以机器学习基础知识做铺垫，深入剖析XGBoost原理、分布式实现、模型优化、深度应用等。

点击上方链接了解详情并购买

往期精彩回顾

4月书讯 | 一大波好书来袭，最美华章四月天

书单 | 怎样成为一名真正的数据科学家？这10本书就是答案
干货 | 用户画像的核心技术盘点

你可能感兴趣的:(分布式,算法,大数据,编程语言,python)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本