XGBoost解析系列-原理

前言
Boosting算法框架
XGBoost原理推导
XGBoost算法
XGBoost工程优化
XGBoost算法复杂度
参考资料

0.前言

解析源码之前，还是介绍说明下XGBoost原理，网上对于XGBoost原理已有各种版本的解读。而这篇博客，笔者主要想根据自己的理解，梳理看过的XGBoost资料，包括陈天奇的论文以及引用论文内容，本文主要内容基于陈天奇的论文与PPT，希望能够做到系统地介绍XGBoost，同时加入源码新特性让内容上有增量。

XGBoost不仅能在单机上通过OMP实现高度并行化，还能通过MPI接口与近似分位点算法（论文中是weighted quantiles sketch）实现高效的分布式并行化。其中近似分位点算法（approximate quantiles）会附加一篇博客进行详细说明，分位点算法在分布式系统、流式系统中真的是个很天才的想法，很多分布式算法的基石。最早由M.Greenwald和S. Khanna与2001年提出的GK Summay算法，直到到2007年被Q. Zhang和W. Wang提出的多层level的merge与compress/prune框架进行高度优化，而被称为A fast algorithm for approximate quantiles，详情见下一篇博客。

1.Boosting算法框架

XGBoost算法属于集成学习中的boosting分支，其算法框架遵循1999年Friedman提出的boosting框架，该分支还有GBDT(Gradient Boosting Decision Tree)，boosting集成是后一个模型是对前一个模型产生误差信息进行矫正。gradient boost更具体，新模型的引入是为了减少上个模型的残差(residual)，我们可以在残差减少的梯度(Gradient)方向上建立一个新的模型。Friedman论文中针对回归过程提出boost框架如下：

Friedman提出boost算法框架过程描述如下：

1. 设定函数初始值 F0 ，为一个恒值函数，论文中基于变量优化出恒值，实际上也可以给定任意值或者直接为0。
2. 根据参数 M ，进行 M 次迭代，不断将当前函数 Fm−1 往最优函数 F∗ 空间上逼近，逼近方向就是当前函数下的函数负梯度方向 −∇L(y,F)∣∣F=Fm−1 。由于优化函数，而非变量，本质上属于泛函优化。
3. 每次迭代计算出函数负梯度，基于训练数据构建模型来拟合负梯度。原则上可以选择任何模型：树模型，线性模型或者神经网络等等，很少框架支持神经网络，推测：神经网络容易过拟合，后续函数负梯度恒为0就无法继续迭代优化下去。如果用树模型进行拟合，就是我们熟悉的CART建树过程。
4. 优化步长，根据目标函数来最优步长 ρm ，属于变量优化，并更新当前函数，继续迭代。框架并没有shrinkage机制来控制过拟合，采用树模型和线性模型也可能过度拟合，目前现代的boosting框架都支持shrinkage，即最终的优化步长应乘以shrinkage参数： ρm=ρmγ 。

该框架实际上是泛函梯度下降优化过程，尽管中间局部包含变量优化步骤，对比变量优化迭代不难发现相似之处。准确来说适合变量优化的其他策略同样适合泛函优化：1）基于梯度下降优化，步长优化可以是精确优化和非精确优化。2）基于牛顿法，根据二阶梯度直接计算步长 f″(x)−1 ，即更新变量 xn+1=xn−f′(x)f″(x) ，本质上XGBoost属于牛顿法，而且加入正则化，二阶导数恒大于0；3）拟牛顿法，用于二阶不可导时情况等等

谈到集成学习，不得不说bagging集成，比如随机森林，1）建树前对样本随机抽样（行采样），2）每个特征分裂随机采样生成特征候选集（列采样），3）根据增益公式选取最优分裂特征和对应特征分裂值建树。建树过程完全独立，不像boosting训练中下一颗树需要依赖前一颗树训练构建完成，因此能够完全并行化。Python机器学习包sklearn中随机森林RF能完全并行训练，而GBDT算法不行，训练过程还是单线程，无法利用多核导致速度慢。希望后续优化实现并行，Boosting并行不是同时构造N颗树，而是单颗树构建中遍历最优特征时的并行，类似XGBoost实现过程。随机森林中行采样与列采样有效抑制模型过拟合，XGBoost也支持这2种特性，此外其还支持Dropout抗过拟合。

2. XGBoost原理推导

1. XGBoost考虑正则化项，目标函数定义如下：

L (ϕ) = \sum i l (y i, y ̂ i) + \sum k Ω (f k) ， 其 中 Ω (f k) = γ T + 1 2 λ | | w | | 2

其中 ŷ i 为预测输出， yi 为label值， fk 为第 k 树模型， T 为树叶子节点数， w 为叶子权重值， γ 为叶子树惩罚正则项，具有剪枝作用， λ 为叶子权重惩罚正则项，防止过拟合。XGBoost也支持一阶正则化，容易优化叶子节点权重为0，不过不常用。

根据Boosting框架，可以优化出树的建模函数 ft(x) ：

L (t) = \sum i = 1 l (y i, y ̂ (t - 1) i + f t (x i)) + Ω (f t) \approx \sum i = 1 n [l (y i, y ̂ (t - 1) i) + g i f t (x i) + 1 2 h t f 2 t (x i)] + Ω (f t) = \sum i = 1 n [g i f t (x i) + 1 2 h t f 2 t (x i)] + Ω (f t) + c o n s t a n t

2. 因此，每次建树优化以下目标：

L ̂ (t) = \sum i = 1 n [g i f t (x i) + 1 2 h t f 2 t (x i)] + Ω (f t)

其中 gi=∂ŷ (t−1)il(yi,ŷ (t−1)i) ， hi=∂2ŷ (t−1)il(yi,ŷ (t−1)i) ，而且：

Ω (f t) = γ T + 1 2 λ \sum j = 1 T w 2 j

3. 假设我们已知树结构 q ，即每个样本 xi 能通过该结构 q 找到对应的叶子节点 j ，可以定义 Ij={i|q(xi)=j} 为在树结构 q 下，落入叶子节点 j 所有样本序号的集合。展开上述表达式并通过配方法不难得到：

L ̂ (t) = \sum i = 1 n [g i f t (x i) + 1 2 h t f 2 t (x i)] + Ω (f t) = \sum i = 1 n [g i f t (x i) + 1 2 h t f 2 t (x i)] + γ T + 1 2 λ \sum j = 1 T w 2 j = \sum j = 1 T [(\sum i \in I j g i) w j + 1 2 (\sum i \in I j h i + λ) w 2 j] + γ T = 1 2 \sum j = 1 T (H j + λ) (w j + G j H j + λ) 2 + γ T - 1 2 \sum j = 1 T G 2 j H j + λ

其中 Gj=∑i∈Ijgi 为落入叶子 i 所有样本一阶梯度统计值总和, Hj=∑i∈Ijhi 为落入叶子 i 所有样本二阶梯度统计值总和。最终得到叶子权重值为：

w * j = - G j H j + λ

4. 最终的目标值为：

L ̂ * = - 1 2 \sum j = 1 T G 2 j H j + λ + γ T

下图为树的目标值计算样例：

5. 回顾步骤3，可以发现前提假设是已知树结构

q ，除非遍历所有树结构，否则无法优化最优目标值，而且为了优化目标值，我们也不可能遍历所有树结构。论文提出了贪婪的算法，类似于CART定义增益公式来启发式的寻找最优树结构，若当前树结构

I 能被分裂成

IL 与

IR ，

I=IL⋃IR ，XGBoost的增益公式：

L s p l i t = 1 2 [G 2 L H L + λ + G 2 R H R + λ - ( G L + G R ) 2 H L + H R + λ] - γ

3. XGBoost算法

1）XGBoost精确贪婪算法

构建树流程如下：1.遍历每个特征 k ，2）遍历当前特征 k 下每个取值 xjk ，对于特征分裂值将前节点样本样本划分到左右子树，根据上述公式通过计算增益，选取增益最大对应的特征以及特征分裂值，执行节点分裂， Lsplit 最大值小于0则停止分裂， γ 可以视为分裂阈值，起到一定程度的预剪枝的作用，再不断重复。下图为根据特征值排序，从左到右进行扫描来找出当前特征下最优分裂值。

论文提出的精确贪婪算法流程如下：

2）XGBoost近似算法

精确算法由于需要遍历特征的所有取值，计算效率低，适合单机小数据，对于大数据、分布式场景并不适合。论文基于Weighted Quantile Sketch分位点算法提出相应的近似算法，也证明了该分位点的正确性。通过设置 ϵ 来设置近似程度，而且论文给出近似算法的2种方案：

1. 在建树之前预先将数据进行全局分桶，需要设置更小的 ϵ ，产生更多的桶，特征分裂查找基于候选点多，计算较慢，但只需在全局执行一次。
2. 每次分裂重新局部分桶，可以设置较大的 ϵ ，产生更少的桶，每次特征分裂查找基于候选点少，计算速度快，但是需要每次节点分裂后重新执行，论文中说该方案更适合树深的场景。
论文给出Higgs案例下，方案1全局分桶设置 ϵ=0.05 与精确算法效果差不多，方案2局部分桶设置 ϵ=0.3 与精确算法仅稍差点，方案1全局分桶设置 ϵ=0.3 则效果极差。

近似算法为什么能用于分布式？主要原因是分桶是基于分位点算法，分位点算法支持merge和prune操作，想了解该过程可以移步《分位点算法详解》，而且XGBoost场景属于weighted分位点算法，作者在论文后面也证明weighted分位点算法支持merge和prune操作，因此适合与分布式场景。近似算法主要对数据分布进行分桶，同时希望每个桶尽量均匀。考虑数据集：

D k = {(x 1 k, h 1), (x 2 k, h 2), \dots (x n k, h n)}

定义rank函数为

rk:R→[0,+∞) , 二阶导数

hi 一定大于等于0，而一阶导数

gi 则不具备该条件，所以无法构建分位点。实际上XGBoost源代码不仅会构建

hi 的分位点，也会对

gi 进行拆分，分别构建

gi>0 集合分位点和

gi<0 集合分位点（取负），目前按照论文中仅考虑二阶导数统计值

hi ：

r k (z) = 1 \sum ( x , h ) \in D k h \sum (x, h) \in D k, x < z h

rk(z) 表示特征值小于

z 的样本集合中，

h 累计值的百分占比。在这个排序函数下，我们找到一组点

sk1,sk2,...,skl ,满足：

| r k (s k, j) - r k (s k, j + 1) | < ε, 其 中 s k 1 = min i x i k, s k l = max i x i k

上述条件1为均匀条件，条件2为边界条件。这样就能得到

1/ε 个特征值分割候选点，假设数据量为1kw，设置

ϵ=0.01 ，则由候选点1kw降低为100，速度提升10w倍, 论文提出的精确贪婪算法流程如下：

3）XGBoost近似算法

对于数据缺失数据、one-hot编码等造成的特征稀疏现象，作者在论文中提出可以处理稀疏特征的分裂算法，主要是对稀疏特征值miss的样本学习出默认节点分裂方向：
1. 默认miss value进右子树，对non-missing value的样本在左子树的统计值 GL 与 HL ，右子树为 G−GL 与 H−HL ，其中包含miss的样本。
2. 默认miss value进左子树，对non-missing value的样本在右子树的统计值 GR 与 HR ，左子树为 G−GR 与 H−HR ，其中包含miss的样本。
最后，找出增益最大对于的特征、特征对于的值、以及miss value的分裂方向，作者在论文中提出基于稀疏分裂算法：

4. XGBoost工程优化

内部数据存储格式

从算法上看，每种算法都依赖特征排序，然后扫描，为了减少特征排序，XGBoost引入一种名为block的数据存储结构，将数据存储在内存单元，并对每一种特征进行排序。block中的数据以CSC格式存储。实际上源代码中XGBoost会把文件数据读入先生成CSR格式，然后转化为CSC格式。其中CSR格式如下：

CSR包含非0数据块values，行偏移offsets，列下标indices。offsets数组大小为（总行数目+1），CSR是对稠密矩阵的压缩，实际上直接访问稠密矩阵元素 (i,j) 并不高效，毕竟损失部分信息，访问过程如下：

1. 根据行 i 得到偏移区间开始位置offsets[i]与区间结束位置offsets[i+1]-1，得到 i 行数据块values[offsets[i]..(offsets[i+1]-1)]，与非0的列下表indices[offsets[i]..(offsets[i+1]-1)]，
2. 在列下标数据块中二分查找 j ，找不到则返回0，否则找到下标值 k ，返回values[offsets[i]+k]

从访问单个元素来说，从 O(1) 时间复杂度升到 O(logN) , N为该行非稀疏数据项个数。但是如果要遍历访问整行非0数据，则无需访问indices数组，时间复杂度反而更低，因为少了大量的稀疏为0的数据访问。

CSC与CSR变量结构上并无差别，只是变量意义不同，其中values仍然为非0数据块，offsets为列偏移，即特征id对应数组，indices为行下标，对应样本id数组，XBGoost使用CSC主要用于对特征的全局预排序。预先将CSR数据转化为无序的CSC数据，遍历每个特征，并对每个特征 i 进行排序：sort(&values[offsets[i]], &values[offsets[i+1]-1])。全局特征排序后，后期节点分裂可以复用全局排序信息，而不需要重新排序。

Cache-aware Access

CSC存储优化会导致获取每个样本获取统计值而不连续，造成样本计算cache不断切换而导致cache-miss，XGBoost通过选择适当的block size来缓存数据解决小样本量带来的资源浪费以及大样本量带来的cache-miss之间的权衡问题，XGBoost选择的block size为 216 。

Out-of-core Computation

XGBoost中提出Out-of-core Computation优化，解决了在硬盘上读取数据耗时过长，吞吐量不足：

1）Block Compression基于block，数据分块，每块 216 个样例，使用16bit来存储offset。利用压缩算法将硬盘中的数据进行压缩，在读取数据进内存的过程中利用一个独立的线程对数据进行解压缩，将disk reading cost转换为解压缩所消耗的计算资源。

2）Block Sharding将数据shard到多块硬盘上，每块硬盘分配一个预取线程，将数据fetche到in-memory buffer中。训练线程交替读取多块buffer，提升了硬盘总体的吞吐量。

5. XGBoost算法复杂度

针对精确贪婪算法，考虑数据样本量为 N ，特征数量为 M , 设置树的个数为 K , 树深为 D ，不考虑行采样与列采样，其时间复杂度分析如下：
1. 全局特征预排序，由于全局排序，后期节点再分裂可以复用全局排序信息，而不需要重新排序，因此排序复杂度为 O(MNlog(N))
2. 构建单树复杂度：由于XGBoost实现基于level-wise，每层的时间复杂度是为 O(MN) ，K颗树复杂度为 O(KMND)
3. 最终时间复杂度为： O(MNlog(N)) + O(KMND) ，注意：跟论文的分析不同，主要按照笔者的理解，后期仔细分析后，如果有出入会修正。

参考资料

Friedman Boosting框架论文：https://statweb.stanford.edu/~jhf/ftp/trebst.pdf
陈天奇XGBoost论文：https://arxiv.org/pdf/1603.02754.pdf
XGBoost项目：https://github.com/dmlc/xgboost
GK Summary算法论文：http://infolab.stanford.edu/~datar/courses/cs361a/papers/quantiles.pdf
A fast algorithm for approximate quantiles论文: https://pdfs.semanticscholar.org/03a0/f978de91f70249dc39de75e8958c49df4583.pdf
wepon GDBT ppt：http://202.38.196.91/cache/2/03/wepon.me/5aa84bcab4e621a09cc475c348590c35/gbdt.pdf

十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
Python处理大数据，如何提高处理速度 RS& #python python 大数据 pandas
Python处理大数据，如何提高处理速度？一、利用大数据分析工具Dask：https://dask.org/Dask简介：Dask支持Pandas的DataFrame和NumpyArray的数据结构，并且既可在本地计算机上运行，也可以扩展到在集群上运行。Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等。原理及使用方法：https://blog.
XGBoost调参demo（Python）妄念驱动机器学习算法 python 机器学习 XGBoost python
XGBoost我们用的是保险公司的一份数据#各种库importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsi
【python】Python实现XGBoost算法的详细理论讲解与应用实战景天科技苑 python轻松入门基础语法到高阶实战教学 python 算法开发语言 XGBoost算法 XGBoost python实现XGBoost 人工智能
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生K
每天一个数据分析题（五百零五）- 提升方法跟着紫枫学姐学CDA 数据分析题库数据分析
提升方法（Boosting），是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting的集成学习，其代表算法不包括？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据
每天一个数据分析题（五百零六）- 装袋方法跟着紫枫学姐学CDA 数据分析数据挖掘
装袋方法(bagging)也叫做bootstrapaggregating,是在原始数据集有放回地重采样S次后得到新数据集的一种技术，其代表算法有？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专
R语言使用caret包构建xgboost模型（xgbLinear算法）构建回归模型实战、通过method参数指定算法名称、通过trainControl函数控制训练过程 statistics.insight R语言入门课算法 r语言回归机器学习数据挖掘
R语言使用caret包构建xgboost模型（xgbLinear算法）构建回归模型实战、通过method参数指定算法名称、通过trainControl函数控制训练过程目录R语言使用caret包构建xgboost模型（xgbLinear算法）构建回归模型、通过method参数指定算法名称、通过trainControl函数控制训练过程#导入包和库#仿真数据#R语言使用caret包构建xgboost模型
LTE Network Quality Analysis Method Based on MR Data and XGBoost Algorithm YZRuin 网络机器学习人工智能
原文链接：LTENetworkQualityAnalysisMethodBasedonMRDataandXGBoostAlgorithm|IEEEConferencePublication|IEEEXploreBasicInformation:Title:LTENetworkQualityAnalysisMethodBasedonMRDataandXGBoostAlgorithm(基于MR数据和X
XGB-12:在 Kubernetes 上进行分布式 XGBoost 训练 uncle_ll #XGBoost kubernetes 分布式 xgb xgboost Python
通过KubeflowXGBoostTrainingOperator支持在Kubernetes上进行分布式XGBoost训练和批量预测。操作步骤为在Kubernetes集群上运行XGBoost作业，执行以下步骤：在Kubernetes集群上安装XGBoostOperator。XGBoostOperator旨在管理XGBoost作业的调度和监控。按照安装指南安装XGBoostOperator。编写由X
探索XGBoost：深度集成与迁移学习 Echo_Wish Python 笔记 Python算法迁移学习机器学习人工智能
导言深度集成与迁移学习是机器学习领域中的两个重要概念，它们可以帮助提高模型的性能和泛化能力。本教程将详细介绍如何在Python中使用XGBoost进行深度集成与迁移学习，包括模型集成、迁移学习的概念和实践等，并提供相应的代码示例。模型集成模型集成是一种通过组合多个模型来提高性能的技术。XGBoost提供了集成多个弱学习器的功能，可以通过设置booster参数来选择集成模型。以下是一个简单的示例：i
基于LightGBM的回归任务案例 python收藏家机器学习数据挖掘人工智能机器学习
在本文中，我们将学习先进的机器学习模型之一：Lightgbm。在对XGB模型进行了越来越多的改进以获得更好的性能之后，XGBoost是一种极限梯度提升机器，但通过lightgbm，我们可以在没有太多计算的情况下实现类似或更好的结果，并在更短的时间内在更大的数据集上训练我们的模型。让我们看看什么是LightGBM以及如何使用LightGBM执行回归。什么是LightGBM？LightGBM或“Lig
Task 11 XGBoost 算法分析与案例调参实例沫2021
1.XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在GradientBoosting框架下实现机器学习算法。XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速
ApacheCN 交流社区热点汇总 2019.3 布客飞龙
听说B站可以睡小姐姐？可是。。那个小姐姐就是我鸭！【每日一问】卷积、卷积核、卷积神经网络怎么理解？如果你没有经验怎么办？来ApacheCN免费实习把！出国留学-微信讨论组自然语言处理（NLP）学习路线【每日一问】ID3、C4.5、C5.0和CART有什么联系、区别和优劣？【每日一问】假设模型准确率接近的情况下，模型融合越多越好吗？【每日一问】1000W数据量，喂给xgboost的特征大概是多少维度
新思路：TCN-RVM模型，你见过吗？机器学习预测全家桶新增模型，MATLAB代码今天吃饺子机器学习 matlab 人工智能开发语言
截止到本期，一共发了13篇关于机器学习预测全家桶MATLAB代码的文章。参考文章如下：1.五花八门的机器学习预测？一篇搞定不行吗？2.机器学习预测全家桶，多步预测之BiGRU、BiLSTM、GRU、LSTM，LSSVM、TCN、CNN，光伏发电数据为例3.机器学习预测全家桶，多步预测之组合预测模型，光伏发电数据为例4.机器学习预测全家桶之Xgboost，交通流量数据预测为例，MATLAB代码5.机
学习笔记 2019-04-30 段勇_bf97
HousePrices-bagging_xgboost+lasso+ridgeKaggle入門級賽題：房價預測FFMPEG视音频编解码零基础学习方法35岁程序员的独家面试经历公司名称公司介绍薪水车辆工程专业33岁简历有些传感器方面的东西20k-35k非渣硕是如何获得百度、京东双SP一些面试经验20k-40k吴以均的简历一个大牛的简历北京航空航天大学毕业生的简历厦门大学软件学院毕业生的简历名称介绍H
XGboost集成学习亦旧sea 集成学习机器学习人工智能
XGBoost集成学习是一种基于决策树的集成方法，用于解决分类和回归问题。它是一种GradientBoosting（梯度提升）的改进版，通过使用一系列弱学习器（例如决策树）的集合来构建一个更强大的模型。XGBoost通过迭代的方式逐步优化模型的预测结果。在每一轮迭代中，它先计算模型的负梯度（残差），然后用一个新的弱学习器来拟合这个残差。接着，它将当前模型的预测结果与新学习器的预测结果相加，得到一个
GBDT算法的升级--XGBoost与LightGBM算法 CquptDJ 数据挖掘机器学习机器学习算法数据挖掘人工智能大数据
本文同样不涉及公式推导及代码，对于GBDT算法的学习可以参考前面的文章GBDT算法原理，这里不再讲述GBDT，只讲述XGBoost与LightGBM算法原理下面推荐两篇写得最权威最官方(没有之一)的文档参考文档：XGBoost官方文档(全英文)LightGBM官方文档(全英文)关于GBDT算法，优点非常多，可以算是将boosting的思想发挥到了极致，处理许多数据效果都是非常好，但是正所谓人无完人
XGboost和lightGBM算法对比亦旧sea 算法
XGBoost（eXtremeGradientBoosting）和LightGBM（LightGradientBoostingMachine）都是一类基于梯度提升树（GradientBoostingDecisionTrees）的机器学习算法。XGBoost是由陈天奇开发的一种优化的梯度提升框架，它可以用于分类和回归问题。XGBoost通过将多个弱学习器（通常是决策树）组合成一个强学习器来提高预测性
探索XGBoost：时间序列数据建模 Echo_Wish Python 笔记 Python算法 python 算法开发语言
导言XGBoost是一种强大的机器学习算法，广泛应用于各种领域的数据建模任务中。但是，在处理时间序列数据时，需要特别注意数据的特点和模型的选择。本教程将深入探讨如何在Python中使用XGBoost建模时间序列数据，包括数据准备、特征工程和模型训练等方面，并提供相应的代码示例。准备数据在处理时间序列数据之前，首先需要准备数据。通常，时间序列数据是按照时间顺序排列的，每个时间点都有相应的观测值。以下
探索XGBoost：多分类与不平衡数据处理 Echo_Wish Python算法 Python 笔记分类数据挖掘人工智能
导言XGBoost是一种强大的机器学习算法，广泛应用于各种分类任务中。但在处理多分类和不平衡数据时，需要特别注意数据的特点和模型的选择。本教程将深入探讨如何在Python中使用XGBoost处理多分类和不平衡数据，包括数据准备、模型调优和评估等方面，并提供相应的代码示例。准备数据首先，我们需要准备多分类和不平衡的数据集。以下是一个简单的示例：importpandasaspdfromsklearn.
机器学习之xgboost算法及特征筛选和GridSearchCV Jlan
importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearnimportmetricsimportpicklefromxgboost.sklearnimportXGBRegressorfromsklearn.preprocessingimportStandardScalerfromclean_dataimportpre
智慧海洋建设-Task4模型建立 1598903c9dd7
模型建立：bagging方法--随机森林：太耗时间了。boosting方法：lightGBM模型：https://blog.csdn.net/wuzhongqiang/article/details/105350579Xgboost模型：https://blog.csdn.net/wuzhongqiang/article/details/104854890集成模型集成方法（ensemblemeth
XGBoost算法小森( ﹡ˆoˆ﹡ ) 机器学习算法算法人工智能机器学习
XGBoost在机器学习中被广泛应用于多种场景，特别是在结构化数据的处理上表现出色，XGBoost适用于多种监督学习任务，包括分类、回归和排名问题。在数据挖掘和数据科学竞赛中，XGBoost因其出色的性能而被频繁使用。例如，在Kaggle平台上的许多获奖方案中，XGBoost都发挥了重要作用。此外，它在处理缺失值和大规模数据集上也有很好的表现。XGBoost是一种基于梯度提升决策树（GBDT）的算
深入理解XGBoost：集成学习与堆叠模型 Echo_Wish Python 笔记 Python算法集成学习机器学习人工智能
导言XGBoost是一种强大的集成学习算法，但在解决复杂问题时，单个模型可能无法达到最佳性能。集成学习和堆叠模型是两种有效的方法，可以进一步提高模型的性能。本教程将深入探讨如何在Python中应用集成学习和堆叠模型，使用代码示例详细说明这些概念。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipinstallxgboost集成学习集成
掌握XGBoost：特征工程与数据预处理 Echo_Wish Python算法 Python 笔记机器学习 python 人工智能
掌握XGBoost：特征工程与数据预处理导言在应用XGBoost模型之前，特征工程和数据预处理是至关重要的步骤。良好的特征工程和数据预处理可以显著提高模型的性能。本教程将介绍在Python中使用XGBoost进行特征工程和数据预处理的中级教程，通过代码示例详细说明各种技术和方法。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipins
机器学习 | 深入集成学习的精髓及实战技巧挑战亦世凡华、 #机器学习机器学习集成学习人工智能 boosting xgboost
目录xgboost算法简介泰坦尼克号乘客生存预测(实操)lightGBM算法简介《绝地求生》玩家排名预测(实操)xgboost算法简介XGBoost全名叫极端梯度提升树，XGBoost是集成学习方法的王牌，在Kaggle数据挖掘比赛中，大部分获胜者用了XGBoost。XGBoost在绝大多数的回归和分类问题上表现的十分顶尖，接下来将较详细的介绍XGBoost的算法原理。最优模型构建方法：构建最优模
探索XGBoost：参数调优与模型解释 Echo_Wish Python 笔记 Python算法 python 算法开发语言分布式
导言XGBoost是一种高效的机器学习算法，广泛应用于数据科学和机器学习任务中。本教程将介绍XGBoost的中级用法，重点关注参数调优和模型解释。我们将使用代码示例来说明这些概念，帮助您更好地理解和应用XGBoost。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipinstallxgboost参数调优XGBoost有许多参数可以调整
称霸kaggle的XGBoost究竟是啥？猴小白
一、前言：kaggle神器XGBoost相信入了机器学习这扇门的小伙伴们一定听过XGBoost这个名字，这个看起来朴实无华的boosting算法近年来可算是炙手可热，别的不说，但是大家所熟知的kaggle比赛来看，说XGBoost是“一统天下”都不为过。业界将其冠名“机器学习竞赛的胜利女神”，当然，相信很多小伙伴也看过很多文章称其为“超级女王”。那么问题来了，为啥是女的？（滑稽~）XGBoost全
推荐收藏 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结 Pysamlam
作者：ChrisCaohttps://zhuanlan.zhihu.com/p/75468124一.决策树决策树是一个有监督分类模型，本质是选择一个最大信息增益的特征值进行分割，直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图：根据分割指标和分割方法，可分为：ID3、C4.5、CART算法。1.ID3算法：以信息增益为准则来选择最优划分属性信息增益的计算是基于信息熵（度量样本集合纯
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l