文文学霸

深入理解XGboost

XGBoost

Author：Miracle8070

From：AI蜗牛车

1. 写在前面

如果想从事数据挖掘或者机器学习的工作，掌握常用的机器学习算法是非常有必要的，在这简单的先捋一捋，常见的机器学习算法：

监督学习算法：逻辑回归，线性回归，决策树，朴素贝叶斯，K近邻，支持向量机，集成算法Adaboost等
无监督算法：聚类，降维，关联规则, PageRank等

这个系列已经基本包含了上面这些算法的原理和基本使用。但是，如果仅仅是会用这些算法可是不够的，我们也得跟着时代的步伐前进，近几年，有很多大佬又在上面的某些算法上加以改进，发明了更加厉害的算法，而这些算法才是当今时代解决问题的主流，所以我们学习的一个方式就是掌握传统，而又得紧跟时代。

所以，后面考虑加上当前流行的一些主流机器学习算法，既当复习，又当提升。由于不想和传统的机器学习算法混合起来，故称之为番外，也是传统机器学习算法的延伸，同样是尽量白话，同样是丰富实战，但会夹杂数学的身影，毕竟后面的很多算法如果没有了数学就仿佛失去了灵魂，无法活灵活现。所以机器学习算法的故事还没有完，我们还得继续走着。

学习算法的过程，获得的不应该只有算法理论，还应该有乐趣和解决实际问题的能力！

今天分享的这个算法堪称数据科学竞赛界的神器，它似乎是用于赢得数据科学竞赛的分类器/预测器必不可少的算法，那就是Xgboost。听这个名字，你可能一下就想到了传统机器学习算法里面的AdaBoost，哈哈，联想和对比才能更加理解算法的精华。你还别说，这个算法和那个来自于同一个家族，都是集成学习算法，都属于boosting流派，但是两者的boosting采用了不同的策略，而就是这策略的不同，导致xgboost成了目前竞赛者眼中的红人，它是目前最快最好的开源 boosting tree 工具包，比常见的工具包快 10 倍以上，那么xgboost到底采用了什么策略呢？它又是如何做到高准确率和高速度的呢？Xgboost和AdaBoost到底有什么不同呢？Xgboost又如何来解决实际问题呢？这些问题，在这篇文章中都会一一来解剖。

大纲如下:

Xgboost？这个故事还得先从AdaBoost和GBDT说起
Xgboost的基本原理（基于例子我们来看看好玩的公式推导）
Xgboost的实战应用（这里用xgboost做一个分类任务，然后说一下基本使用和高级功能）

Ok， let's go!

2. Xgboost? 这个故事还得先从AdaBoost和GBDT说起

我觉得，学习一个算法的时候，有时候不能直接单拿出一个算法来说，这样感觉显得突兀了些，不知道突然从哪冒出来一样。所以，讲Xgboost之前，我想先带你回顾一下我们之前的集成学习。

所谓集成学习，就是指构建多个弱分类器对数据集进行预测，然后用某种策略将多个分类器预测的结果集成起来，作为最终预测结果。在这里就不再讲了（可以理解成集成学习是一种把大家伙叫到一块，集思广益想办法解决问题的方式吧），在这里想说的是集成学习的那两大流派：Boosting和Bagging。

怎么还有两个流派呢？集思广益不就完事？哈哈，集思广益也有不同的方式吗？比如针对同一个问题，把问题划分成不相干的子问题，然后分派给不同的人各干各的是一种，或者同一个问题，划分成串行的子问题，先由一个人解决一部分，解决不了的，后面的人再来这又是一种。把上面这两种方式用官方的语言描述就是：根据各个弱分类器之间有无依赖关系，分为Boosting和Bagging。

Boosting流派，各分类器之间有依赖关系，必须串行，比如Adaboost、GBDT(Gradient Boosting Decision Tree)、Xgboost
Bagging流派，各分类器之间没有依赖关系，可各自并行，比如随机森林（Random Forest）

关于Bagging流派的Random Forest（随机森林）算法，也是比较常用的，简单的说就是各个弱分类器是独立的、每个分类器在样本堆里随机选一批样本，随机选一批特征进行独立训练，各个分类器之间没有啥关系，最后投票表决，这个在这里不做详述，后面遇到的时候再统一总结，今天的主角是Xgboost，所以我们主要是了解一下Boosting流派，这这里面的最具代表性的算法之一就是AdaBoost，这个我这里不做过多的表述，详细的可以看一下专栏之前的文章, 这里只回顾一下它的算法原理，这样好引出后面的GBDT和Xgboost，并且可以进行策略上的对比。

AdaBoost，是英文"Adaptive Boosting"（自适应增强），它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。白话的讲，就是它在训练弱分类器之前，会给每个样本一个权重，训练完了一个分类器，就会调整样本的权重，前一个分类器分错的样本权重会加大，这样后面再训练分类器的时候，就会更加注重前面分错的样本，然后一步一步的训练出很多个弱分类器，最后，根据弱分类器的表现给它们加上权重，组合成一个强大的分类器，就足可以应付整个数据集了。这就是AdaBoost，它强调自适应，不断修改样本权重，不断加入弱分类器进行boosting。

那么，boosting还有没有别的方式呢？GBDT(Gradient Boost Decision Tree)就是另一种boosting的方式，上面说到AdaBoost训练弱分类器关注的是那些被分错的样本，AdaBoost每一次训练都是为了减少错误分类的样本。而GBDT训练弱分类器关注的是残差，也就是上一个弱分类器的表现与完美答案之间的差距，GBDT每一次训练分类器，都是为了减少这个差距，GBDT每一次的计算是都为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新的模型。这是什么意思呢？我可以举个例子，假设我们去银行借钱，我们想让一个决策树系统来预测可以借给我们多少钱，如果标准答案是1000的话，假设第一棵决策树预测，可以借给我们950块钱，那么离标准答案的1000还差50，效果不算好，能不能提高一些呢？我们就再加一棵决策树，这课决策树过来之后，看到前面的那个已经预测到950了，只是差50，那么我可以聚焦在这个50上，把这个残差变得再小一些，所以第二个决策树预测结果是30，那么前两棵决策树预测结果结合起来是980，离标准答案差20，所以加了一棵树之后，效果好了。那么还能不能提升呢？我再来一棵树，发现残差只有20了，那我把残差变得再小，结果第三个决策树预测20，那么这三棵树就可以正确的预测最终的1000了。

所以GBDT就是这样的一个学习方式了，GBDT是boosting集成学习，boosting集成学习由多个相关联的决策树联合决策，什么是相关联？就是我上面的例子：

有一个样本[数据->标签]是：[(feature1，feature2，feature3)-> 1000块]
第一棵决策树用这个样本训练的预测为950
那么第二棵决策树训练时的输入，这个样本就变成了：[(feature1，feature2，feature3)->50]
第二棵决策树用这个样本训练的预测为30
那么第三棵决策树训练时的输入，这个样本就变成了：[(feature1，feature2，feature3)->20]
第三棵决策树用这个样本训练的预测为20

搞定，也就是说，下一棵决策树输入样本会与前面决策树的训练和预测相关。用个图来表示类似这样：这就是GBDT的工作原理了， GBDT是旨在不断减少残差（回归），通过不断加入新的树旨在在残差减少（负梯度）的方向上建立一个新的模型。——即损失函数是旨在最快速度降低残差。

那么为啥要讲GBDT呢？我先卖个关子，不妨先看一下xgboost是怎么解决问题的。这里用xgboost原作者陈天奇的讲座PPT中的那个图来看假设我想预测，这一家子人中每个人想玩游戏的意愿值。我们用xgboost解决这个问题，就是我先训练出来第一棵决策树，预测了一下小男孩想玩游戏的意愿是2，然后发现离标准答案差一些，又训练出来了第二棵决策树，预测了一下小男孩想玩游戏的意愿是0.9，那么两个相加就是最终的答案2.9。这个其实就接近了标准答案。所以xgboost是训练出来的弱分类结果进行累加就是最终的结论。

恩，你可能要拍案而起了，惊呼，这不是跟上面介绍的GBDT乃异曲同工么？事实上，如果不考虑工程实现、解决问题上的一些差异，xgboost与gbdt比较大的不同就是目标函数的定义，但这俩在策略上是类似的，都是聚焦残差（更准确的说， xgboost其实是gbdt算法在工程上的一种实现方式），GBDT旨在通过不断加入新的树最快速度降低残差，而XGBoost则可以人为定义损失函数（可以是最小平方差、logistic loss function、hinge loss function或者人为定义的loss function），只需要知道该loss function对参数的一阶、二阶导数便可以进行boosting，其进一步增大了模型的泛化能力，其贪婪法寻找添加树的结构以及loss function中的损失函数与正则项等一系列策略也使得XGBoost预测更准确。

所以，这就是我讲Xgboost的故事之前，要简单说一下AdaBoost和GBDT的原因了，这样脑海里面是不是对xgboost不那么陌生了啊，你要知道，这三个同是属于集成学习的boosting流派，AdaBoost叫做自适应提升，和GBDT，Xgboost提升时采用的策略不同，前者聚焦错误样本，后者聚焦与标准答案的残差。而GBDT和Xgboost叫做boosting集成学习，提升时策略类似，都是聚焦残差，但是降低残差的方式又各有不同。

好了，铺垫到此为止，下面真正进入主角部分 -- Xgboost的基本原理。

3. Xgboost的基本原理

Xgboost 的全称是eXtreme Gradient Boosting，由华盛顿大学的陈天奇博士提出，在Kaggle的希格斯子信号识别竞赛中使用，因其出众的效率与较高的预测准确度而引起了广泛的关注。

如果boosting算法每一步的弱分类器生成都是依据损失函数的梯度方向，则称之为梯度提升(Gradient boosting)，XGBoost算法是采用分步前向加性模型，只不过在每次迭代中生成弱学习器后不再需要计算一个系数，XGBoost 是由 k 个基模型组成的一个加法运算式：

其中为第k个基模型，为第i个样本的预测值。那么损失函数可由预测值与真实值进行表示：

其中n为样本数量。

★
XGBoost算法通过优化结构化损失函数（加入了正则项的损失函数，可以起到降低过拟合的风险）来实现弱学习器的生成，并且XGBoost算法没有采用搜索方法，而是直接利用了损失函数的一阶导数和二阶导数值，并通过预排序、加权分位数等技术来大大提高了算法的性能。
”

说到这里，估计你已经看不下去了吧，这说的啥跟啥啊，听不懂啦啊！但其实我上面只是用数学的语言来说了一下前面举得xgboost的那个例子，对于某个样本，有若干个弱分类器做预测，最后的预测结果就是弱分类器的答案累加（注意此时没有权重了，如果你还记得AdaBoost模型的话，会发现那个地方每个分类器前面会有个权重，最终分类器是，不骗你哟），这是上面的第一个公式，第二个公式就是说我怎么判断对于整个数据集预测的准不准啊，就得有个损失函数啊，对比一下与真实值的差距，n个样本，我都对比一下子。这个表示的某种损失函数，你可以先理解成平方差损失。

如此白话，应该能听懂了吧，但还没真正讲xgboost的数学原理呢，所以后面的数学原理我打算换一种方式，从一个例子展开，剖析数学公式，这里面就全是数学的原理了，如果你感觉直接上数学压力有点大，那么可以先跟着我继续往下，从一个例子中看看xgboost树到底是如何生成的，然后再回头看数学原理也不迟 ;)

下面就通过算法流程图举一个例子来详解xgboost树的生成。

先给出一个流程图，不懂不要紧，可以看一遍后面的步骤，然后再回来：为了让xgboost数学原理的部分不那么boring，我们跟着一个例子走吧：

★
假设我想预测学生考试分数，给定若干个学生属性(比如天赋，每天学习时间，是否谈恋爱等)，

通过一个决策树A，我们可以看到一个天赋属性的预测结果：天赋高的人+90，不高的人+60

通过决策树B, 可以看到每天学习时间高于10小时的+5，低于10小时的-5

通过决策树C，可以看到谈恋爱的-1，单身狗的+1

后面依次类推，还可能有更多的决策树通过学生的某些属性来推断分数。

XGboost就是这样一个不断生成新的决策树A,B,C,D…的算法，最终生成的决策树算法就是树A+B+C+D+…的和的决策树。
”

我们针对这个问题看看详细的建树过程吧：

首先，我们有三个学生，属性和标签如下：我们初始化三个样本的考试成绩预测值为0。
定义目标函数：模型的预测精度由偏差和方差共同决定，损失函数代表了模型的偏差，想要方差小则需要更简单的模型，所以目标函数最终由损失函数L与抑制模型复杂度的正则项Ω组成，所以目标函数如下：

这个公式应该不需要过多的解释了吧，其中是正则化项

前面的为叶子节点数，表示j叶子上的节点权重，，是预先给定的超参数。引入了正则化之后，算法会选择简单而性能优良的模型，正则化项只是用来在每次迭代中抑制弱分类器过拟合，不参与最终模型的集成。（这个正则化项可以先不用管它，有个印象即可，后面树那个地方会统一解释）

我们下面看看这个目标函数还能不能化简呢？
我们知道， boosting模型是前向加法，以第t步模型为例，模型对第i个样本的预测为：

其中，是第t-1步的模型给出的预测值，是已知常数，是我们这次需要加入的新模型，所以把这个代入上面，就可以进一步化简：

这个就是xgboost的目标函数了，最优化这个目标函数，其实就是相当于求解当前的。Xgboost系统的每次迭代都会构建一颗新的决策树，决策树通过与真实值之间残差来构建。什么，没有看到残差的身影？别急，后面会看到这个残差长什么样子。
我们回到我们的例子，假设已经根据天赋这个属性建立了一棵决策树A（关于如何建树在这里不做解释，可以看看[白话机器学习算法理论+实战之决策树]），只不过这里的树分裂计算收益的方式换了一种，后面会具体说到。

我们有了第一棵树，通过这个树的预测结果：那么我们建立第二棵树的时候，我们是考虑的残差，也就是样本其实变成了下面这样：通过最小化残差学习到一个通过学习时间属性构建的决策树得到了90+5，60+5，90-5的预测值，再继续通过（100-95=5）（70-65）（86-85）的残差构建下一个决策树，以此类推，当迭代次数达到上限或是残差不再减小是停止，就得到一个拥有多个（迭代次数）决策树的强分类器。这个就是xgboost工作的宏观过程了。光宏观部分确实挺好理解，但具体细节呢？比如我每一次建树是怎么建的呢？既然说计算收益的方式不同，那么我考虑分裂的时候是怎么计算收益的呢？目前你心中肯定会有这些疑问，莫慌莫慌，下面我把建树的细节给你娓娓道来，不过道来的过程中得崎岖一点，需要用到数学的语言。

那么究竟是如何得到一棵新的树的呢？下面就是Xgboost的精髓了。前方高能，一大波数学公式来袭，请戴好安全帽！！！

目标函数的Taylor化简：这是Xgboost的精髓了。我们首先看一个关于目标函数的简单等式变换，把上面的目标函数拿过来：

我们看看这里的，这个部分，如果结合伟大的Taylor的话，会发生什么情况，你还记得泰勒吗？

★ 在这里插入图片描述 ”

根据Taylor公式，我们把函数在点处二阶展开，可得到：

那么我们把中的视为 , 视为，那么目标函数就可以写成：

其中是损失函数的一阶导数，是损失函数的二阶导，注意这里的求导是对求导。

★
这里我们以平方损失函数为例：
”

★
则对于每一个样本：
”

由于在第t步时是一个已知的值，所以是一个常数，其对函数的优化不会产生影响，因此目标函数可以进一步写成：

所以我们只需要求出每一步损失函数的一阶导和二阶导的值（由于前一步的是已知的，所以这两个值就是常数），然后最优化目标函数，就可以得到每一步的 f(x) ，最后根据加法模型得到一个整体模型。
但是还有个问题，就是我们如果是建立决策树的话，根据上面的可是无法建立出一棵树来。因为这里的是什么鬼？咱不知道啊！所以啊，还得进行一步映射，将样本x映射到一个相对应的叶子节点才可以，看看是怎么做的？

基于决策树的目标函数的终极化简上面的目标函数先放下来：

我们这里先解决一下这个的问题，这个究竟怎么在决策树里面表示呢？那解决这个问题之前，我们看看这个表示的含义是什么，就是我有一个决策树模型，是每一个训练样本，那么这个整体就是我某一个样本经过决策树模型得到的一个预测值，对吧？那么，我如果是在决策树上，可以这么想，我的决策树就是这里的，然后对于每一个样本，我要在决策树上遍历获得预测值，其实就是在遍历决策树的叶子节点，因为每个样本最终通过决策树都到了叶子上去，不信？看下图（样本都在叶子上，只不过这里要注意一个叶子上不一定只有一个样本）：所以，通过决策树遍历样本，其实就是在遍历叶子节点。这样我们就可以把问题就行转换，把决策树模型定义成 , 其中代表了该样本在哪个叶子节点上，表示该叶子节点上的权重（上面分数预测里面+90， +60就是叶子节点的权重）。所以就代表了每个样本的取值（预测值）。那么这个样本的遍历，就可以这样化简：

这个再解释一遍就是：遍历所有的样本后求每个样本的损失函数，但样本最终会落在叶子节点上，所以我们也可以遍历叶子节点，然后获取叶子节点上的样本集合（注意第二个等式和第三个等式求和符号的上下标， T代表叶子总个数）。由于一个叶子节点有多个样本存在，所以后面有了和这两项，这里的它代表一个集合，集合中每个值代表一个训练样本的序号，整个集合就是某棵树第j个叶子节点上的训练样本 , 为第j个叶子节点的取值。只要明白了这一步，后面的公式就很容易理解了。
我们再解决一下后面那部分，在决策树中，决策树的复杂度可由叶子数 T 组成，叶子节点越少模型越简单，此外叶子节点也不应该含有过高的权重 w （类比 LR 的每个变量的权重），所以目标函数的正则项可以定义为：

即决策树模型的复杂度由生成的所有决策树的叶子节点数量( 权衡)，和所有节点权重( 权衡)所组成的向量的范式共同决定。这张图给出了基于决策树的 XGBoost 的正则项的求解方式。

这样，目标函数的前后两部分都进行了解决，那么目标函数就可以化成最后这个样子，看看能懂吗？

这里的为第j个叶子节点的样本集合。为了简化表达式，我们再定义：，那么决策树版本xgboost的目标函数：

这里要注意和是前t-1步得到的结果，其值已知，只有最后一棵树的叶子节点的值不确定，那么将目标函数对求一阶导，并令其等于0，，则可以求得叶子节点j对应的权值：

那么这个目标函数又可以进行化简：

这个就是基于决策树的xgboost模型的目标函数最终版本了，这里的G和H的求法，就需要明确的给出损失函数来，然后求一阶导和二阶导，然后代入样本值即得出。
这个代表了当我们指定一个树的结构的时候，我们在目标上最多能够减少多少，我们之前不是说建立一个树就是让残差尽可能的小吗？到底小多少呢？这个就是衡量这个的，可以叫做结构分数。就类似于基尼系数那样对树结构打分的一个函数。那么这个分数怎么算呢？看下面的例子：

★
还是上面的那个预测玩游戏的意愿，我们假设建了右边的那棵树，那么每个样本都对应到了叶子节点上去，每一个样本都会对应一个g和h，那么我们遍历叶子节点，就会得到G和H，然后累加就可以得到这棵树的结构分数obj（这里有个小细节就是假设有N个训练样本，那么就会有N次计算各自的和 , 但是由于每个样本的和没有啥关系，所以可以并行计算，这样就可以加速训练了，而且，和是不依赖于损失函数的形式的，只要这个损失函数二次可微就可以了, emmm...powerful）。

有了这个，我们就知道这棵树建的好不好了。
”

上面是可以判断出来一棵树究竟好不好，那么建立树的时候应该怎么建立呢？一棵树的结构近乎无限多，总不能一个一个去测算它们的好坏程度，然后再取最好的吧（这是个NP问题）。所以，我们仍然需要采取一点策略，这就是逐步学习出最佳的树结构。这与我们将K棵树的模型分解成一棵一棵树来学习是一个道理，只不过从一棵一棵树变成了一层一层节点而已。这叫什么？emmm, 贪心（找到每一步最优的分裂结果）！xgboost采用二叉树，开始的时候，全部样本在一个叶子节点上，然后叶子节点不断通过二分裂，逐渐生成一棵树。

那么在叶子节点分裂成树的过程中最关键的一个问题就是应该在哪个特征的哪个点上进行分裂，也就是寻找最优切分点的过程。

最优切分点划分算法及优化策略在决策树的生长过程中，一个非常关键的问题是如何找到节点的最优切分点，我们学过了决策树的建树过程，那么我们知道ID3也好，C4.5或者是CART，它们寻找最优切分点的时候都有一个计算收益的东西，分别是信息增益，信息增益比和基尼系数。而xgboost这里的切分，其实也有一个类似于这三个的东西来计算每个特征点上分裂之后的收益。

★
假设我们在某一节点完成特征分裂，则分列前的目标函数可以写为：

分裂后的目标函数：

则对于目标函数来说，分裂后的收益为（Obj1-Obj2）：
”
注意该特征收益也可作为特征重要性输出的重要依据。
那么我们就可以来梳理一下最优切分点的划分算法了：

从深度为 0 的树开始，对每个叶节点枚举所有的可用特征；
针对每个特征，把属于该节点的训练样本根据该特征值进行升序排列，通过线性扫描的方式来决定该特征的最佳分裂点，并记录该特征的分裂收益；（这个过程每个特征的收益计算是可以并行计算的，xgboost之所以快，其中一个原因就是因为它支持并行计算，而这里的并行正是指的特征之间的并行计算，千万不要理解成各个模型之间的并行）
选择收益最大的特征作为分裂特征，用该特征的最佳分裂点作为分裂位置，在该节点上分裂出左右两个新的叶节点，并为每个新节点关联对应的样本集（这里稍微提一下，xgboost是可以处理空值的，也就是假如某个样本在这个最优分裂点上值为空的时候，那么xgboost先把它放到左子树上计算一下收益，再放到右子树上计算收益，哪个大就把它放到哪棵树上。）
回到第 1 步，递归执行到满足特定条件为止

上面就是最优切分点划分算法的过程，看完之后，是不是依然懵逼，这到底是怎么做的啊，下面就看一个寻找最优切分点的栗子吧：
还是上面玩游戏的那个例子，假设我有这一家子人样本，每个人有性别，年龄，兴趣等几个特征，我想用xgboost建立一棵树预测玩游戏的意愿值。首先，五个人都聚集在根节点上，现在就考虑根节点分叉，我们就遍历每个特征，对于当前的特征，我们要去寻找最优切分点以及带来的最大收益，比如当前特征是年龄，我们需要知道两点：* 按照年龄分是否有效，也就是是否减少了obj的值* 如果真的可以分，特征收益比较大，那么我们从哪个年龄点分开呢？

对于这两个问题，我们可以这样做，首先我们先把年龄进行一个排序，如下图：按照这个图从左至右扫描，我们就可以找出所有的切分点a，对于每一个切分点a，计算出分割的梯度和和。然后用上面的公式计算出每个分割方案的分数。然后哪个最大，就是年龄特征的最优切分点，而最大值就是年龄这个特征的最大信息收益。

遍历完所有特征后，我们就可以确定应该在哪个特征的哪个点进行切分。对切分出来的两个节点，递归地调用这个过程，我们就能获得一个相对较好的树结构，有了树结构就比较容易找最优的叶子节点，这样就能对上面的样本进行预测了。当然，特征与特征之间的收益计算是互不影响的，所以这个遍历特征的过程其实可以并行运行。

在这个过程中你是否注意到了一个问题，就是xgboost的切分操作和普通的决策树切分过程是不一样的。普通的决策树在切分的时候并不考虑树的复杂度，所以才有了后续的剪枝操作。而xgboost在切分的时候就已经考虑了树的复杂度（obj里面看到那个了吗）。所以，它不需要进行单独的剪枝操作。

这就是xgboost贪心建树的一个思路了，即遍历所有特征以及所有分割点，每次选最好的那个。GBDT也是采用的这种方式，这算法的确不错，但是有个问题你发现了没？就是计算代价太大了，尤其是数据量很大，分割点很多的时候，计算起来非常复杂并且也无法读入内存进行计算。所以作者想到了一种近似分割的方式（可以理解为分割点分桶的思路），选出一些候选的分裂点，然后再遍历这些较少的分裂点来找到最佳分裂点。那么怎么进行分桶选候选分裂点才比较合理呢？我们一般的思路可能是根据特征值的大小直接进行等宽或者等频分桶，像下面这样（这个地方理解起来有点难，得画画了，图可能不太好看，能说明问题就行，哈哈）：

在这里插入图片描述

上面就是等频和等宽分桶的思路了（这个不用较真，我这里只是为了和作者的想法产生更清晰的对比才这样举得例子），这样选择出的候选点是不是比就少了好多了？但是这样划分其实是有问题的，因为这样划分没有啥依据啊，比如我上面画的等频分桶，我是5个训练样本放一个桶，但是你说你还想10个一组来，没有个标准啥的啊。即上面那两种常规的划分方式缺乏可解释性，所以重点来了，作者这里采用了一种对loss的影响权重的等值percentiles（百分比分位数）划分算法（Weight Quantile Sketch），我上面的这些铺垫也正是为了引出这个方式，下面就来看看作者是怎么做的，这个地方其实不太好理解，所以慢一些

作者进行候选点选取的时候，考虑的是想让loss在左右子树上分布的均匀一些，而不是样本数量的均匀，因为每个样本对降低loss的贡献可能不一样，按样本均分会导致分开之后左子树和右子树loss分布不均匀，取到的分位点会有偏差。这是啥意思呢？再来一个图（这个图得看明白了）：这其实就是作者提出的那种找候选节点的方式（分桶的思路），明白了这个图之后，下面就是解释一下上面这个图的细节：第一个就是是啥？它为啥就能代表样本对降低loss的贡献程度？第二个问题就是这个bin是怎么分的，为啥是0.6一个箱？

下面从第一个问题开始，揭开的神秘面纱，其实上面已经说过了，损失函数在样本处的二阶导数啊！还记得开始的损失函数吗？

就是这个，那么你可能要问了，为啥它就能代表第个样本的权值啊？这里再拓展一下吧，我们在引出xgboost的时候说过，GBDT这个系列都是聚焦在残差上面，但是我们单看这个目标函数的话并没有看到什么残差的东西对不对？其实这里这个损失函数还可以进一步化简的（和上面的化简不一样，上面的化简是把遍历样本转到了遍历叶子上得到基于决策树的目标函数，这里是从目标函数本身出发进行化简）：

这样化简够简洁明了了吧，你看到残差的身影了吗？后面的每一个分类器都是在拟合每个样本的一个残差 , 其实把上面化简的平方损失函数拿过来就一目了然了。而前面的可以看做计算残差时某个样本的重要性,即每个样本对降低loss的贡献程度。第一个问题说的听清楚了吧 ;)

PS：这里加点题外话，Xgboost引入了二阶导之后，相当于在模型降低残差的时候给各个样本根据贡献度不同加入了一个权重，这样就能更好的加速拟合和收敛，GBDT只用到了一阶导数，这样只知道梯度大的样本降低残差效果好，梯度小的样本降低残差不好（这个原因我会放到Lightgbm的GOSS那里说到），但是好与不好的这个程度，在GBDT中无法展现。而xgboost这里就通过二阶导可以展示出来，这样模型训练的时候就有数了。

下面再解释第二个问题，这个分箱是怎么分的？比如我们定义一个数据集代表每个训练样本的第个特征的取值和二阶梯度值，那么我们可以有一个排名函数：

这里的代表特征值小于的那些样本。这个排名函数表示特征值小于z的样本的贡献度比例。假设上面图中，z是第一个候选点，那么 , 这个东西的目的就是去找相对准确的候选点 , 这里的，而相邻两个桶之间样本贡献度的差距应满足下面这个函数：

这个控制每个桶中样本贡献度比例的大小，其实就是贡献度的分位点。我们自己设定。比如在上面图中我们设置了 , 这意味着每个桶样本贡献度的比例是1/3(贡献度的1/3分位点), 而所有的样本贡献度总和是1.8，那么每个箱贡献度是0.6( )，分为3（）个箱，上面这些公式看起来挺复杂，可以计算起来很简单，就是计算一下总的贡献度，然后指定 , 两者相乘得到每个桶的贡献度进行分桶即可。这样我们就可以确定合理的候选切分点，然后进行分箱了。

到这终于把这一块描述完了，有点多，稍微理一理逻辑，前面那一部分是围绕着如何建立一棵树进行的，即采用贪心的方式从根节点开始一层层的建立树结构（每一层争取最优），然后就是建树过程中一个关键的问题：如何寻找最优切分点，给出了最优切分点算法，基于这个算法就可以建立树了。后面这一部分是一个优化的过程，提出了一种Weight Quantile Sketch的算法，这个算法可以将原来的分割点进行分桶，然后找到合适的候选分裂点，这样可以减少遍历时尝试的分裂点的数量，是xgboost相比于GBDT做出的切分点优化策略，现在知道为啥xgboost要快了吧，因为xgboost寻找切分点的时候不用遍历所有的，而是只看候选点就可以了。而且在特征上，xgboost是可以并行处理的。这样xgboost的建树过程及优化策略基本上就是这些了，当然这里面还有很多的细节，由于篇幅的原因就不写在这里了。

利用新的决策树预测样本值，并累加到原来的值上若干个决策树是通过加法训练的，所谓加法训练，本质上是一个元算法，适用于所有的加法模型，它是一种启发式算法。运用加法训练，我们的目标不再是直接优化整个目标函数，而是分步骤优化目标函数，首先优化第一棵树，完了之后再优化第二棵树，直至优化完K棵树。整个过程如下图所示：

在这里插入图片描述

上图中会发现每一次迭代得到的新模型前面有个（这个是让树的叶子节点权重乘以这个系数），这个叫做收缩率，这个东西加入的目的是削弱每棵树的作用，让后面有更大的学习空间，有助于防止过拟合。也就是，我不完全信任每一个残差树，每棵树只学到了模型的一部分，希望通过更多棵树的累加来来弥补，这样让这个让学习过程更平滑，而不会出现陡变。这个和正则化防止过拟合的原理不一样，这里是削弱模型的作用，而前面正则化是控制模型本身的复杂度。

好了，到这里为止，xgboost的数学原理部分就描述完了，希望我描述清楚了吧。简单的回顾一下上面的过程吧: xgboost是好多弱分类器的集成，训练弱分类器的策略就是尽量的减小残差，使得答案越来越接近正确答案。xgboost的精髓部分是目标函数的Taylor化简，这样就引入了损失函数的一阶和二阶导数。然后又把样本的遍历转成了对叶子节点的遍历，得到了最终的目标函数。这个函数就是衡量一棵树好坏的标准。在建树过程中，xgboost采用了贪心策略，并且对寻找分割点也进行了优化。基于这个，才有了后面的最优点切分建立一棵树的过程。xgboost训练的时候，是通过加法进行训练，也就是每一次只训练一棵树出来，最后的预测结果是所有树的加和表示。

关于xgboost，依然还有很多的细节没有说到，具体的去看论文吧。下面，我们就进行xgboost的实战部分，这里我们简单的做一个分类任务，主要是看看xgboost主要怎么用，尤其是在一个数据竞赛中（这次重点总结了一些用法）。

3. Xgboost实战二分类

安装：默认可以通过pip安装，若是安装不上可以通过:

https://www.lfd.uci.edu/~gohlke/pythonlibs/

网站下载相关安装包,将安装包拷贝到Anacoda3的安装目录的Scrripts目录下，然后pip install 安装包安装

3.1 xgboost的基本使用

Xgboost参数说明页面:

https://xgboost.readthedocs.io/en/latest/parameter.html

Xgboost调参官方指南

https://xgboost.readthedocs.io/en/latest/tutorials/param_tuning.html

我们使用xgboost做一个分类任务，可以直接使用xgboost。

# 0 1:1 9:1 19:1 21:1 24:1 34:1 36:1 39:1 42:1 53:1 56:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 117:1 122:1
# 1 3:1 9:1 19:1 21:1 30:1 34:1 36:1 40:1 41:1 53:1 58:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 118:1 124:1
# 0 1:1 9:1 20:1 21:1 24:1 34:1 36:1 39:1 41:1 53:1 56:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 117:1 122:1
# 0 3:1 9:1 19:1 21:1 24:1 34:1 36:1 39:1 51:1 53:1 56:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 116:1 122:1
# 0 4:1 7:1 11:1 22:1 29:1 34:1 36:1 40:1 41:1 53:1 58:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 105:1 119:1 124:1
# 0 3:1 10:1 20:1 21:1 23:1 34:1 37:1 40:1 42:1 54:1 55:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 118:1 126:1
# 1 3:1 9:1 11:1 21:1 30:1 34:1 36:1 40:1 51:1 53:1 58:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 117:1 124:1

"""上面是libsvm的数据存储格式， 也是一种常用的格式，存储的稀疏数据。 
第一列是label. a:b a表示index， b表示在该index下的数值， 这就类似于one-hot"""

import numpy as np
import scipy.sparse    # 稀疏矩阵的处理
import pickle
import xgboost as xgb

# libsvm format data 的读入方式， 直接用xgb的DMatrix
dtrain = xgb.DMatrix('./xgbdata/agaricus.txt.train')
dtest = xgb.DMatrix('./xgbdata/agaricus.txt.test')

下面我们进行参数设置：关于xgboost的参数，详细的可以看上面的参数说明，这里拿分类器来说，解释一些参数：

★
xgb1 = XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=5, min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27)

'booster':'gbtree', 这个指定基分类器

'objective': 'multi:softmax', 多分类的问题，这个是优化目标，必须得有，因为xgboost里面有求一阶导数和二阶导数，其实就是这个。

'num_class':10, 类别数，与 multisoftmax 并用

'gamma':损失下降多少才进行分裂，控制叶子节点的个数

'max_depth':12, 构建树的深度，越大越容易过拟合

'lambda':2, 控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。

'subsample':0.7, 随机采样训练样本

'colsample_bytree':0.7, 生成树时进行的列采样

'min_child_weight':3, 孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束

'silent':0 ,设置成1则没有运行信息输出，最好是设置为0.

'eta': 0.007, 如同学习率

'seed':1000,

'nthread':7, cpu 线程数

”

当然不需要全记住，常用的几个记住即可。可以结合着上面的数学原理，看看哪个参数到底对于xgboost有什么作用，这样利于调参。设置好参数，训练测试就行了，使用起来和sklearn的模型非常像

"""paramet setting"""
param = {
    'max_depth': 2,
    'eta': 1, 
    'silent': 1,
    'objective': 'binary:logistic'
}
watch_list = [(dtest, 'eval'), (dtrain, 'train')]  # 这个是观测的时候在什么上面的结果  观测集
num_round = 5
model = xgb.train(params=param, dtrain=dtrain, num_boost_round=num_round, evals=watch_list)

然后就是预测：

"""预测"""
pred = model.predict(dtest)    # 这里面表示的是正样本的概率是多少

from sklearn.metrics import accuracy_score
predict_label = [round(values) for values in pred]
accuracy_score(labels, predict_label)   # 0.993

模型的保存了解一下：

"""两种方式： 第一种， pickle的序列化和反序列化"""
pickle.dump(model, open('./model/xgb1.pkl', 'wb'))
model1 = pickle.load(open('./model/xgb1.pkl', 'rb'))
model1.predict(dtest)

"""第二种模型的存储与导入方式 - sklearn的joblib"""
from sklearn.externals import joblib
joblib.dump(model, './model/xgb.pkl')
model2 = joblib.load('./model/xgb.pkl')
model2.predict(dtest)

3.2 交叉验证 xgb.cv

# 这是模型本身的参数
param = {'max_depth':2, 'eta':1, 'silent':1, 'objective':'binary:logistic'}
num_round = 5   # 这个是和训练相关的参数

xgb.cv(param, dtrain, num_round, nfold=5, metrics={'error'}, seed=3)

3.3 调整样本权重

这个是针对样本不平衡的情况，可以在训练时设置样本的权重，训练的时候设置fpreproc这个参数，相当于在训练之前先对样本预处理。

# 这个函数是说在训练之前，先做一个预处理，计算一下正负样本的个数，然后加一个权重,解决样本不平衡的问题
def preproc(dtrain, dtest, param): 
    labels = dtrain.get_label()
    ratio = float(np.sum(labels==0)) / np.sum(labels==1)
    param['scale_pos_ratio'] = ratio
    return (dtrain, dtest, param)

# 下面我们在做交叉验证， 指明fpreproc这个参数就可以调整样本权重
xgb.cv(param, dtrain, num_round, nfold=5, metrics={'auc'}, seed=3, fpreproc=preproc)

3.4 自定义目标函数（损失函数）

如果在一个比赛中，人家给了自己的评判标准，那么这时候就需要用人家的这个评判标准，这时候需要修改xgboost的损失函数，但是这时候请注意一定要提供一阶和二阶导数

# 自定义目标函数（log似然损失），这个是逻辑回归的似然损失。 交叉验证
# 注意： 需要提供一阶和二阶导数

def logregobj(pred, dtrain):
    labels = dtrain.get_label()
    pred = 1.0 / (1+np.exp(-pred))    # sigmoid函数
    grad = pred - labels
    hess = pred * (1-pred)
    return grad, hess     # 返回一阶导数和二阶导数

def evalerror(pred, dtrain):
    labels = dtrain.get_label()
    return 'error', float(sum(labels!=(pred>0.0)))/len(labels)

训练的时候，把损失函数指定就可以了：

param = {'max_depth':2, 'eta':1, 'silent':1}

# 自定义目标函数训练
model = xgb.train(param, dtrain, num_round, watch_list, logregobj, evalerror)

# 交叉验证
xgb.cv(param, dtrain, num_round, nfold=5, seed=3, obj=logregobj, feval=evalerror)

3.5 用前n棵树做预测 ntree_limit

太多的树可能发生过拟合，这时候我们可以指定前n棵树做预测, 预测的时候设置ntree_limit这个参数

# 前1棵
pred1 = model.predict(dtest, ntree_limit=1)
evalerror(pred2, dtest)

3.6 画出特征重要度 plot_importance

from xgboost import plot_importance
plot_importance(model, max_num_features=10)

3.7 同样，也可以用sklearn的GridSearchCV调参

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold

model = XGBClassifier()
learning_rate = [0.0001, 0.001, 0.1, 0.2, 0.3]
param_grid = dict(learning_rate=learning_rate)
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=7)
grid_search = GridSearchCV(model, param_grid, scoring="neg_log_loss", n_jobs=-1, cv=kfold)
grid_result = grid_search.fit(x_train, y_train)

print("best: %f using %s" %(grid_result.best_score_, grid_result.best_params_))

means = grid_result.cv_results_['mean_test_score']
params = grid_result.cv_results_['params']

for mean, param in zip(means, params):
    print("%f  with： %r" % (mean, param))

好了，实战部分就整理这么多吧，重点在于怎么使用，xgboost使用起来和sklearn的模型也是非常像，也是.fit(), .predict()方法，只不过xgboost的参数很多，这个调起来会比较复杂，但是懂了原理之后，至少每个参数是干啥的就了解了，关于调参的技术，得从经验中多学习，多尝试，多总结才能慢慢修炼出来。

4. 总结

哇，终于完了，到这里，终于把xgboost的一些知识说清楚了，每一次不知不觉就会这么多字，可能是因为这个算法太重要了吧，所以多写了点，赶紧回顾一下：首先，我们从集成算法开始讲起，回顾了一下AdaBoost，GBDT，然后引出了xgboost，我们知道同属boosting流派，但集成策略又有不同，即使集成策略类似，那么得到最后结果的方式又不同。但对比之中，我们能更加体会它们的原理。其次，我们从数学原理的角度剖析了一下xgboost，看到了它的目标函数，看到了如何生成一棵树，看到了如何Taylor化简，知道了为什么需要损失函数的一二阶导数，也明白了为啥这个算法这么快。最后，我们通过实战一个二分类问题，见识到了xgboost的代码实现，基本使用和一些高级策略。

下面看看xgboost相比于GBDT有哪些优点（面试的时候可能会涉及）：

精度更高：GBDT只用到一阶泰勒，而xgboost对损失函数进行了二阶泰勒展开，一方面为了增加精度，另一方面也为了能够自定义损失函数，二阶泰勒展开可以近似大量损失函数
灵活性更强：GBDT以CART作为基分类器，而Xgboost不仅支持CART，还支持线性分类器，另外，Xgboost支持自定义损失函数，只要损失函数有一二阶导数。
正则化：xgboost在目标函数中加入了正则，用于控制模型的复杂度。有助于降低模型方差，防止过拟合。正则项里包含了树的叶子节点个数，叶子节点权重的L2范式。
Shrinkage（缩减）：相当于学习速率。这个主要是为了削弱每棵树的影响，让后面有更大的学习空间，学习过程更加的平缓
列抽样：这个就是在建树的时候，不用遍历所有的特征了，可以进行抽样，一方面简化了计算，另一方面也有助于降低过拟合
缺失值处理：这个是xgboost的稀疏感知算法，加快了节点分裂的速度
并行化操作：块结构可以很好的支持并行计算

上面的这些优点，我在描述的时候基本上都涉及到了，正是因为xgboost有了这些优点，才让它变得非常火，堪称神器了现在，但是xgboost真的perfect了吗？正所谓金无足赤，人无完人， xgboost也同样如此，比如虽然利用了预排序和近似算法可以降低寻找最优分裂点的计算量，但在节点分裂过程中仍需要遍历整个数据集。预排序过程的空间复杂度过高，不仅需要存储特征值，还需要存储特征对应样本梯度统计值的索引，相当于消耗了两倍的内存。所以在内存和计算方面还是有很大的优化空间的。那么xgboost还可以在哪些角度进行优化呢？后面通过lightgbm的故事再说给你听 ;)

xgboost的故事就先讲到这里了，希望对你有所帮助，当然还有很多的细节没有提到，本文只是抛砖引玉，具体的建议去看看原文，毕竟这个算法还是超级重要的，面试的时候也会抠得很细，不看原文的话有些精华get不到。

参考：

xgboost论文原文 - 权威经典 : https://arxiv.org/pdf/1603.02754.pdf
Adaboost、GBDT与XGBoost的区别: https://blog.csdn.net/hellozhxy/article/details/82143554
xgboost算法详细介绍（通过简单例子讲述）: https://blog.csdn.net/wufengqi7585/article/details/86078049
Introduction to Boosted Trees: https://xgboost.readthedocs.io/en/latest/tutorials/model.html
终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！:https://mp.weixin.qq.com/s/q4R-TAG4PZAdWLb41oov8g
xgboost的原理没你想像的那么难: https://www.jianshu.com/p/7467e616f227
XGBoost算法的原理详析[文献阅读笔记]: https://zhuanlan.zhihu.com/p/90520307
XGBoost原理介绍: https://blog.csdn.net/yinyu19950811/article/details/81079192
灵魂拷问，你看过Xgboost原文吗？: https://zhuanlan.zhihu.com/p/86816771
一文读懂机器学习大杀器XGBoost原理: https://zhuanlan.zhihu.com/p/40129825

喜欢您就点个在看！

你可能感兴趣的:(深入理解XGboost)

XGBoost系列文章（四）：参数调优与模型训练什么都想学的阿超原理概念 #机器学习机器学习 xgboost
XGBoost系列文章（四）：参数调优与模型训练本文是XGBoost系列的第四篇，聚焦参数调优与模型训练实战，从参数分类到调优技巧，结合代码示例解析核心方法。内容涵盖学习率、正则化、采样策略、早停法等关键环节，帮助读者快速掌握工业级调参方案。1.XGBoost的三大类参数（通用参数、Booster参数、任务参数）分别是什么？XGBoost参数分为三大类，控制不同层面的行为：参数类型作用范围常用参数
React Refs：深入理解与最佳实践 froginwe11 开发语言
ReactRefs：深入理解与最佳实践引言在React中，refs是用于访问DOM元素或组件实例的一种方式。与类组件的ref属性不同，函数组件的ref需要使用useRef钩子。正确使用refs可以大大提升React应用的性能和可维护性。本文将深入探讨ReactRefs的原理、用法以及最佳实践。Refs的原理React的refs是一个对DOM节点或组件实例的引用，它允许我们直接访问DOM节点或组件实
大模型研究：DeepSeek版本比较说明程序猿学长语言模型
截至2024年11月，DeepSeek已发布了多个版本的大模型，主要包括DeepSeek-Coder、DeepSeek-LLM等，各版本在不同方面各有优劣：各版本简介及对比1.DeepSeek-Coder特点：这是专注于代码领域的模型。它基于海量代码数据进行训练，对各类编程语言的语法、语义有深入理解。能快速准确地完成代码补全、代码生成、代码解释、代码纠错等任务，在编程场景中为开发者提供高效的辅助。
MATLAB中的A*算法路径规划实战指南 MCPlayer542
本文还有配套的精品资源，点击获取简介：MATLAB是进行路径规划的强大工具，尤其适用于机器人导航和自动驾驶系统。文章详细介绍了如何使用MATLAB实现A算法进行二维和三维路径规划，涵盖了算法原理、环境地图构建、启发式函数设计、以及路径搜索的步骤。文章附带MATLAB代码示例，帮助读者通过实际操作深入理解A算法在路径规划中的应用。1.MATLAB路径规划应用概述路径规划作为移动机器人、无人机和其他自
深入理解 Transformer：用途、原理和示例范吉民(DY Young) 简单AI学习 transformer 深度学习人工智能
深入理解Transformer：用途、原理和示例一、Transformer是什么Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，在2017年的论文“AttentionIsAllYouNeed”中惊艳登场。它打破了传统循环神经网络（RNN）按顺序处理序列、难以并行计算以及卷积神经网络（CNN）在捕捉长距离依赖关系上的局限，另辟蹊径地采用多头注意力机制
深入理解 Promise：使用指南与手动实现 vvilkim JavaScript javascript ajax 开发语言
Promise是JavaScript中处理异步操作的核心工具之一。它提供了一种更优雅的方式来管理异步代码，避免了回调地狱（CallbackHell）。本文将分为两部分：第一部分介绍Promise的使用与创建指南，第二部分手动实现一个简化版的Promise，帮助你深入理解其工作原理。第一部分：Promise的使用与创建指南1.什么是Promise？Promise是一个表示异步操作最终完成（或失败）及
Java虚拟机书单参考阿立聊全栈 java 开发语言
关于Java虚拟机（JVM）的书籍推荐，以下是一些经典和实用的选择，涵盖从基础原理到高级调优的内容：一、中文经典书籍《深入理解Java虚拟机（第3版）》-周志明推荐理由：国内JVM领域的权威书籍，内容系统全面，涵盖JVM内存模型、垃圾回收、性能调优、字节码执行等核心知识，第3版新增了JDK11+的新特性（如ZGC、EpsilonGC）。适合人群：所有Java开发者，尤其适合需要深入JVM底层原理的
深入理解 Promise 和 Async/Await，并结合 Axios 实践黑风风前端Vue学习前端 javascript 开发语言
深入理解Promise和Async/Await，并结合Axios实践JavaScript是一门单线程的语言，这意味着它无法同时处理多个任务。然而，在实际开发中，我们经常需要处理异步操作，比如网络请求、定时器、文件读取等。为了解决这些异步操作带来的复杂性，JavaScript提供了多种方式，从最早的回调函数到现代的Promise和Async/Await，逐步让异步代码更加优雅和易于维护。本文将围绕P
为什么 Map 不能直接使用 iterator()？深入理解 Java 中 Map 的遍历方式今天你慧了码码码码码码码码码码 JavaSE基础 java 开发语言
在Java编程中，Map是一个非常重要的数据结构，用于存储键值对（Key-Value）。然而，很多初学者在使用Map时会遇到一个问题：为什么不能直接调用map.iterator()来遍历Map呢？这篇文章将深入探讨这个问题，并介绍Map的正确遍历方式。1.Map的结构与Collection的区别Map是Java中的一个接口，常见的实现类有HashMap、TreeMap等。它的特点是存储键值对，每个
腾讯集团软件开发-后台开发方向内推飞300 业界资讯 mysql java
熟练掌握C/C++/Java/Go等其中一门开发语言；TCP/UDP网络协议及相关编程、进程间通讯编程；专业软件知识，包括算法、操作系统、软件工程、设计模式、数据结构、数据库系统、网络安全等有一定了解的：1、Python、Shell、Perl等脚本语言；2、MySQL及SQL语言、编程；3、NoSQL,Key-value存储原理。1、深入理解业务需求和产品设计，高效地实现并优化产品功能；2、持续优
关于系统部署测试人员的10道经典面试题字节程序员软件测试软件测试 jmeter
系统部署测试人员的经典面试题通常涉及对部署流程、测试策略、故障排除和自动化工具的深入理解。以下是10道可能出现在面试中的经典问题：1.描述一次你成功部署大型系统的经历。这个问题旨在了解你的实战经验，包括你如何规划、执行部署任务，以及如何处理过程中遇到的任何问题。作为系统部署测试人员，我有一次成功部署大型系统的经历，该经历涉及一个复杂的多组件Web应用程序。这个部署过程不仅要求精确和高效，还需要最小
Computer Systems A Programmer‘s Perspective 深入理解计算机系统 1 清水湾的水 linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、编译系统1.编译系统的流程二、硬件架构1.CPU2.内存3.总线4.输入输出设备三、解释内存中的指令1.程序执行的流程2.程序执行过程中发生了什么3.设备容量4.Cache5.存储设备的层次结构四、操作系统的作用1.操作系统的作用2.进程3.进程角度五、虚拟内存1.虚拟内存2.文件3.系统之间利用网络通信六、系统加速1
Deepseek 使用指南与提问优化策略西瓜拍两瓣 ai 语言模型 python gpt
序言随着人工智能技术的迅猛发展，语义搜索已成为提升信息检索效率和用户体验的核心工具。DeepSeek作为一款先进的语义搜索引擎，通过自然语言处理（NLP）和机器学习技术，能够深入理解用户查询的语义意图，提供高度精准的搜索结果。本文将详细介绍DeepSeek的核心功能、集成方法，并深入探讨如何通过优化提问策略，最大化利用DeepSeek的语义搜索能力，从而提升信息检索的效率和准确性。访问DeepSe
《深入理解JVM》实战笔记（三）：垃圾收集器与垃圾收集算法西瓜拍两瓣 jvm java 开发语言
序言Java语言的核心优势之一是其自动内存管理机制，而这一功能的实现依赖于Java虚拟机（JVM）的垃圾回收（GarbageCollection,GC）系统。GC通过自动识别和回收不再使用的内存对象，极大地降低了开发者手动管理内存的负担，避免了C/C++中常见的内存泄漏和悬挂指针问题。然而，GC并非完美的“万能钥匙”，不同的垃圾收集算法和收集器在性能、停顿时间和内存使用效率上表现迥异，直接影响应用
深入理解Java并发编程(一)：揭秘并发性能优化的底层机制西瓜拍两瓣 java 性能优化开发语言 jvm 笔记
序言Java并发编程是Java开发中非常重要的一部分，尤其是在高并发、高性能的应用场景中。为了更深入地理解Java并发编程，本文将详细讲解程序上下文切换、volatile关键字、Java对象头、synchronized锁升级和原子操作的原理与应用，并通过代码示例和图表帮助读者更好地掌握这些知识。1.程序上下文切换与并发性能1.1上下文切换概述上下文切换是指操作系统从一个线程切换到另一个线程的过程。
74、掌握Go语言定时器与Ticker：有效处理周期任务多多的编程笔记 golang 开发语言后端
Go语言开发：定时器与Ticker简介Go语言（又称Golang）因其简洁、高效和强大的并发特性，被越来越多的开发者所青睐。在Go语言中，time包提供了定时器与Ticker，这对于需要周期性执行任务或者在特定时间执行任务的应用场景至关重要。本文将帮助你深入理解time包中的定时器和Ticker，并提供一些实用的技巧和案例。定时器（Timer）应用场景想象一下，你正在准备一顿晚餐，但你不想一直守在
DeepSeek 助力 Vue3 开发：打造丝滑的网格布局（Grid Layout）宝码香车 #DeepSeek vue.js javascript ecmascript 前端 DeepSeek
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录DeepSeek助力Vue3开发：打造丝滑的网格布局（GridLayout）前言页面效果指令输入属性定义1.布局相关属性2.响应式属性3.样式属性事件定义1.交互事件其他1.插槽使用2.响应式设计3.可访问性4.文档和示例think组件代码代
DeepSeek 助力 Vue3 开发：打造丝滑的模态框（Modal）宝码香车 #DeepSeek vue.js javascript ecmascript 前端 DeepSeek
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录DeepSeek助力Vue3开发：打造丝滑的模态框（Modal）前言页面效果指令输入定义属性显示与隐藏相关内容相关样式与布局相关按钮相关定义事件其他think组件代码代码测试测试代码正常跑通，附其他基本代码编写路由src\router\ind
深入理解 HTTP 请求与响应：查看请求头、请求体、响应头和响应体阿贾克斯的黎明 golang http 网络协议网络
目录一、HTTP请求与响应概述二、通过浏览器查看请求头、请求体、响应头和响应体1.打开开发者工具2.查看请求头和响应头3.查看请求体和响应体三、丰富的实例与解析（一）GET请求实例（二）POST请求实例（三）带有Authorization请求头的实例在Web开发中，了解HTTP请求和响应的各个组成部分是非常重要的。通过浏览器，我们可以方便地查看请求头、请求体、响应头和响应体，从而更好地理解客户端与
深入理解 SQL 中的 DATEDIFF 函数 web15085096641 面试学习路线阿里巴巴 sql 数据库
深入理解SQL中的DATEDIFF函数DATEDIFF函数在SQL中是一个用于计算两个日期之间差值的重要工具。不同数据库实现了不同版本的DATEDIFF，它们在功能和语法上有所不同。本文将详细解析DATEDIFF的用法、数据库间差异、复杂场景中的应用，以及替代方案。1.什么是DATEDIFF？DATEDIFF函数用于计算两个日期或日期时间值之间的差异。它的返回值通常是整数，表示日期差值的指定单位（
掌握这 50 个核心要点，让你成为防火墙技术行家 IT程序媛-桃子安全 web安全网络网络安全防火墙技术经验分享
在数字化高速发展的今天，网络安全已经成为企业与个人都无法忽视的焦点话题。防火墙作为网络安全的第一道防线，决定了内外网之间的“生死门”。若想深入理解和高效运用防火墙技术，掌握专业术语及相关功能显得尤为关键。本文将结合50个常见的防火墙技术关键点，为你全面解析防火墙的工作原理与配置要点，助你在网络安全领域更进一步。一、基础功能篇包过滤（PacketFiltering）防火墙最基本的功能之一，通过源IP
微服务架构：深入理解与实践需要重新演唱微服务架构微服务云原生
微服务架构：深入理解与实践引言在当今的软件开发领域，微服务架构（MicroservicesArchitecture）已经成为一种流行的设计模式。与传统的单体应用（MonolithicApplication）相比，微服务架构将应用程序拆分成一系列小型、独立的服务，每个服务运行在自己的进程中，通过轻量级机制（如HTTPRESTfulAPI）进行通信。这种架构模式提供了更高的灵活性、可扩展性和可维护性，
【构建企业级Spring Boot应用：从基础到高级的全面指南】小怪兽9699 spring boot 后端 java
摘要本文旨在为开发者提供一份详尽的指南，帮助大家深入理解并掌握如何使用SpringBoot框架来快速开发企业级应用程序。通过实际案例分析、代码示例以及架构设计思路分享，读者不仅能够学习到理论知识，还能获得宝贵的实践经验。本文将涵盖从环境搭建、项目创建、配置管理、数据访问层、Web服务开发、安全机制实现、日志记录、单元测试与集成测试，到最终的部署上线等各个方面。目录摘要目录引言SpringBoot简
必看系列：JAVA面试该怎么准备以及如何在面试过程中展示自己的技术能力 web13688565871 面试学习路线阿里巴巴 java 面试开发语言
准备JAVA面试是一个系统而全面的过程，旨在确保你熟悉JAVA的各个方面，并能够清晰地展示自己的技术能力。以下是一些关键的准备步骤和面试技巧：一、面试准备深入理解JAVA基础：熟悉JAVA的核心概念，如JVM、数据类型、运算符、流程控制、面向对象编程（类、对象、继承、封装、多态）等。理解JAVA的内存模型，包括堆、栈和方法区，以及垃圾收集器的工作原理。掌握JAVA核心技术：对JAVA集合框架（如L
算法干货 | 深入理解堆排序：Java 代码 + 复杂度分析扣丁梦想家常见算法解析算法开发语言排序算法 java 数据结构
1.引言堆排序（HeapSort）是一种基于堆（Heap）数据结构的排序算法，具有时间复杂度为O(nlogn)，且不需要额外的辅助空间（空间复杂度为O(1)）。它是一种不稳定排序，但在实际应用中仍然非常高效，尤其适用于需要大量数据排序的场景。在本教程中，我们将详细介绍堆排序的原理、算法步骤、实现代码（Java版）、复杂度分析，并探讨其应用场景。2.堆的基本概念堆是一棵完全二叉树，并满足以下特性：大
Java内存管理与性能优化实践向哆哆 Java入门到精通 java 性能优化 python
Java内存管理与性能优化实践Java作为一种广泛使用的编程语言，其内存管理和性能优化是开发者在日常工作中需要深入了解的重要内容。Java的内存管理机制借助于垃圾回收（GC）来自动处理内存的分配和释放，但要实现高效的内存管理和优化性能，开发者仍然需要深入理解Java的内存模型、垃圾回收机制以及常见的性能瓶颈。本文将详细探讨Java内存管理的基本原理，并通过实际的性能优化实践，帮助开发者在开发过程中
如何自定义Metasploit框架的漏洞利用模块？小宇python 网络安全网络安全服务器
自定义Metasploit框架的漏洞利用模块是一个高级话题，涉及到对漏洞利用开发和Metasploit框架深入理解。以下是创建自定义Metasploit模块的基本步骤：理解漏洞：在编写利用模块之前，你需要对目标漏洞有深入的了解，包括漏洞的触发条件、影响范围、利用方法等。学习MetasploitAPI：熟悉Metasploit框架提供的API，包括如何与外部系统交互、如何处理输入输出、如何管理会话等
Java并发编程：深入理解volatile、线程安全陷阱与复合操作有诺千金 Java并发编程 java 安全单例模式
一、volatile关键字详解1.核心作用可见性：对volatile变量的写操作立即刷新到主内存，读操作直接读取主内存。有序性：禁止指令重排序（通过内存屏障），确保代码执行顺序符合预期。局限性：不保证原子性（如i++需配合锁或原子类）。2.底层原理JMM层面：插入内存屏障（如StoreLoad屏障），强制缓存同步。硬件层面：依赖CPU的MESI协议实现缓存行失效。3.正确使用场景状态标志：单次写入
Android 深入理解布局优化 IT徐师兄 Android 启动优化 android java 开发语言
微信公众号：徐公前言说到Android启动优化，你一般会想到什么呢？Android多线程异步加载Android首页懒加载对，这是两种很常见的优化手段，但是如果让你主导这件事情，你会如何开始呢？梳理现有的业务，哪些是一定要在启动初始化的，哪些是不必要的需要在启动初始化的，哪些是可以在主线程初始化的，哪些是可以在子线程初始化的当我们把任务丢到子线程初始化，这时候，我们又会遇到两个问题。在首页，我们需要
微信小程序自定义圆形进度条实现指南金融先生-Frank
本文还有配套的精品资源，点击获取简介：该指南详细讲解了如何在微信小程序中利用canvas组件创建圆形进度条，涵盖了微信小程序基础、Canvas绘图技术、进度条实现、动态角度计算、动画效果实现、事件监听与交互、样式定制以及项目结构和调试发布等关键知识点。开发者通过本指南可以全面掌握微信小程序中自定义图形的实现方法，并深入理解相关技术细节。1.微信小程序框架和API基础在微信小程序的世界里，一个开发者
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round