Miracle8070

白话机器学习算法理论+实战番外篇之Xgboost

1. 写在前面

如果想从事数据挖掘或者机器学习的工作，掌握常用的机器学习算法是非常有必要的，在这简单的先捋一捋，常见的机器学习算法：

监督学习算法：逻辑回归，线性回归，决策树，朴素贝叶斯，K近邻，支持向量机，集成算法Adaboost等
无监督算法：聚类，降维，关联规则, PageRank等

我前面已经尝试用最白话的语言完成了一个白话机器学习算法理论+实战系列，这个系列已经基本包含了上面这些算法的原理和基本使用。但是，如果仅仅是会用这些算法可是不够的，我们也得跟着时代的步伐前进，近几年，有很多大佬又在上面的某些算法上加以改进，发明了更加厉害的算法，而这些算法才是当今时代解决问题的主流，所以我们学习的一个方式就是掌握传统，而又得紧跟时代。

所以，后面考虑加上当前流行的一些主流机器学习算法，既当复习，又当提升。由于不想和传统的机器学习算法混合起来，故称之为番外，也是传统机器学习算法的延伸，同样是尽量白话，同样是丰富实战，但会夹杂数学的身影，毕竟后面的很多算法如果没有了数学就仿佛失去了灵魂，无法活灵活现。所以机器学习算法的故事还没有完，我们还得继续走着。

学习算法的过程，获得的不应该只有算法理论，还应该有乐趣和解决实际问题的能力！

今天分享的这个算法堪称数据科学竞赛界的神器，它似乎是用于赢得数据科学竞赛的分类器/预测器必不可少的算法，那就是Xgboost。听这个名字，你可能一下就想到了传统机器学习算法里面的AdaBoost，哈哈，联想和对比才能更加理解算法的精华。你还别说，这个算法和那个来自于同一个家族，都是集成学习算法，都属于boosting流派，但是两者的boosting采用了不同的策略，而就是这策略的不同，导致xgboost成了目前竞赛者眼中的红人，它是目前最快最好的开源 boosting tree 工具包，比常见的工具包快 10 倍以上，那么xgboost到底采用了什么策略呢？它又是如何做到高准确率和高速度的呢？Xgboost和AdaBoost到底有什么不同呢？ Xgboost又如何来解决实际问题呢？这些问题，在这篇文章中都会一一来解剖。

大纲如下:

Xgboost？这个故事还得先从AdaBoost和GBDT说起
Xgboost的基本原理（基于例子我们来看看好玩的公式推导）
Xgboost的实战应用（这里用xgboost做一个分类任务，然后说一下基本使用和高级功能）

Ok， let’s go!

2. Xgboost? 这个故事还得先从AdaBoost和GBDT说起

我觉得，学习一个算法的时候，有时候不能直接单拿出一个算法来说，这样感觉显得突兀了些，不知道突然从哪冒出来一样。所以，讲Xgboost之前，我想先带你回顾一下我们之前的集成学习。

所谓集成学习，就是指构建多个弱分类器对数据集进行预测，然后用某种策略将多个分类器预测的结果集成起来，作为最终预测结果。什么，不懂？看来得先去听听我之前那“三个臭皮匠，顶个诸葛亮”的故事了。在这里就不再讲了（可以理解成集成学习是一种把大家伙叫到一块，集思广益想办法解决问题的方式吧），在这里想说的是集成学习的那两大流派：Boosting和Bagging。

怎么还有两个流派呢？集思广益不就完事？哈哈，集思广益也有不同的方式吗？比如针对同一个问题，把问题划分成不相干的子问题，然后分派给不同的人各干各的是一种，或者同一个问题，划分成串行的子问题，先由一个人解决一部分，解决不了的，后面的人再来这又是一种。把上面这两种方式用官方的语言描述就是：根据各个弱分类器之间有无依赖关系，分为Boosting和Bagging。

Boosting流派，各分类器之间有依赖关系，必须串行，比如Adaboost、GBDT(Gradient Boosting Decision Tree)、Xgboost
Bagging流派，各分类器之间没有依赖关系，可各自并行，比如随机森林（Random Forest）

关于Bagging流派的Random Forest（随机森林）算法，也是比较常用的，简单的说就是各个弱分类器是独立的、每个分类器在样本堆里随机选一批样本，随机选一批特征进行独立训练，各个分类器之间没有啥关系，最后投票表决，这个在这里不做详述，后面遇到的时候再统一总结，今天的主角是Xgboost，所以我们主要是了解一下Boosting流派，这这里面的最具代表性的算法之一就是AdaBoost，这个我这里不做过多的表述，详细的可以看一下白话机器学习算法理论+实战之AdaBoost算法, 这里只回顾一下它的算法原理，这样好引出后面的GBDT和Xgboost，并且可以进行策略上的对比。

AdaBoost，是英文"Adaptive Boosting"（自适应增强），它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。白话的讲，就是它在训练弱分类器之前，会给每个样本一个权重，训练完了一个分类器，就会调整样本的权重，前一个分类器分错的样本权重会加大，这样后面再训练分类器的时候，就会更加注重前面分错的样本，然后一步一步的训练出很多个弱分类器，最后，根据弱分类器的表现给它们加上权重，组合成一个强大的分类器，就足可以应付整个数据集了。这就是AdaBoost，它强调自适应，不断修改样本权重，不断加入弱分类器进行boosting。

那么，boosting还有没有别的方式呢？ GBDT(Gradient Boost Decision Tree)就是另一种boosting的方式，上面说到AdaBoost训练弱分类器关注的是那些被分错的样本，AdaBoost每一次训练都是为了减少错误分类的样本。而GBDT训练弱分类器关注的是残差，也就是上一个弱分类器的表现与完美答案之间的差距，GBDT每一次训练分类器，都是为了减少这个差距，GBDT每一次的计算是都为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新的模型。这是什么意思呢？我可以举个例子，假设我们去银行借钱，我们想让一个决策树系统来预测可以借给我们多少钱，如果标准答案是1000的话，假设第一棵决策树预测，可以借给我们950块钱，那么离标准答案的1000还差50，效果不算好，能不能提高一些呢？我们就再加一棵决策树，这课决策树过来之后，看到前面的那个已经预测到950了，只是差50，那么我可以聚焦在这个50上，把这个残差变得再小一些，所以第二个决策树预测结果是30，那么前两棵决策树预测结果结合起来是980，离标准答案差20，所以加了一棵树之后，效果好了。那么还能不能提升呢？我再来一棵树，发现残差只有20了，那我把残差变得再小，结果第三个决策树预测20，那么这三棵树就可以正确的预测最终的1000了。

这里其实描述的还不太准确哈，看这篇文章之前，建议先去看看我后期补充的梯度提升树GBDT的理论学习与细节补充，由于写XGBOOST这篇文章是在GBDT之前，所以这个地方描述是有点不细节的，上面说的这个并没有体现出GBDT的核心来，拟合残差确实是提升树家族干的事情，但是GBDT的魅力在于用负梯度来近似代替了这个残差，所以后面训练基分类器的时候，直接是拟合的这个负梯度，而上面描述的其实是BDT干的事情，也就是提升树干的事， GBDT的核心在于G上。那么为啥能用负梯度来代替这个残差呢？这就又涉及到我们的泰勒了，具体细节还是看上面这篇文章吧。

所以GBDT就是这样的一个学习方式了，GBDT是boosting集成学习，boosting集成学习由多个相关联的决策树联合决策，什么是相关联？就是我上面的例子：

有一个样本[数据->标签]是：[(feature1，feature2，feature3)-> 1000块]
第一棵决策树用这个样本训练的预测为950
那么第二棵决策树训练时的输入，这个样本就变成了：[(feature1，feature2，feature3)->50]
第二棵决策树用这个样本训练的预测为30
那么第三棵决策树训练时的输入，这个样本就变成了：[(feature1，feature2，feature3)->20]
第三棵决策树用这个样本训练的预测为20

搞定，也就是说，下一棵决策树输入样本会与前面决策树的训练和预测相关。用个图来表示类似这样：

这就是GBDT的工作原理了， GBDT是旨在不断减少残差（回归），通过不断加入新的树旨在在残差减少（负梯度）的方向上建立一个新的模型。——即损失函数是旨在最快速度降低残差。（这里依然是建议看看我上面的那篇文章细节，这些其实都是BDT干的事情）

那么为啥要讲GBDT呢？我先卖个关子，不妨先看一下xgboost是怎么解决问题的。这里用xgboost原作者陈天奇的讲座PPT中的那个图来看

假设我想预测，这一家子人中每个人想玩游戏的意愿值。我们用xgboost解决这个问题，就是我先训练出来第一棵决策树，预测了一下小男孩想玩游戏的意愿是2，然后发现离标准答案差一些，又训练出来了第二棵决策树，预测了一下小男孩想玩游戏的意愿是0.9，那么两个相加就是最终的答案2.9。这个其实就接近了标准答案。所以xgboost是训练出来的弱分类结果进行累加就是最终的结论。

恩，你可能要拍案而起了，惊呼，这不是跟上面介绍的GBDT乃异曲同工么？事实上，如果不考虑工程实现、解决问题上的一些差异，xgboost与gbdt比较大的不同就是目标函数的定义，但这俩在策略上是类似的，都是聚焦残差（更准确的说， xgboost其实是gbdt算法在工程上的一种实现方式），GBDT旨在通过不断加入新的树最快速度降低残差，而XGBoost则可以人为定义损失函数（可以是最小平方差、logistic loss function、hinge loss function或者人为定义的loss function），只需要知道该loss function对参数的一阶、二阶导数便可以进行boosting，其进一步增大了模型的泛化能力，其贪婪法寻找添加树的结构以及loss function中的损失函数与正则项等一系列策略也使得XGBoost预测更准确。

所以，这就是我讲Xgboost的故事之前，要简单说一下AdaBoost和GBDT的原因了，这样脑海里面是不是对xgboost不那么陌生了啊，你要知道，这三个同是属于集成学习的boosting流派，AdaBoost叫做自适应提升，和GBDT，Xgboost提升时采用的策略不同，前者聚焦错误样本，后者聚焦与标准答案的残差。而GBDT和Xgboost叫做boosting集成学习，提升时策略类似，都是聚焦残差，但是降低残差的方式又各有不同。

好了，铺垫到此为止，下面真正进入主角部分 – Xgboost的基本原理。

3. Xgboost的基本原理

Xgboost 的全称是eXtreme Gradient Boosting，由华盛顿大学的陈天奇博士提出，在Kaggle的希格斯子信号识别竞赛中使用，因其出众的效率与较高的预测准确度而引起了广泛的关注。

如果boosting算法每一步的弱分类器生成都是依据损失函数的梯度方向，则称之为梯度提升(Gradient boosting)，XGBoost算法是采用分步前向加性模型，只不过在每次迭代中生成弱学习器后不再需要计算一个系数，XGBoost 是由 k 个基模型组成的一个加法运算式：
$\hat{y}_{i}=\sum_{t=1}^{k} f_{t}\left(x_{i}\right)$
其中 $f_k$ 为第k个基模型， $\hat{y}_{i}$ 为第i个样本的预测值。
那么损失函数可由预测值 $\hat{y}_{i}$ 与真实值 $y_i$ 进行表示：
$L=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}\right)$
其中n为样本数量。

XGBoost算法通过优化结构化损失函数（加入了正则项的损失函数，可以起到降低过拟合的风险）来实现弱学习器的生成，并且XGBoost算法没有采用搜索方法，而是直接利用了损失函数的一阶导数和二阶导数值，并通过预排序、加权分位数等技术来大大提高了算法的性能。

说到这里，估计你已经看不下去了吧，这说的啥跟啥啊，听不懂啦啊！但其实我上面只是用数学的语言来说了一下前面举得xgboost的那个例子，对于某个样本，有若干个弱分类器做预测，最后的预测结果就是弱分类器的答案累加（注意此时没有权重了，如果你还记得AdaBoost模型的话，会发现那个地方每个分类器前面会有个权重 $\alpha_m$ ，最终分类器是 $F(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{m} G_{m}(x)\right)$ ，不骗你哟），这是上面的第一个公式，第二个公式就是说我怎么判断对于整个数据集预测的准不准啊，就得有个损失函数啊，对比一下与真实值的差距，n个样本，我都对比一下子。这个 $l$ 表示的某种损失函数，你可以先理解成平方差损失。

如此白话，应该能听懂了吧，但还没真正讲xgboost的数学原理呢，所以后面的数学原理我打算换一种方式，从一个例子展开，剖析数学公式，当然如果你想直接看数学推导的话，我觉得人家这个写的挺好的终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！，这里面就全是数学的原理了，如果你感觉直接上数学压力有点大，那么可以先跟着我继续往下，从一个例子中看看xgboost树到底是如何生成的，然后再回头看数学原理也不迟

下面就通过算法流程图举一个例子来详解xgboost树的生成。

先给出一个流程图，不懂不要紧，可以看一遍后面的步骤，然后再回来：

为了让xgboost数学原理的部分不那么boring，我们跟着一个例子走吧：

假设我想预测学生考试分数，给定若干个学生属性(比如天赋，每天学习时间，是否谈恋爱等)，

通过一个决策树A，我们可以看到一个天赋属性的预测结果：天赋高的人+90，不高的人+60

通过决策树B, 可以看到每天学习时间高于10小时的+5，低于10小时的-5

通过决策树C，可以看到谈恋爱的-1，单身狗的+1

后面依次类推，还可能有更多的决策树通过学生的某些属性来推断分数。

XGboost就是这样一个不断生成新的决策树A,B,C,D…的算法，最终生成的决策树算法就是树A+B+C+D+…的和的决策树。

我们针对这个问题看看详细的建树过程吧：

首先，我们有三个学生，属性和标签如下：

我们初始化三个样本的考试成绩预测值为0。
定义目标函数：
模型的预测精度由偏差和方差共同决定，损失函数代表了模型的偏差，想要方差小则需要更简单的模型，所以目标函数最终由损失函数L与抑制模型复杂度的正则项Ω组成，所以目标函数如下：
$j=\sum_{i=1}^{n} l\left(\hat{y}_{i}, y_{i}\right)+\sum_{t=1}^{k} \Omega\left(f_{t}\right)$
这个公式应该不需要过多的解释了吧，其中 $Ω(f_t)$ 是正则化项
$\Omega\left(f_{t}\right)=\gamma{T_{t}}+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2}$

前面的 $T_t$ 为叶子节点数， $w_j$ 表示 $j$ 叶子上的节点权重， $\gamma，\lambda$ 是预先给定的超参数。引入了正则化之后，算法会选择简单而性能优良的模型，正则化项只是用来在每次迭代中抑制弱分类器 $f_i(x)$ 过拟合，不参与最终模型的集成。（这个正则化项可以先不用管它，有个印象即可，后面树那个地方会统一解释）

我们下面看看这个目标函数 $o b j$ 还能不能化简呢？

我们知道， boosting模型是前向加法，以第t步模型为例，模型对第i个样本 $x_i$ 的预测为： $\hat{y}_{i}^{t}=\hat{y}_{i}^{t-1}+f_{t}\left(x_{i}\right)$
其中， $\hat{y}_{i}^{t-1}$ 是第t-1步的模型给出的预测值，是已知常数， $f_t(x_i)$ 是我们这次需要加入的新模型，所以把这个 $\hat{y}_{i}^{t}$ 代入上面，就可以进一步化简：
$\begin{aligned} O b j^{(t)} &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{t}\right)+\sum_{i=1}^{t} \Omega\left(f_{i}\right) \\ &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{t-1}+f_{t}\left(x_{i}\right)\right)+\sum_{i=1}^{t} \Omega\left(f_{i}\right) \end{aligned}$
这个就是xgboost的目标函数了，最优化这个目标函数，其实就是相当于求解当前的 $f_t(x_i)$ 。Xgboost系统的每次迭代都会构建一颗新的决策树，决策树通过与真实值之间残差来构建。什么，没有看到残差的身影？别急，后面会看到这个残差长什么样子。

我们回到我们的例子，假设已经根据天赋这个属性建立了一棵决策树A（关于如何建树在这里不做解释，可以看看白话机器学习算法理论+实战之决策树），只不过这里的树分裂计算收益的方式换了一种，后面会具体说到。

我们有了第一棵树，通过这个树的预测结果：

那么我们建立第二棵树的时候，我们是考虑的残差，也就是样本其实变成了下面这样：

通过最小化残差学习到一个通过学习时间属性构建的决策树得到了90+5，60+5，90-5的预测值，再继续通过（100-95=5）（70-65）（86-85）的残差构建下一个决策树，以此类推，当迭代次数达到上限或是残差不再减小是停止，就得到一个拥有多个（迭代次数）决策树的强分类器。这个就是xgboost工作的宏观过程了。光宏观部分确实挺好理解，但具体细节呢？比如我每一次建树是怎么建的呢？既然说计算收益的方式不同，那么我考虑分裂的时候是怎么计算收益的呢？目前你心中肯定会有这些疑问，莫慌莫慌，下面我把建树的细节给你娓娓道来，不过道来的过程中得崎岖一点，需要用到数学的语言。

那么究竟是如何得到一棵新的树的呢？下面就是Xgboost的精髓了。前方高能，一大波数学公式来袭，请戴好安全帽！！！
目标函数的Taylor化简：
这是Xgboost的精髓了。我们首先看一个关于目标函数的简单等式变换，把上面的目标函数拿过来：
$\begin{aligned} O b j^{(t)} &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{t}\right)+\sum_{i=1}^{t} \Omega\left(f_{i}\right) \\ &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{t-1}+f_{t}\left(x_{i}\right)\right)+\sum_{i=1}^{t} \Omega\left(f_{i}\right) \end{aligned}$
我们看看这里的 $l\left(y_{i}, \hat{y}_{i}^{t-1}+f_{t}\left(x_{i}\right)\right)$ ，这个部分，如果结合伟大的Taylor的话，会发生什么情况，你还记得泰勒吗？

根据Taylor公式，我们把函数 $f (x)$ 在点 $x_0$ 处二阶展开，可得到：

$\approx f(x_0)+f^{\prime}(x_0) (x-x_0)+\frac{1}{2} f^{\prime \prime}(x_0) (x-x_0)^{2}$
类比下，我们把 $l\left(y_{i}, \hat{y}_{i}^{t-1}+f_{t}\left(x_{i}\right)\right)$ 在 $l\left(y_{i}, \hat{y}_{i}^{t-1}\right)$ 处展开，因为这个东西当确定了损失函数之后，就是已知的了，相当于 $f(x_0)$ 。而 $\hat{y}_{i}^{t-1}+f_{t}\left(x_{i}\right)$ 视为当前的 $x$ ， $\hat{y}_{i}^{t-1}$ 就是上面的 $x_0$ , 那么目标函数就可以写成：
$j^{(t)}\approx\sum_{i=1}^{n}\left[l\left(y_{i}, \hat{y}_{i}^{t-1}\right)+g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\sum_{i=1}^{t} \Omega\left(f_{i}\right)$
其中 $g_i$ 是损失函数 $l$ 对前面预测值的一阶导数，相当于 $f'(x_0)$ ， $h_i$ 是损失函数 $l$ 的二阶导，注意这里的求导是对 $\hat{y}_{i}^{t-1}$ 求导。
$g_{i}=\frac{\partial l\left(y_{i}, \hat{y}_{i}^{(t-1)}\right)}{\partial \hat{y}_{i}^{(t-1)}}, h_{i}=\frac{\partial^{2} l\left(y_{i}, \hat{y}_{i}^{(t-1)}\right)}{\partial \hat{y}_{i}^{(t-1)}}$

这里我们以平方损失函数为例：
$l\left(y_i, \hat{y}_{i}^{(t-1)}\right)=\sum_{i=1}^{n}\left(\hat{y}^{t-1}-y_{i}\right)^{2}$
则对于每一个样本：
$\begin{aligned} &g_{i}=\frac{\partial\left(\hat{y}^{t-1}-y_{i}\right)^{2}}{\partial \hat{y}^{t-1}}=2\left(\hat{y}^{t-1}-y_{i}\right)\\ &h_{i}=\frac{\partial^{2}\left(\hat{y}^{t-1}-y_{i}\right)^{2}}{\hat{y}^{t-1}}=2 \end{aligned}$

由于在第t步时 $\hat{y}_i^{t-1}$ 是一个已知的值，所以 $l\left(y_{i}, \hat{y}_{i}^{t-1}\right)$ 是一个常数，其对函数的优化不会产生影响，因此目标函数可以进一步写成：
$\operatorname{Obj}^{(t)} \approx \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\sum_{i=1}^{t} \Omega\left(f_{i}\right)$
所以我们只需要求出每一步损失函数的一阶导和二阶导的值（由于前一步的 $\hat{y}_i^{t-1}$ 是已知的，所以这两个值就是常数），然后最优化目标函数，就可以得到每一步的 $f (x)$ ，最后根据加法模型得到一个整体模型。

但是还有个问题，就是我们如果是建立决策树的话，根据上面的可是无法建立出一棵树来。因为这里的 $f_t(x_i)$ 是什么鬼？咱不知道啊！所以啊，还得进行一步映射，将样本x映射到一个相对应的叶子节点才可以，看看是怎么做的？
基于决策树的目标函数的终极化简

上面的目标函数先放下来：
$\operatorname{Obj}^{(t)} \approx \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\sum_{i=1}^{t} \Omega\left(f_{i}\right)$
我们这里先解决一下这个 $f_t(x_i)$ 的问题，这个究竟怎么在决策树里面表示呢？那解决这个问题之前，我们看看这个 $f_t(x_i)$ 表示的含义是什么， $f_t$ 就是我有一个决策树模型， $x_i$ 是每一个训练样本，那么这个整体 $f_t(x_i)$ 就是我某一个样本 $x_i$ 经过决策树模型 $f_t$ 得到的一个预测值，对吧？那么，我如果是在决策树上，可以这么想，我的决策树就是这里的 $f_t$ ，然后对于每一个样本 $x_i$ ，我要在决策树上遍历获得预测值，其实就是在遍历决策树的叶子节点，因为每个样本最终通过决策树都到了叶子上去，不信？看下图（样本都在叶子上，只不过这里要注意一个叶子上不一定只有一个样本）：

所以，通过决策树遍历样本，其实就是在遍历叶子节点。这样我们就可以把问题进行转换，把决策树模型定义成 $f_t(x)=w_{q(x)}$ , 其中 $q (x)$ 代表了该样本在哪个叶子节点上， $w$ 表示该叶子节点上的权重（上面分数预测里面+90， +60就是叶子节点的权重）。所以 $w_{q(x)}$ 就代表了每个样本的取值（预测值）。那么这个样本的遍历，就可以这样化简：
$\sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right] = \sum_{i=1}^{n}\left[g_{i} w_{q\left(x_{i}\right)}+\frac{1}{2} h_{i} w_{q\left(x_{i}\right)}^{2}\right] = \sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}\right) w_{j}^{2}\right]$
这个再解释一遍就是：遍历所有的样本后求每个样本的损失函数，但样本最终会落在叶子节点上，所以我们也可以遍历叶子节点，然后获取叶子节点上的样本集合（注意第二个等式和第三个等式求和符号的上下标， T代表叶子总个数）。由于一个叶子节点有多个样本存在，所以后面有了 $\sum_{i \in I_{j}} g_{i}$ 和 $\sum_{i \in I_{j}} h_{i}$ 这两项，这里的 $I_{j}$ 它代表一个集合，集合中每个值代表一个训练样本的序号，整个集合就是某棵树第j个叶子节点上的训练样本 , $w_j$ 为第j个叶子节点的取值。只要明白了这一步，后面的公式就很容易理解了。

我们再解决一下后面那部分，在决策树中，决策树的复杂度可由叶子数 T 组成，叶子节点越少模型越简单，此外叶子节点也不应该含有过高的权重 w （类比 LR 的每个变量的权重），所以目标函数的正则项可以定义为：
$\Omega\left(f_{t}\right)=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2}$
即决策树模型的复杂度由生成的所有决策树的叶子节点数量( $\gamma$ 权衡)，和所有节点权重( $\lambda$ 权衡)所组成的向量的范式共同决定。

这张图给出了基于决策树的 XGBoost 的正则项的求解方式。

这样，目标函数的前后两部分都进行了解决，那么目标函数就可以化成最后这个样子，看看能懂吗？
$\begin{aligned} O b j^{(t)} & \approx \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right) \\ &=\sum_{i=1}^{n}\left[g_{i} w_{q\left(x_{i}\right)}+\frac{1}{2} h_{i} w_{q\left(x_{i}\right)}^{2}\right]+\gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2} \\ &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T \end{aligned}$
这里的 $I_{j}=\left\{i | q\left(x_{i}\right)=j\right\}$ 为第 $j$ 个叶子节点的样本集合。为了简化表达式，我们再定义： $G_{j}=\sum_{i \in I_{j}} g_{i} \quad H_{j}=\sum_{i \in I_{j}} h_{i}$ ，那么决策树版本xgboost的目标函数：
$j^{(t)}=\sum_{j=1}^{T}\left[G_{j} w_{j}+\frac{1}{2}\left(H_{j}+\lambda\right) w_{j}^{2}\right]+\gamma T$
这里要注意 $G_j$ 和 $H_j$ 是前 $t - 1$ 步得到的求导结果，其值已知，只有最后一棵树的叶子节点 $w_j$ 的值不确定，那么将目标函数对 $w_j$ 求一阶导，并令其等于0， $\frac{\partial J\left(f_{t}\right)}{\partial w_{j}}=G_{j}+\left(H_{j .}+\lambda\right) w_{j}=0$ ，则可以求得叶子节点j对应的权值：
$w_{j}^{*}=-\frac{G_{j}}{H_{j}+\lambda}$
那么这个目标函数又可以进行化简：
$j=-\frac{1}{2} \sum_{j=1}^{T} \frac{G_{j}^{2}}{H_{j}+\lambda}+\gamma T$
这个就是基于决策树的xgboost模型的目标函数最终版本了，这里的G和H的求法，就需要明确的给出损失函数来，然后求一阶导和二阶导，然后代入样本值即得出。

这个 $o b j$ 代表了当我们指定一个树的结构的时候，我们在目标上最多能够减少多少，我们之前不是说建立一个树就是让残差尽可能的小吗？到底小多少呢？这个 $o b j$ 就是衡量这个的，可以叫做结构分数。就类似于基尼系数那样对树结构打分的一个函数。那么这个分数怎么算呢？看下面的例子：

还是上面的那个预测玩游戏的意愿，我们假设建了右边的那棵树，那么每个样本都对应到了叶子节点上去，每一个样本都会对应一个 $g$ 和 $h$ ，那么我们遍历叶子节点下的每个样本，把这俩哥们累加，就会得到G和H，然后累加就可以得到这棵树的结构分数 $o b j$ （这里有个小细节就是假设有N个训练样本，那么就会有N次计算各自的 $g i 和 h i$ , 但是由于每个样本的 $g i 和 h i$ 没有啥关系，所以可以并行计算，这样就可以加速训练了，而且， $g i 和 h i$ 是不依赖于损失函数的形式的，只要这个损失函数二次可微就可以了, emmm…powerful, 这个并行，感觉叶子节点计算G和H的时候就可以，每个叶子并不影响）。

有了这个，我们就知道这棵树建的好不好了。

上面是可以判断出来一棵树究竟好不好，那么建立树的时候应该怎么建立呢？一棵树的结构近乎无限多，总不能一个一个去测算它们的好坏程度，然后再取最好的吧（这是个NP问题）。所以，我们仍然需要采取一点策略，这就是逐步学习出最佳的树结构。这与我们将K棵树的模型分解成一棵一棵树来学习是一个道理，只不过从一棵一棵树变成了一层一层节点而已。这叫什么？ emmm, 贪心（找到每一步最优的分裂结果）！xgboost采用二叉树，开始的时候，全部样本在一个叶子节点上，然后叶子节点不断通过二分裂，逐渐生成一棵树。

那么在叶子节点分裂成树的过程中最关键的一个问题就是应该在哪个特征的哪个点上进行分裂，也就是寻找最优切分点的过程。
最优切分点划分算法及优化策略
在决策树的生长过程中，一个非常关键的问题是如何找到节点的最优切分点，我们学过了决策树的建树过程，那么我们知道ID3也好，C4.5或者是CART，它们寻找最优切分点的时候都有一个计算收益的东西，分别是信息增益，信息增益比和基尼系数。而xgboost这里的切分，其实也有一个类似于这三个的东西来计算每个特征点上分裂之后的收益。

假设我们在某一节点完成特征分裂，则分列前的目标函数可以写为：
$j_{1}=-\frac{1}{2}\left[\frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}\right]+\gamma$
分裂后的目标函数：
$j_{2}=-\frac{1}{2}\left[\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}\right]+2 \gamma$
则对于目标函数来说，分裂后的收益为（Obj1-Obj2）：
$\text {Gain}=\frac{1}{2}\left[\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}\right]-\gamma$
注意该特征收益也可作为特征重要性输出的重要依据。

那么我们就可以来梳理一下最优切分点的划分算法了：
- 从深度为 0 的树开始，对每个叶节点枚举所有的可用特征；
- 针对每个特征，把属于该节点的训练样本根据该特征值进行升序排列，通过线性扫描的方式来决定该特征的最佳分裂点，并记录该特征的分裂收益；（这个过程每个特征的收益计算是可以并行计算的，xgboost之所以快，其中一个原因就是因为它支持并行计算，而这里的并行正是指的特征之间的并行计算，千万不要理解成各个模型之间的并行）
- 选择收益最大的特征作为分裂特征，用该特征的最佳分裂点作为分裂位置，在该节点上分裂出左右两个新的叶节点，并为每个新节点关联对应的样本集（这里稍微提一下，xgboost是可以处理空值的，也就是假如某个样本在这个最优分裂点上值为空的时候，那么xgboost先把它放到左子树上计算一下收益，再放到右子树上计算收益，哪个大就把它放到哪棵树上。）
- 回到第 1 步，递归执行到满足特定条件为止
上面就是最优切分点划分算法的过程，看完之后，是不是依然懵逼，这到底是怎么做的啊，下面就看一个寻找最优切分点的栗子吧：

还是上面玩游戏的那个例子，假设我有这一家子人样本，每个人有性别，年龄，兴趣等几个特征，我想用xgboost建立一棵树预测玩游戏的意愿值。首先，五个人都聚集在根节点上，现在就考虑根节点分叉，我们就遍历每个特征，对于当前的特征，我们要去寻找最优切分点以及带来的最大收益，比如当前特征是年龄，我们需要知道两点：
- 按照年龄分是否有效，也就是是否减少了obj的值
- 如果真的可以分，特征收益比较大，那么我们从哪个年龄点分开呢？
对于这两个问题，我们可以这样做，首先我们先把年龄进行一个排序，如下图：

按照这个图从左至右扫描，我们就可以找出所有的切分点a，对于每一个切分点a，计算出分割的梯度和 $G_L$ 和 $G_R$ 。然后用上面的公式计算出每个分割方案的分数。然后哪个最大，就是年龄特征的最优切分点，而最大值就是年龄这个特征的最大信息收益。

遍历完所有特征后，我们就可以确定应该在哪个特征的哪个点进行切分。对切分出来的两个节点，递归地调用这个过程，我们就能获得一个相对较好的树结构，有了树结构就比较容易找最优的叶子节点，这样就能对上面的样本进行预测了。当然，特征与特征之间的收益计算是互不影响的，所以这个遍历特征的过程其实可以并行运行。

在这个过程中你是否注意到了一个问题，就是xgboost的切分操作和普通的决策树切分过程是不一样的。普通的决策树在切分的时候并不考虑树的复杂度，所以才有了后续的剪枝操作。而xgboost在切分的时候就已经考虑了树的复杂度（obj里面看到那个 $\gamma$ 了吗）。所以，它不需要进行单独的剪枝操作。

这就是xgboost贪心建树的一个思路了，即遍历所有特征以及所有分割点，每次选最好的那个。 GBDT也是采用的这种方式，这算法的确不错，但是有个问题你发现了没？就是计算代价太大了，尤其是数据量很大，分割点很多的时候，计算起来非常复杂并且也无法读入内存进行计算。所以作者想到了一种近似分割的方式（可以理解为分割点分桶的思路），选出一些候选的分裂点，然后再遍历这些较少的分裂点来找到最佳分裂点。那么怎么进行分桶选候选分裂点才比较合理呢？我们一般的思路可能是根据特征值的大小直接进行等宽或者等频分桶，像下面这样（这个地方理解起来有点难，得画画了，图可能不太好看，能说明问题就行，哈哈）：

上面就是等频和等宽分桶的思路了（这个不用较真，我这里只是为了和作者的想法产生更清晰的对比才这样举得例子），这样选择出的候选点是不是比就少了好多了？但是这样划分其实是有问题的，因为这样划分没有啥依据啊，比如我上面画的等频分桶，我是5个训练样本放一个桶，但是你说你还想10个一组来，没有个标准啥的啊。即上面那两种常规的划分方式缺乏可解释性，所以重点来了，作者这里采用了一种对loss的影响权重的等值percentiles（百分比分位数）划分算法（Weight Quantile Sketch），我上面的这些铺垫也正是为了引出这个方式，下面就来看看作者是怎么做的，这个地方其实不太好理解，所以慢一些

作者进行候选点选取的时候，考虑的是想让loss在左右子树上分布的均匀一些，而不是样本数量的均匀，因为每个样本对降低loss的贡献可能不一样，按样本均分会导致分开之后左子树和右子树loss分布不均匀，取到的分位点会有偏差。这是啥意思呢？再来一个图（这个图得看明白了）：

这其实就是作者提出的那种找候选节点的方式（分桶的思路），明白了这个图之后，下面就是解释一下上面这个图的细节：第一个就是 $h_i$ 是啥？它为啥就能代表样本对降低loss的贡献程度？第二个问题就是这个bin是怎么分的，为啥是0.6一个箱？

下面从第一个问题开始，揭开 $h_i$ 的神秘面纱，其实 $h_i$ 上面已经说过了，损失函数在样本 $i$ 处的二阶导数啊！还记得开始的损失函数吗？
$\operatorname{Obj}^{(t)} \approx \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\sum_{i=1}^{t} \Omega\left(f_{i}\right)$
就是这个 $h_i$ ，那么你可能要问了，为啥它就能代表第 $i$ 个样本的权值啊？这里再拓展一下吧，我们在引出xgboost的时候说过，GBDT这个系列都是聚焦在残差上面，但是我们单看这个目标函数的话并没有看到什么残差的东西对不对？其实这里这个损失函数还可以进一步化简的（和上面的化简不一样，上面的化简是把遍历样本转到了遍历叶子上得到基于决策树的目标函数，这里是从目标函数本身出发进行化简）：
$\begin{aligned} \mathcal{L}^{(t)} & \simeq \sum_{i=1}^{n}\left[g_{i} f_{t}\left(\mathbf{x}_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(\mathbf{x}_{i}\right)\right]+\Omega\left(f_{t}\right) \\ &=\sum_{i=1}^{n}\left[\frac{1}{2} h_{i} \cdot \frac{2 \cdot g_{i} f_{t}\left(\mathbf{x}_{i}\right)}{h_{i}}+\frac{1}{2} h_{i} \cdot f_{t}^{2}\left(\mathbf{x}_{i}\right)\right]+\Omega\left(f_{t}\right) \\ &=\sum_{i=1}^{n} \frac{1}{2} h_{i}\left[2 \cdot \frac{g_{i}}{h_{i}} \cdot f_{t}\left(\mathbf{x}_{i}\right)+f_{t}^{2}\left(\mathbf{x}_{i}\right)\right]+\Omega\left(f_{t}\right) \\ &=\sum_{i=1}^{n} \frac{1}{2} h_{i}\left[\left(2 \cdot \frac{g_{i}}{h_{i}} \cdot f_{t}\left(\mathbf{x}_{i}\right)+f_{t}^{2}\left(\mathbf{x}_{i}\right)+\left(\frac{g_{i}}{h_{i}}\right)^{2}\right)-\left(\frac{g_{i}}{h_{i}}\right)^{2}\right]+\Omega\left(f_{t}\right) \\ &=\sum_{i=1}^{n} \frac{1}{2} h_{i}\left[\left(f_{t}\left(\mathbf{x}_{i}\right)+\frac{g_{i}}{h_{i}}\right)^{2}\right]+\Omega\left(f_{t}\right)+Constant \\ &=\sum_{i=1}^{n} \frac{1}{2} h_{i}\left(f_{t}\left(\mathbf{x}_{i}\right)-\left(-\frac{g_{i} }{ h_{i}}\right)\right)^{2}+\Omega\left(f_{t}\right)+Constant \end{aligned}$
这样化简够简洁明了了吧，你看到残差的身影了吗？后面的每一个分类器都是在拟合每个样本的一个残差 $-\frac{g_i}{h_i}$ , 其实把上面化简的平方损失函数拿过来就一目了然了。而前面的 $h_i$ 可以看做计算残差时某个样本的重要性,即每个样本对降低loss的贡献程度。第一个问题说的清楚了吧

PS：这里加点题外话，Xgboost引入了二阶导之后，相当于在模型降低残差的时候给各个样本根据贡献度不同加入了一个权重，这样就能更好的加速拟合和收敛，GBDT只用到了一阶导数，这样只知道梯度大的样本降低残差效果好，梯度小的样本降低残差不好（这个原因我会放到Lightgbm的GOSS那里说到），但是好与不好的这个程度，在GBDT中无法展现。而xgboost这里就通过二阶导可以展示出来，这样模型训练的时候就有数了。

下面再解释第二个问题，这个分箱是怎么分的？比如我们定义一个数据集 $D_k={\{(x_{1k}, h_1),(x_{2k}, h_2),...,(x_{nk}, h_n)\}}$ 代表每个训练样本的第 $k$ 个特征的取值和二阶梯度值，那么我们可以有一个排名函数 $r_k(z)$
$r_{k}(z)=\frac{1}{\sum_{(x, h) \in \mathcal{D}_{k}} h} \sum_{(x, h) \in \mathcal{D}_{k}, xrk(z)=∑(x,h)∈Dkh1(x,h)∈Dk,x<z∑h$

到这终于把这一块描述完了，有点多，稍微理一理逻辑，前面那一部分是围绕着如何建立一棵树进行的，即采用贪心的方式从根节点开始一层层的建立树结构（每一层争取最优），然后就是建树过程中一个关键的问题：如何寻找最优切分点，给出了最优切分点算法，基于这个算法就可以建立树了。后面这一部分是一个优化的过程，提出了一种Weight Quantile Sketch的算法，这个算法可以将原来的分割点进行分桶，然后找到合适的候选分裂点，这样可以减少遍历时尝试的分裂点的数量，是xgboost相比于GBDT做出的切分点优化策略，现在知道为啥xgboost要快了吧，因为xgboost寻找切分点的时候不用遍历所有的，而是只看候选点就可以了。而且在特征上，xgboost是可以并行处理的。这样xgboost的建树过程及优化策略基本上就是这些了，当然这里面还有很多的细节，由于篇幅的原因就不写在这里了。
利用新的决策树预测样本值，并累加到原来的值上
若干个决策树是通过加法训练的，所谓加法训练，本质上是一个元算法，适用于所有的加法模型，它是一种启发式算法。运用加法训练，我们的目标不再是直接优化整个目标函数，而是分步骤优化目标函数，首先优化第一棵树，完了之后再优化第二棵树，直至优化完K棵树。整个过程如下图所示：

上图中会发现每一次迭代得到的新模型前面有个 $\eta$ （这个是让树的叶子节点权重乘以这个系数），这个叫做收缩率，这个东西加入的目的是削弱每棵树的作用，让后面有更大的学习空间，有助于防止过拟合(注意这个可不像Adaboost那里每个分类器前面的权重值了，那一个是分类器的预测结果乘以权重作为了当前分类器在最后预测结果中的结果。而这里是权重要乘到树的叶子节点上去了，还是有区别的)。也就是，我不完全信任每一个残差树，每棵树只学到了模型的一部分，希望通过更多棵树的累加来来弥补，这样让这个让学习过程更平滑，而不会出现陡变。这个和正则化防止过拟合的原理不一样，这里是削弱模型的作用，而前面正则化是控制模型本身的复杂度，而这里是削弱每棵树的作用，都是防止过拟合，但是原理不一样。

好了，到这里为止，xgboost的数学原理部分就描述完了，希望我描述清楚了吧。简单的回顾一下上面的过程吧: xgboost是好多弱分类器的集成，训练弱分类器的策略就是尽量的减小残差，使得答案越来越接近正确答案。 xgboost的精髓部分是目标函数的Taylor化简，这样就引入了损失函数的一阶和二阶导数。然后又把样本的遍历转成了对叶子节点的遍历，得到了最终的目标函数。这个函数就是衡量一棵树好坏的标准。在建树过程中，xgboost采用了贪心策略，并且对寻找分割点也进行了优化。基于这个，才有了后面的最优点切分建立一棵树的过程。 xgboost训练的时候，是通过加法进行训练，也就是每一次只训练一棵树出来，最后的预测结果是所有树的加和表示。

关于xgboost，依然还有很多的细节没有说到，具体的去看论文吧。下面，我们就进行xgboost的实战部分，这里我们简单的做一个分类任务，主要是看看xgboost主要怎么用，尤其是在一个数据竞赛中（这次重点总结了一些用法）。

3. Xgboost实战二分类

安装：：默认可以通过pip安装，若是安装不上可以通过https://www.lfd.uci.edu/~gohlke/pythonlibs/网站下载相关安装包,将安装包拷贝到Anacoda3的安装目录的Scrripts目录下，然后pip install 安装包安装

3.1 xgboost的基本使用

Xgboost参数说明页面
Xgboost调参官方指南

我们使用xgboost做一个分类任务，可以直接使用xgboost。

# 0 1:1 9:1 19:1 21:1 24:1 34:1 36:1 39:1 42:1 53:1 56:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 117:1 122:1
# 1 3:1 9:1 19:1 21:1 30:1 34:1 36:1 40:1 41:1 53:1 58:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 118:1 124:1
# 0 1:1 9:1 20:1 21:1 24:1 34:1 36:1 39:1 41:1 53:1 56:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 117:1 122:1
# 0 3:1 9:1 19:1 21:1 24:1 34:1 36:1 39:1 51:1 53:1 56:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 116:1 122:1
# 0 4:1 7:1 11:1 22:1 29:1 34:1 36:1 40:1 41:1 53:1 58:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 105:1 119:1 124:1
# 0 3:1 10:1 20:1 21:1 23:1 34:1 37:1 40:1 42:1 54:1 55:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 118:1 126:1
# 1 3:1 9:1 11:1 21:1 30:1 34:1 36:1 40:1 51:1 53:1 58:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 106:1 117:1 124:1

"""上面是libsvm的数据存储格式， 也是一种常用的格式，存储的稀疏数据。 
第一列是label. a:b a表示index， b表示在该index下的数值， 这就类似于one-hot"""

import numpy as np
import scipy.sparse    # 稀疏矩阵的处理
import pickle
import xgboost as xgb

# libsvm format data 的读入方式， 直接用xgb的DMatrix
dtrain = xgb.DMatrix('./xgbdata/agaricus.txt.train')
dtest = xgb.DMatrix('./xgbdata/agaricus.txt.test')

下面我们进行参数设置：
关于xgboost的参数，详细的可以看上面的参数说明，这里拿分类器来说，解释一些参数：

xgb1 = XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=5, min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= ‘binary:logistic’, nthread=4, scale_pos_weight=1, seed=27)

'booster':'gbtree', 这个指定基分类器

'objective': 'multi:softmax', 多分类的问题，这个是优化目标，必须得有，因为xgboost里面有求一阶导数和二阶导数，其实就是这个。

'num_class':10, 类别数，与 multisoftmax 并用

'gamma':损失下降多少才进行分裂，控制叶子节点的个数

'max_depth':12, 构建树的深度，越大越容易过拟合

'lambda':2, 控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。

'subsample':0.7, 随机采样训练样本

'colsample_bytree':0.7, 生成树时进行的列采样

'min_child_weight':3, 孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束

'silent':0 ,设置成1则没有运行信息输出，最好是设置为0.

'eta': 0.007, 如同学习率，这个怎么感觉像是每棵树前面的那个权重呢？

'seed':1000,

'nthread':7, cpu 线程数

当然不需要全记住，常用的几个记住即可。可以结合着上面的数学原理，看看哪个参数到底对于xgboost有什么作用，这样利于调参。设置好参数，训练测试就行了，使用起来和sklearn的模型非常像

"""paramet setting"""
param = {
     
    'max_depth': 2,
    'eta': 1, 
    'silent': 1,
    'objective': 'binary:logistic'
}
watch_list = [(dtest, 'eval'), (dtrain, 'train')]  # 这个是观测的时候在什么上面的结果  观测集
num_round = 5
model = xgb.train(params=param, dtrain=dtrain, num_boost_round=num_round, evals=watch_list)

然后就是预测：

"""预测"""
pred = model.predict(dtest)    # 这里面表示的是正样本的概率是多少

from sklearn.metrics import accuracy_score
predict_label = [round(values) for values in pred]
accuracy_score(labels, predict_label)   # 0.993

模型的保存了解一下：

"""两种方式： 第一种， pickle的序列化和反序列化"""
pickle.dump(model, open('./model/xgb1.pkl', 'wb'))
model1 = pickle.load(open('./model/xgb1.pkl', 'rb'))
model1.predict(dtest)

"""第二种模型的存储与导入方式 - sklearn的joblib"""
from sklearn.externals import joblib
joblib.dump(model, './model/xgb.pkl')
model2 = joblib.load('./model/xgb.pkl')
model2.predict(dtest)

3.2 交叉验证 xgb.cv

# 这是模型本身的参数
param = {
     'max_depth':2, 'eta':1, 'silent':1, 'objective':'binary:logistic'}
num_round = 5   # 这个是和训练相关的参数

xgb.cv(param, dtrain, num_round, nfold=5, metrics={
     'error'}, seed=3)

3.3 调整样本权重

这个是针对样本不平衡的情况，可以在训练时设置样本的权重，训练的时候设置fpreproc这个参数，相当于在训练之前先对样本预处理。

# 这个函数是说在训练之前，先做一个预处理，计算一下正负样本的个数，然后加一个权重,解决样本不平衡的问题
def preproc(dtrain, dtest, param): 
    labels = dtrain.get_label()
    ratio = float(np.sum(labels==0)) / np.sum(labels==1)
    param['scale_pos_ratio'] = ratio
    return (dtrain, dtest, param)

# 下面我们在做交叉验证， 指明fpreproc这个参数就可以调整样本权重
xgb.cv(param, dtrain, num_round, nfold=5, metrics={
     'auc'}, seed=3, fpreproc=preproc)

3.4 自定义目标函数（损失函数）

如果在一个比赛中，人家给了自己的评判标准，那么这时候就需要用人家的这个评判标准，这时候需要修改xgboost的损失函数，但是这时候请注意一定要提供一阶和二阶导数

# 自定义目标函数（log似然损失），这个是逻辑回归的似然损失。 交叉验证
# 注意： 需要提供一阶和二阶导数

def logregobj(pred, dtrain):
    labels = dtrain.get_label()
    pred = 1.0 / (1+np.exp(-pred))    # sigmoid函数
    grad = pred - labels
    hess = pred * (1-pred)
    return grad, hess     # 返回一阶导数和二阶导数

def evalerror(pred, dtrain):
    labels = dtrain.get_label()
    return 'error', float(sum(labels!=(pred>0.0)))/len(labels)

训练的时候，把损失函数指定就可以了：

param = {
     'max_depth':2, 'eta':1, 'silent':1}

# 自定义目标函数训练
model = xgb.train(param, dtrain, num_round, watch_list, logregobj, evalerror)

# 交叉验证
xgb.cv(param, dtrain, num_round, nfold=5, seed=3, obj=logregobj, feval=evalerror)

3.6 用前n棵树做预测 ntree_limit

太多的树可能发生过拟合，这时候我们可以指定前n棵树做预测, 预测的时候设置ntree_limit这个参数

# 前1棵
pred1 = model.predict(dtest, ntree_limit=1)
evalerror(pred2, dtest)

3.7 画出特征重要度 plot_importance

from xgboost import plot_importance
plot_importance(model, max_num_features=10)

3.8 同样，也可以用sklearn的GridSearchCV调参

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold

model = XGBClassifier()
learning_rate = [0.0001, 0.001, 0.1, 0.2, 0.3]
param_grid = dict(learning_rate=learning_rate)
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=7)
grid_search = GridSearchCV(model, param_grid, scoring="neg_log_loss", n_jobs=-1, cv=kfold)
grid_result = grid_search.fit(x_train, y_train)

print("best: %f using %s" %(grid_result.best_score_, grid_result.best_params_))

means = grid_result.cv_results_['mean_test_score']
params = grid_result.cv_results_['params']

for mean, param in zip(means, params):
    print("%f  with： %r" % (mean, param))

好了，实战部分就整理这么多吧，重点在于怎么使用，xgboost使用起来和sklearn的模型也是非常像，也是.fit(), .predict()方法，只不过xgboost的参数很多，这个调起来会比较复杂，但是懂了原理之后，至少每个参数是干啥的就了解了，关于调参的技术，得从经验中多学习，多尝试，多总结才能慢慢修炼出来。

4. 总结

哇，终于完了，到这里，终于把xgboost的一些知识说清楚了，每一次不知不觉就会这么多字，可能是因为这个算法太重要了吧，所以多写了点，赶紧回顾一下：首先，我们从集成算法开始讲起，回顾了一下AdaBoost，GBDT，然后引出了xgboost，我们知道同属boosting流派，但集成策略又有不同，即使集成策略类似，那么得到最后结果的方式又不同。但对比之中，我们能更加体会它们的原理。其次，我们从数学原理的角度剖析了一下xgboost，看到了它的目标函数，看到了如何生成一棵树，看到了如何Taylor化简，知道了为什么需要损失函数的一二阶导数，也明白了为啥这个算法这么快。最后，我们通过实战一个二分类问题，见识到了xgboost的代码实现，基本使用和一些高级策略。

下面看看xgboost相比于GBDT有哪些优点（面试的时候可能会涉及）：

GBDT是机器学习算法， XGBOOST是GBDT的工程实现
精度更高：GBDT只用到一阶泰勒，而xgboost对损失函数进行了二阶泰勒展开，一方面为了增加精度，另一方面也为了能够自定义损失函数，二阶泰勒展开可以近似大量损失函数
灵活性更强：GBDT以CART作为基分类器，而Xgboost不仅支持CART，还支持线性分类器，另外，Xgboost支持自定义损失函数，只要损失函数有一二阶导数。
正则化：xgboost在目标函数中加入了正则，用于控制模型的复杂度。有助于降低模型方差，防止过拟合。正则项里包含了树的叶子节点个数，叶子节点权重的L2范式。这个东西的好处，就是XGBOOST在构建树的过程中，就可以进行树复杂度的控制，而不是像GBDT那样，等树构建好了之后再进行剪枝。
Shrinkage（缩减）：相当于学习速率。这个主要是为了削弱每棵树的影响，让后面有更大的学习空间，学习过程更加的平缓
列抽样：这个就是在建树的时候，不用遍历所有的特征了，可以进行抽样，一方面简化了计算，另一方面也有助于降低过拟合
缺失值处理：这个是xgboost的稀疏感知算法，加快了节点分裂的速度，传统的GBDT没有设计对缺失值的处理，而XBOOST能自动学习出缺失值的处理策略。
传统的GBDT在每轮迭代时使用全部的数据， XGBOOST则采用了与随机森林相似的策略，支持对数据进行采样。
并行化操作：块结构可以很好的支持并行计算

上面的这些优点，我在描述的时候基本上都涉及到了，正是因为xgboost有了这些优点，才让它变得非常火，堪称神器了现在，但是xgboost真的perfect了吗？正所谓金无足赤，人无完人， xgboost也同样如此，比如虽然利用了预排序和近似算法可以降低寻找最优分裂点的计算量，但在节点分裂过程中仍需要遍历整个数据集。预排序过程的空间复杂度过高，不仅需要存储特征值，还需要存储特征对应样本梯度统计值的索引，相当于消耗了两倍的内存。所以在内存和计算方面还是有很大的优化空间的。那么xgboost还可以在哪些角度进行优化呢？后面通过lightgbm的故事再说给你听

xgboost的故事就先讲到这里了，希望对你有所帮助，当然还有很多的细节没有提到，本文只是抛砖引玉，具体的建议去看看原文，毕竟这个算法还是超级重要的，面试的时候也会抠得很细，不看原文的话有些精华get不到。

参考：

xgboost论文原文 - 权威经典
Adaboost、GBDT与XGBoost的区别
xgboost算法详细介绍（通过简单例子讲述）
Introduction to Boosted Trees
终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！
xgboost的原理没你想像的那么难
XGBoost算法的原理详析[文献阅读笔记]
XGBoost原理介绍
灵魂拷问，你看过Xgboost原文吗？
一文读懂机器学习大杀器XGBoost原理

关于XGBoost，看几个更高层次的面试题了。

XGBoost对异常点比RF会更敏感，why?。

由于RF属于bagging方式，每棵树的生成是独立的，异常点数量不多的情况下异常点常常和正常样本中的某些样本合并在一个分支里。
xgboost不一样，异常样本的 $t - 1$ 轮的预测值和真实标签计算出来的负梯度会一直很大，假设当到达某一轮的时候，所有正常样本的计算得到的负梯度都很小而异常样本的负梯度很大例如[0.0000001,0.0000001,0.0000001,0.0000001,0.0000001,10],这个时候新树会可能会继续进行不正常的分裂为[0.0000001,0.0000001,0.0000001,0.0000001,0.0000001],[10]，而这样的分裂是不合理的，因为异常值本身可能是因为某些人为失误导致的数据记录错误，或者异常样本完全是属于另外一种分布，此时强制要进行模型训练会导致模型的结果有偏从而发生过拟合。然异常样本数量很少比如10个以内的时候而正常样本有100000000个其实基本没什么影响，但是如果占比较高的话是会产生影响的。

xgboost对特征缺失敏感吗，对缺失值做了什么操作，存在什么问题
不敏感，可以自动处理，处理方式是将missing值分别加入左节点右节点取分裂增益最大的节点将missing样本分裂进这个节点。这种处理方式的问题在xgboost仅仅在特征的非缺失的值上进行分裂然后missing值直接放入其中一个节点，显然当缺失值很多的情况下，比如缺失80%，那么xgb分裂的时候仅仅在20%的特征值上分裂，这是非常容易过拟合的。

用的xgboost也许要对特征进行标准化吗？
不用做标准化，但是要对分布不稳定的特征进行处理，比如分箱，log变换之类的，因为我们交叉验证的时候如果特征分布特别不规则，可能每一折的训练集和开发集上划分到的特征差异性比较大，这是包括gbdt算法之外所有算法都需要进行处理的，机器学习的基本假设是同分布，如果不同数据集的特征分布差异性太大，这样的特征没法直接使用必须要转换一下。这就是我们说的数据分布不一致。

xgb中l1正则怎么用的
xgb中 $l 1$ 表示对叶节点个数的约束项的系数，而 $l 2$ 则是叶子节点权重的约束项系数。

XGB怎么解决过拟合？怎么剪枝？怎么选择特征？
叶节点个数和叶节点权重（输出值）树的正则项，各种预剪枝的超参数（最大深度、最大叶节点个数、最小分裂增益、学习率、早停等等）控制树结构的复杂度，行列采样的引入、以及各类近似算法等。每轮计算所有特征各自的最佳分裂点，比较所有特征按照最佳分裂点分裂之后的分裂增益大小，使用分裂增益最大的特征在其最佳分裂点分裂一次，然后继续循环

为什么xgb用二阶导？ 这个学到了
如果我们考虑使用均方误差(MSE)作为损失函数，则目标变为：
$\begin{aligned} \text { obj }^{(t)} &=\sum_{i=1}^{n}\left(y_{i}-\left(\hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)\right)\right)^{2}+\sum_{i=1}^{t} \Omega\left(f_{i}\right) \\ &=\sum_{i=1}^{n}\left[2\left(\hat{y}_{i}^{(t-1)}-y_{i}\right) f_{t}\left(x_{i}\right)+f_{t}\left(x_{i}\right)^{2}\right]+\sum_{i=1}^{t} \Omega\left(f_{i}\right)+constant \end{aligned}$
可以看到，损失函数式MSE的时候，注意，此时我们没有进行二阶展开。 MSE的形式是友好的，具有一阶项(残差)和二次项。但是对于其他损失，要获得如此好的形式就不容易了。那么，如果我们将损失函数的泰勒展开式提高到二阶会出现啥情况呢？
$\mathrm{bj}^{(t)}=\sum_{i=1}^{n}\left[l\left(y_{i}, \hat{y}_{i}^{(t-1)}\right)+g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right)+\text { constant }$
我们删除掉所有的常量，再看：
$\sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right)$
这样对比发现，其他损失函数二阶泰勒展开之后，去掉常数的最终形式和MSE的不泰勒展开的形式是完全一致的(mse的二阶梯度为常数1，一阶梯度那里对应了y_pred-y_true)。这样做的好处：

xgboost在对mse的损失函数设计完求解器之后，这一套代码可以直接复用给别的损失函数来使用。如果我们不做二阶泰勒展开的话，比如新的损失函数式二元交叉熵，我们看他导数：
$\left(h_{8}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$
这时候，就需要设计一个新的求解器，很麻烦。而xgb对损失函数求二阶导之后，后续如果还有一些什么别的损失函数，底层的求解mse的代码可以直接使用，使用者只需要自行去求解新的损失函数的一阶梯度和二阶梯度的表达式，然后通过xgboost的自定义损失函数的功能就可以实现使用完备的xgboost的框架来求解自己的损失函数的最优值了。
速度上，gbdt的前向分布的求解思路和我们常见的逻辑回归求解的梯度下降类似，线性回归的梯度下降每一轮通过更新参数的方式接近损失函数的最优值，而gbdt则是用基学习器去拟合(这其实涉及到了梯度提升和梯度下降的一个差别，梯度提升中模型并不需要参数化表示，而是直接定义在函数空间中，从而大大扩展了使用的模型种类)。相对而言， XGBoost类似使用牛顿法来求解线性回归，牛顿法的收敛速度要比梯度下降快，可能迭代的次数要比梯度下降少(当然，计算量上也上去了)。

另外，根据上面的loss贡献度那里对obj化简发现，二阶导其实是可以代表着每个样本对于降低损失的贡献程度的，这也就说明可以提供更多的信息，有利于模型的加速收敛。

xgb何时停止分裂？

人工设定的参数，max_depth,min_data_in_leaf等等，这类通过超参数形式限制树的复杂度的方法都会引发xgb的分裂的停止，也就是常说的预剪枝；
人工不限制，自由生长的情况下，当分裂增益小于0则基学习器停止分裂

你可能感兴趣的:(白话机器学习算法理论+实战,机器学习算法,xgboost神器,xgboost数学原理,xgboost代码实现,AdaBoost和GBDT)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它