茶桁

03. BI - 详解机器学习神器 XGBoost

本文专辑 : 茶桁的AI秘籍 - BI篇

原文链接: https://mp.weixin.qq.com/s/kLEg_VcxAACy8dH35kK3zg

文章目录

- 集成学习
- XGBoost

Hi，你好。我是茶桁。

学习总是一个循序渐进的过程，之前两节课的内容中，咱们去了解了LR和SVM在实际项目中是如何使用的，我给大家看了两个项目都是跟分类相关，一个是员工离职预测，一个是男女声音识别。

其实也能看到，男女声音识别也不一定都要用神经网络，能找到一些关键特征把它转化为结构化的数据你也可以用机器学习来完成预测，而且机器学习的效果还是非常好，基本上都有百分之97，98的准确性。

那今天这节课主要给大家讲解的是「机器学习的神器」，也是今天最主要的内容。

这个内容希望大家多去仔细阅读，如果你遇到哪些问题可以给我留言，文章下或者私信都可以，基本上，一些容易解答的问题我都会给予回复，大家保持一个良好的学习的方法。

集成学习

这些机器学习的神器都跟集成学习相关，先给大家看一个概念叫集成学习。集成学习就是把多个分类器合到一起，可以把它理解成叫三个臭裨将顶个诸葛亮。

集中学习里面有些策略，Bagging是一种，它像一个袋子一样，数据是放到袋子里面去，叫有放回的抽样方式。这个袋子里面如果你要做一个分类的模型会按照少数服从多数。最简单的就是一个陪审团，看一看大家投票的情况，这是分类问题。回归问题我们要用的是大家的平均值，你预测一下薪酬，他预测一下薪酬，把大家预测结果相加以后除上个数就是求平均值。这些都是一个banging的策略，集中学习把这些大家的结果给合并到一起。

Stacking叫做堆，什么叫Stacking？上图中下面的部分就是Stacking，我们把它分成两类分类器，分类器1，也就是前面的Classifier做了特征的提取，分类器2,Meta Classifier做了分类的过程。它是属于先后两阶段，先做第一种再做第二种，这是有先后逻辑顺序关系。如果是Bagging是没有先后逻辑关系。它是一个并行方法。你做你的，我做我的，最后我们可以综合起来，这个结果没有先后逻辑关系。而Stacking的话是有一个先后逻辑关系的，这是集成学习的不同种的学习的方式。

还有一种学习方式的话叫Boosting，Boosting中文可以把它称为叫提升，它也有先后的顺序。

我们看这张图，原始的数据给了模型，第一个分类器模型做了以后得到一些新的一些数据，再喂给第二个模型，然后再生成一些数据再喂给第三个模型，这三个模型之间是有顺序的。先计算第一个，再计算后面的第二个，再计算第三个，所以这种Boosting的方法是有一些顺序的关系。

通过Boosting的方式可以把弱分类器结合到一起形成一个强的分类器，这是它的一个Boosting的关系。Boosting有两个比较重要的算法，一个AdaBoost（自适应提升），一个是Gradient Boosting（梯度提升）。这两种方法在咱们之前的机器学习课程中都有详细的讲解。

AdaBoost是使用前面的学习器用简单的模型去适配数据，然后分析错误。然后会给予错误预测的数据更高权重，然后用后面的学习器去修复。

所以集成学习是有三种模式，Bagging是一种，Stacking是一种，还有就是Boosting。总的来说都是把多个分类器组合起来，会胜过一个分类器。这几中模型之间比较常见的模型是Boosting和Bagging。

我们对这两个做个对比。

在结构上，Bagging是基分类器并行处理，而Boosting是串行处理。
训练集上，Bagging的基分类器训练是独立的，而Boosting的训练集是依赖于之前的模型
在作用上，Bagging的作用是减少variance，而Boosting在于减少bias。

并行的方式和串形的方法没有什么特别的好坏之分，如果要去判断也是跟数据相关。我今天讲解的神器是属于最后一种，就是Boosting的方式，所以它应该是一个串形的方法。

这种分类器里面有很多种，上面我介绍了两个算法，一个是AdaBoost，一个是Gradient Boosting，那我们主要看看后面这种算法。这个算法中包含了几个比较重要的工具，有XGBoost、LightGBM、CatBoost以及NGBoost，实际上是对GBDT方法的不同实现，针对同一目标做了不同的优化处理。基本上出现的年限如下：

Boosting这种方式典型代表是XGBoost、LightGBM和CatBoost，NGBoost采用的boosting的方法跟前三种boosting不太一样，通常我们机器学习的神器还是指的前面三种。当然，近些年还有一些新的工具，比如H2O GBM，以及TensorFlow Boosted Trees（TFBT），咱们我们不去探讨它们，以后有机会写进阶课程的时候再说。

XGBoost最早提出来的是2014年，它是由陈天奇提出来的，提出来以后在Kaggle的比赛中是大火，基本上在2014年那个阶段只要你参加机器学习的比赛必用XGBoost，而且第一名基本上都是XGBoost，效果是最好的。

三年之后在2017年，微软提出来了一个lightGBM的版本，它是站在原来的XGBoost基础上做了一些简化，让它的版本更轻，轻的一个优势就是快。所以LightGBM占用内存更少，速度更快。

三个月之后俄罗斯的一家公司叫Yandex又做了一个新的版本，叫CatBoost，这家公司你可以把它理解成是俄罗斯的Google，是个科技巨头，也做测速引擎，同时也开源很多的机器学习的工具箱，那我们现在用的CatBoost就是Yandex提出来的一个模型。

XGBoost

https://arxiv.org/abs/1603.02754

XGBoost是2014年提出来的模型，它本身是基于树的。一般来说用的是CART回归树。这个是一个决策树，这是它的机器学习的模型。

我们现在要去完成一个预测y值，一个人是否喜欢电子游戏。就是电子游戏的市场跟哪些特征相关，年龄、性别、职业这些特征。前面是我们的X，有很多X，最后是那个y。

现在如果要建一棵树，用一棵角色树可能会建出来如图的一个过程。先判断他的age是不是小于15岁，如果小于15岁就走左边，再判断他的性别是不是男性，如果是男性我们就认为他会玩两个小时，如果不是男性就是0.1个小时。如果他是大于15岁我们就认为他是-1。

这个是其中一棵树的一个结果，他的预测是在叶子节点里面会有一个数值，这等于他的输出，所以输出都是在叶子节点里，中间那颗分支都是按照不同的逻辑来做个判断。

XGBoost它本身是集中学习，其实它背后的那个过程原理叫GBDT，大家先知道就好了，我们今天没有详细展开GBDT，这个是属于它的理论。就是说我有多少棵树一起来学习。就是之前看到那张图上的模型，依照数据流，Model1先去做，做完以后Model2去做，再做完以后Model3去做。它本身的原理就是多棵树相加。

那GBDT的理论版本是这样，XGBoost是它的工程版本。工程版本的目的是要更加的泛化，所以它主要是在原来GBDT的基础上又加了一个叫做正则化项：

$\begin{align*} 目标函数 = 损失函数 + 正则化项 \\ Obj(\varTheta) = L(\varTheta) + \Omega(\varTheta) \end{align*}$

这里， $L(\varTheta)$ 是损失函数，拟合数据。 $\Omega(\varTheta)$ 是正则化项，惩罚复杂模型。

我们的目标函数是由损失函数加正则化项。一般我们要判断的是想让它的预测结果和实际值更小，这个叫loss functio，之前课程中，我们一直跟loss打交道。多出来的结果叫y’, 和实际值的y之间, 我们会计算一个损失函数。

比如说我们要用用MSE做回归值，(y’ - y)^2，这等于它loss function。

所以，正则化项意义就是对我们的叶子节点做了一惩罚项。

$\begin{align*} \Omega(f_t) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^T w_j^2 \end{align*}$

整个 $\Omega (f_t)$ 用于控制树的复杂度，防止过拟合，使得模型更简化，也使得最终的模型的预测结果更稳定。

这个复杂的公式里， T代表的就是叶子数量，你想，如果你的决策数叶子数量很多，这个数模型就会很复杂。

w_j 是叶子分数的L2正则项，如果它的叶子的分数也是很大的话，也比较复杂，所以我们希望这棵树简单一点，没有这么多的叶子节点，而且叶子节点的数值也比较小一点。这样就是一个稍微小巧一点的模型。

$\gamma$ 是加入新叶子节点引入的复杂度代价。

那为什么要加正则化项呢？我给大家举个场景，你自己体会一下。我们的目标是希望损失函数最小化，比如说我们目标是想要挣更多的钱，有两种人a和b。a月薪是2万块钱，他每天就是朝九晚五，办公室的白领。b是网约车司机，每天早上6点出门，晚上12点回家，他也是月薪2万块钱。

你想办公室的白领他的模型相对来说比较简单一点，后面我们的系数就是大家不需要太多去努力，大概读出来结果-1，-0.1，+1， +0.1就好了。

网约车司机他会非常的奔波，很累。可能这个系数抖动比较大，最后得出结果+10， +20， -10， -20等等。

现在想一想，同样月薪2万块钱，你们希望是做a还是做b呢？我们同样可以得到这样一个结果，是希望是像办公室白领一样轻轻松松可以达到你的loss function这样的一个目标，还是希望像网约车司机一样特别的辛苦，很复杂。早上6点出门，晚上是24点回家。那大部分人应该都是a，这逻辑是一样的。

我们希望我们的那棵树没有那么的复杂，也能达到比较好的效果。所以在我们的目标函数过程中统计了两个代价，一个代价叫做loss function，损失代价，还有一个就是模型的代价。模型代价跟谁相关呢？跟模型的叶子数和叶子的分数相关。

以上就把目标函数的两个过程，损失函数和正则化项给大家讲完了。

接下来我们就详细的看一看它是怎么去做的。

预测函数，样本的预测结果=每棵树预测分数之和。

$\begin{align*} \hat y_i = \sum^k_{k=1}f_k(x_i) \end{align*}$

我们对目标函数进行优化

$\begin{align*} Obj(\varTheta) & = \sum_il(y_i, \hat y_i)+\sum_k\Omega(f_k) \\ \Omega(f) & = \gamma T + \frac{1}{2}\lambda ||w||^2 \end{align*}$

我们在原来的loss function里面加了一个正则化项，下面的那个是正则化项的公式，前面是叶子节点的数量，后面是叶子节点的分数。我们希望目标函数最小化，把这个目标函数写成以下的一个过程：

$\begin{align*} Obj^t = \sum_{i=1}^n l(y_i, \hat y_i^{t-1} + f_t(x_i))+\Omega(f_t) + constant \end{align*}$

集成学习的树是由多棵树来完成的，如果你现在做的是t棵树，前面那个结果就是t-1棵树。t-1棵树的结果加上 $\varDelta$ ，也就是 $f_t(x_i)$ ，就说第t棵树的结果。之前咱们说的model1, model2, model3这是三棵树, 如果t等于3的话前面两棵树是t-1，预测结果加上第三棵树的预测结果。

这两个过程我们都是拿它做一个loss function的一个组合，再加上正则化项，再加上一个常数项，这等它的目标函数。

对这个函数改进，进行二阶泰勒展开：

$\begin{align*} f(x+\varDelta x) \approx f(x) + f'(x)\varDelta x + \frac{1}{2} f''(x)\varDelta x^2 \end{align*}$

那关于泰勒展开，我在数学基础篇里有一篇专门来讲这个。现在我们只要知道它是一个定理，这个定理就是说你的变量 $x+\varDelta x$ 可以近似的把它展开出来这样。

$\begin{align*} \hat y_i^{(0)} & = 0 \\ \hat y_i^{(1)} & = f_1(x_i) = \hat y^{(0)} + f_1(x_i) \\ \hat y_i^{(2)} & = f_1(x_i) + f_2(x_i) = \hat y^{(1)} + f_2(x_i) \\ \cdots & \\ \hat y_i^{(t)} & = \sum_{k=1}^tf_k(x_i) = \hat y_i^{(t-1)} + f_t(x_i) \end{align*}$

那这个式子就可以这样推理得到。其中 $\hat y_i^{(t)}$ 是第t轮的模型预测， $\hat y_i^{(t-1)}$ 是保留前t-1轮的模型预测，而 $f_t(x_i)$ 是加入新的预测函数。

我们可以做多阶泰勒展开，二阶泰勒展开呢相对简单一点。现在只要知道有这么一个概念，这个概念是做一个近似的过程即可。今天就不去讲这个数学的推导了，关于如何利用数学进行推导，大家回到我数学篇里专门有一篇讲泰勒展开的一节去好好补一下基础。

那这个过程就还是一个loss function，这里就是一个任何的function都是一样的。后面这个f’(x)是一个导数，f’是一阶导数，f’'是二阶导数，就是做完一阶以后再去做一阶。

一阶导数乘上 $\varDelta x$ ，再加上二阶导数乘上 $\varDelta x^2$ ，这等于二阶泰勒展开，这是一个定理。那这个定理代入的就是刚才这套过程。

我们来看定义：

$$
\begin{align*}
g_i & = \partial_{\hat y^{(t-1)}}l(y_i, \hat y^{(t-1)}) \
h_i & = \partial^2_{\hat y^{(t-1)}}l(y_i, \hat y^{(t-1)}) \

Obj^t & \approx \sum_{i=1}^n \left [ l(y_i, \hat y^{(t-1)}) + g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i) \right ] + \Omega(f_t) + constant
\end{align*}
$$

这里，f(x)就是等于 $l(y_i, \hat y_i^{(t-1)})$ ，后面这个 $f_t(x_i)$ 不就是 $\varDelta x$ 吗，然后f’(x)是定义成了一阶导数，用g来代表，再之后是 $\varDelta x^2$ ，它就是 $f_t^2(x_i)$ 。那个二阶导数用h来代表，前面再把1/2拿过来。

这样目标函数我们就把它做了个改写，我们把它用二阶泰勒展开做了个改写，中间的一阶导数项用g，二阶导数项用h，所以它是个约等于。

有了这个流程以后，刚才这是个约等于，是用二阶泰勒展开。还可以再去详细的去看一看, f_t(x_i)，这是第7棵树的结果，因为咱们用的是个决策树，它的结果是在叶子节点，那么叶子节点可以作为定义。它叶子节点假设是w，那它的叶子节点的平方也是w的平方，我们再加上后面的正则化项，正则化项是刚刚我们定义好的 $\gamma T+\lambda\frac{1}{2}\sum_{i=1}^T w_j^2$ , 这是陈天奇定义好的一个公式。这样一个推导我们还可以再把它去做一个合并的过程,这个过程就不完全展开了，可以自己看一下，我们来看一个完整的推导：

$\begin{align*} Obj^t & = \sum_{i=1}^n \left [ g_if_t(x_i) - \frac{1}{2}h_if_t^2(x_i) \right ] + \Omega(f_t) \\ & = \sum_{i=1}^n \left [ g_iw_{q(x_i)} + \frac{1}{2} h_iw^2_{q(x_i)} \right ] + \gamma T + \lambda\frac{1}{2}\sum_{i=1}^T w_j^2 \\ & = \sum_{j=1}^T \left [\left( \sum_{i\in I_j} g_i \right) w_j + \frac{1}{2} \left ( \sum_{i\in I_j} h_i + \lambda \right ) w_j^2 \right] + \gamma T \end{align*}$

T为叶子节点数量， $I_j$ 定义为每个叶子节点里面的样本集合 $I_j = \{ i | q(x_i) = j \}$ ， $f_t(x_i) = w_{q(x_i)}$ 即每个样本所在叶子节点索引的分数（叶子权重w）。

那么我们就可以看到，g是做了一个求和项,h也做了一个求和项。
所以我们就把一阶导数的求和用一个大G去表达， $G_j = \sum_{i\in I_j} g_i$ ，二阶的求和用个大H来做表达 $H_j = \sum_{i\in I_j} h_i$ ，就是把这个过程用大G和大H来去做一个表达，那我们上面最后那一步的那个复杂公式就可以写成：

$\begin{align*} Obj^t = \sum_{j=1}^T \left[ G_jw_j + \frac{1}{2}(H_j + \lambda) w_j^2 \right] + \gamma T \end{align*}$

以上就把它的目标函数做了一个改写, 那现在我们是希望这个目标函数是越大越好，还是越小越好？自然是希望它越小越好。那什么时候得到最小值？导数为0的时候，就是对 $\frac{\partial Obj}{\partial w_j}$ 求偏导，，那求偏导就得到：

$\begin{align*} \frac{\partial Obj}{\partial w_j} = G_j + (H_j + \lambda)w_j = 0 \end{align*}$

导数等于0的时候，我们就可以求到极值，它等于0的时候我们可以求解得：

$\begin{align*} w_j & = - \frac{G_j}{H_j + \lambda} \\ Obj & = -\frac{1}{2} \sum_{j=1}^T \frac{G_j^2}{H_j + \lambda} + \gamma T \end{align*}$

先求得 $w_j$ 之后再将它代入到前面那个公式，我们就可以得到Obj。

所以要想让目标函数最小，我们可以直接求出来w_j的极值以及最小化的那个Obj。

有了这个过程之后我们一起看一看，我们的XGBoost是怎么去进行运算的。

我们的Obj的目标函数也是称为一个叫结构分数（打分函数），我们希望这个结构分数越小越好。越小就代表它这个结构越稳定。

我们看图，第一个部分，判断is male为yes的时候的叶子是一个样本，为no的时候是一个样本，那判断age < 15为no的时候是三个样本。如果三个样本输出的结果的话，我们的的大G就是三个样本的之和，大H也是这三个样本的h，二阶导数之和。

Obj是衡量模型好坏的标准，我们希望这个分数越小越好，就是这个数会更加的稳定一些。

那怎么样去求解这个Obj让它更小？刚才我们已经找到了这个机制，也就是

$\begin{align*} Obj & = -\frac{1}{2} \sum_{j=1}^T \frac{G_j^2}{H_j + \lambda} + \gamma T \end{align*}$

这样Obj会比较好一点。那我们的树要去做分割，大家知道这个学习过程中的树是一点点长出来的，长出来的话叶子节点做分割就会成为一个父亲和孩子的一个结构。那要不要做分割的依据是啥？孩子的Obj应该要更小一点才会更好。所以你要去做的事情我们把它称为叫做一个Gain，Gain就是你分割的一个条件。

$\begin{align*} Gain = \frac{1}{2}\left[ \frac{G_L^2}{H_L + \lambda} + \frac{G_R^2}{H_R + \lambda} - \frac{(G_L + G_R)^2}{H_L + H_R + \lambda}\right ] - \gamma \end{align*}$

这个式子中的几个部分如下：

Gain等于父亲啊减去孩子，也就是分割前的Obj减去分割后的左右Obj。如果说，父亲的Obj减去孩子的Obj等于Gain，那么Gain如果小于0，还要不要做分割？那么要记得，Gain<0, 那说明孩子比父亲还不稳定，那这个节点就不做分割，我们要找Gain>0的点。那Gain>0也有很多，我们要找其中最大的来做分割。这是XGBoost的一个过程。

那这里的可能性多不多我们怎么做？分裂节点的分裂，我们以这五个样本为例：

这是一个叶子节点，这叶子节点里面要去给它做分裂，先按照原来的g_i, 就是一阶的导数从小到大来做个排序，按照一定的顺序。

那g1, g4的顺序实际上就是g1比g4要小，后面也是。按照这个顺序来做排序，排序以后，我们现在切分有几种切分的方法？如果是5个样本的话，从最前面和最后面分割毫无意义，我们要做的是从中间将它们一分为二，那无非就是[[1,4], [2, 3], [3, 2], [4, 1]]。所以应该是四种结构。

我们有四种分裂的可能性，我们要找这种分裂的Obj最小的, 或者叫Gain最大的。四种结构我们要求4个Gain, 在四个里面去找到一种最大的来去做判断。

我们知道，我们的样本数有可能很多，一般机器学习有可能有上万个样本。一个节点，最开始原来样本假设有1万个，想想，1万个这样的样本要把它做划分的话，现在还是用从小到大给它规范好，这样的顺序来做划分有多少种划分方式呢？要计算1w-1次，接近1万次，9,999次。

这只是划分一次，决策树的划分不仅仅分裂一次，分裂完一次以后下个节点还可以再做分裂。所以每次来计算的话，这个计算量相当于是个for循环一样，计算量其实是蛮大的。

这是我们最开始的XGBoost的版本，对于它的节点划分来说我们要计算1w - 1次, 如果它的这个节点的样本是1w的话。

原始的XGBoost的计算量会比较大，这是在2014年的版本。XGBoost的原理在2014年提出来用的是一种贪心算法。这个贪心是从小到大的顺序来做了一个规范化，其实整个的顺序是有多种可能性的，我们是按照从小到大的顺序。然后去切的过程中，我们也只是看当下自有解，这是贪心计算方法。

但即使这种计算方法的计算量级也很多，在2016年作者就提出来一种改进的方式叫做histogram。

它用直方图，其目的就是把多个样本给它捆绑到一起。我们还是要做一个分裂的事情，再看刚才的结果，如果你在叶子节点上有1万个样本，原来是要切分出来9,999刀，现在把这1万个样本用绳子给它捆绑出来128个桶。桶就是一个最小的单位，把前面这些样本都拿绳子捆到一起，后面这个捆到一起，一共有多少桶？128个桶。

我们如果再去做切分的时候只能在桶与桶之间来做切分，那它的划分的样式有多少种？原来的1万要做9,999次的切分，现在128个桶，在做计算的时候就变成了127次。这种方式是种降维处理，有点类似于像聚类的方式，这样我们的计算量就大大缩减，所以他的计算的时间就会快很多。

这是XBGoost的一种近似的方法，近似的方法它不代表好，但是它是属于近似最优解，可以用更快的时间提升，基本上快几十倍还是有可能的。

以上就是XGBoost的原理，我们简单的再总结一下。

XGBoost是在GBDT多棵集成学习树上面做的优化。多棵学习树可以把它理解成model1+model2+…+modeln, 这是原来的集成学习的概念。XGBoost在原有基础上加了正则化项，正则化项的目的是防止过拟合。同时这个正则化项构造的很精巧，它用了一个公式，这个公式带进去以后经过一系列的转化，它的二阶项跟前面的1/2就消掉了。转化以后通过求偏导的方式可以把极值给求出来。前后相减的分裂过程是希望孩子的Obj更小。也就是说我们的父亲的Obj减去孩子的Obj等于Gain，每一项的话都可以进行一个求解，我们希望它的Gain变得更大一点。

那么怎么做分裂呢？就会有尝试多种分裂的方法，找到一种更最大的分裂方式。在这么多种分裂方法过程中采用的是贪心算法，1万个样本就要切1万减1刀。作者在2016年提出来了更快的方法，就是直方图的方法，这方法可以按照桶的个数来进行划分，所以它是一种近似的方式。

XGBoost算法的一些特点呢，就是讲树模型的复杂度加入到正则项中，从而避免过拟合，泛化性能好。其损失函数是用泰勒展开去完成的，用到了一阶和二阶导数，可以加快优化速度。它在寻找最佳分割点的时候，采用的是近似贪心算法，用来加速计算。那直方图还可以使用GPU来进行计算，GPU就可以采用并性化的方式来进行计算，所以速度就会比较快。XGBoost不仅支持CART作为基分类器，还支持线性分类器，在使用线性分类器的时候可以使用L1， L2正则化。

XGBoost有点是速度快、效果好、能处理大规模数据、支持自定义损失函数等，缺点就是算法参数过多，调参复杂，不适合处理超高维度特征数据。

XGBoost的通用参数：

booster[default=gbtree]，模型选择，gbtree或者gblinear。gbtree使用基于树的模型进行提升计算，gblinear使用线性模型进行提升计算。。
silent[default=0]，缄默方式，0表示打印运行时信息，1表示以缄默方式运行，不打印运行时信息。
nthread[default=缺省值是当前系统可以获得的最大线程数]，XGBoost运行时的线程数。
num_feature， boosting过程中用到的特征个数，XGBoost会自动设置。
eta[default=0.3]，为了防止过拟合，更新过程中用到的收缩步长。在每次提升计算之后，算法会直接获取新特征的权重。eta通过缩减特征的权重使提升计算过程更加保守，取值范围为[0, 1]。
gamma[default=0], 分裂节点时，损失函数减小值只有大于等于gamma节点才分裂，gamma值越大，算法越保守，越不容易过拟合，但性能就不一定能保证，需要trade off，取值范围[0, ∞]。
max_depth[default=6]，树的最大深度，取值范围为[1, ∞], 典型值为3-10。
min_child_weight[default=1]，一个自己的所有观察值的最小权重和。如果新分裂的节点的样本权重和小于min_child_weight则停止分裂。这个可以用来减少过拟合，但是也不能太高，会导致欠拟合，取值范围为[0, ∞]。
subsample[default=1], 构建每颗树对样本的采样率，如果设置成0.5， XGBoost会随机选择50%的样本作为训练集。
colsample_bytree[default=1]，列采样率，也就是特征采样率。
lambda[default=1, alias:reg_lambda], L2正则化，用来控制XGBoost的正则化部分
alpha[default=0, alias:reg_alpha]，L2正则化，增加该值会让模型更加收敛。
scale_pos_weight[default=1], 在类别高度不平衡的情况下，将参数设置大于0，可以加快收敛。

学习目标参数：

objective[default=reg:linear]，定义学习目标，reg:linear，reg:logistic，binary:logistic，binary:logitraw，count:poisson，multi:softmax， multi:softprob，rank:pairwise
eval_metric，评价指标，包括rmse，logloss，error，merror，mlogloss，auc，ndcg，map等
seed[default=0]，随机数的种子
dtrain，训练的数据
num_boost_round，提升迭代的次数，也就是生成多少基模型
early_stopping_rounds，早停法迭代次数
evals：这是一个列表，用于对训练过程中进行评估列表中的元素。形式是evals = [(dtrain,‘train’),(dval,‘val’)]或者是evals = [(dtrain,‘train’)]，对于第一种情况，它使得我们可以在训练过程中观察验证集的效果
verbose_eval，如果为True，则对evals中元素的评估输出在结果中；如果输入数字，比如5，则每隔5个迭代输出一次
nm - learning_rates：每一次提升的学习率的列表

我们看这个参数量还挺多的，XGBoost里面参数量确实还是比较多的，如果你用到的话可以回头再来看看我这篇文章，当作一个手册来看。默认情况下了，我会教给大家一些比较常见的参数设置，你直接用它就可以。

我这里还是给大家看一个示例

# 天猫用户复购预测（XGBoost使用示意）
X_train, X_valid, y_train, y_valid = train_test_split(train_X, train_y, test_size=.2)

# 使用XGBoost
model = xgb.XGBClassifier(
    max_depth = 8, # 树的最大深度
    n_estimators = 1000, # 提升迭代的次数，也就是生成多少基模型
    min_child_weight = 300, # 一个子集的所有观察值的最小权重和
    colsample_bytree = 0.8, # 列采样率，也就是特征采样率
    subsample = 0.8,  # 构建每颗树对样本的采样率
    eta = 0.3, # eta通过缩减特征的权重使提升计算过程更加保守，防止过拟合
    seed = 42 # 随机数种子
)

model.fit(X_train, y_train,
          eval_metric='auc', 
          eval_set=[(X_train, y_train), (X_valid, y_valid)],
          verbose=True,
          # 早停法，如果auc在10epoch没有进步就stop
          early_stopping_rounds = 10
          )
model.fit(X_train, y_train)
prob = model.predict_proba(test_data)

比如我们现在创建好了一个model， XGBClassifier，创建好之后我们可以设置参数，比如一些树的深度等:

param = {
    'boosting_type':'gbdt', 
    'objective':'binary:logistic', # 任务目标
    'eval_metric':'auc', # 评估指标
    'eta':0.01, # 学习率
    'max_depth':15, #树最大深度
    'colsample_bytree':0.8, #设置在每次迭代中使用特征的比例
    'subsample': 0.9, #样本采样比例
    'subsample_freq': 8, #bagging的次数
    'alpha': 0.6, #L1正则
    'lambda': 0, #L2正则
}

colsample和subsample, 这个分别代表我们的列采样和行采样。设置行采样和列采样是让我们每次训练的时候更加的快一点，更加的轻量一点。这两个参数和树的深度参数，这三个参数都是比较常见的需要设置的参数。此外我们还需要针对你的任务来去做设置任务目标。

我们以attraction这个题目为例可以看一看怎么用

train_data = xgb.DMatrix(X_train, label=y_train) 
valid_data = xgb.DMatrix(X_valid, label=y_valid) 
test_data = xgb.DMatrix(test) 

model = xgb.train(param, train_data, evals=[(train_data, 'train'), (valid_data, 'valid')], num_boost_round = 10000, early_stopping_rounds=200, verbose_eval=25) 

predict = model.predict(test_data) 
test['Attrition']=predict # 转化为二分类输出 
test['Attrition']=test['Attrition'].map(lambda x:1 if x>=0.5 else 0) 
test[['Attrition']].to_csv('dataset/submit_lgb.csv')

原来的XGBoost还有两种版本, 一种版本的话是用它的DMatrix，这属于官方封装好的一个结构。把原来切分好的数据集用DMatrix来做的一个封装，封装好以后再进行训练。所以它是属于一个自己的一个训练的一个数据结构，叫DMatrix。我们以前用训练的话一般用fit，如果你用XGBoost官方版本的话，它写的是train，这是它的一个写法会稍微有一些区别。

带进去之后，其实后面都是调包的过程，train完以后predict，得到一个结果，最后把这个结果进行输出。

那我们来去用XGBoost来完成一下上节课我们完成的项目，首先还是数据的一些处理，这个和我们前几节课没有什么不同。主要就是我们要对一个参数进行设置；

param = {
    'boosting_type': 'gbdt',
    'objective': 'binary:logistic',
    'eval_metric': 'auc',
    'eta': 0.01,
    'max_depth': 15,
    'colsample_bytree': 0.8,
    'subsample': 0.9,
    'subsample_freq': 8,
    'alpha': 0.6,
    'lambda':0
}

这个就比我们之前调用其他模型来进行计算的参数量多了很多。然后我们用它官方的结构DMatrix：

train_data = xgb.DMatrix(X_train, label=y_train)
valid_data = xgb.DMatrix(X_valid, label=y_valid)
test_data = xgb.DMatrix(test)

这个套用就是把X_train，y_train给它放进去，它会封装一个自己的数据结构。所有样本都是一样，放进去训练的话就用自己的数据结构来去做训练。

model = xgb.train(param, train_data, evals=[(train_data, 'train'), (valid_data, 'valid')], num_boost_round=10000, early_stopping_rounds=200, verbose_eval=25)

param是前面设置好的，我们的训练的一些参数设置成一个字典，这是常见的一些配置。训练以后就可以拿这个模型去做预测得到一个预测结果，再把这个结果进行输出。

predict = model.predict(test_data)
test['Attrition'] = predict
print(predict)

---
[25]	train-auc:0.98897	valid-auc:0.75885
...
[675]	train-auc:1.00000	valid-auc:0.77299
[0.11253858 0.07342984 0.19541897 0.11211961 0.8137899  0.19079192
...
 0.07080463 0.07864323 0.09115468 0.21122025 0.06211422 0.06264106]

我们打印的结果来看，发生了过拟合的情况。在做训练过程中，我们加了一个validation，现在train-auc和valid-auc都有一个评分。现在呢，训练集基本满分，但是验证集和它差别很大。

这种情况下我们就可以调整参数，来防止过拟合状况。那我们首当其冲应该想到的就是eta以及max_depth，深度过大会造成过拟合，eta本来就是为了防止过拟合而在更新过程中用到的收缩步长。

在进行调整之后，过拟合状况就好多了：

[290]	train-auc:0.91738	valid-auc:0.83852

下一节课，我们来看看Boosting的另外一个版本，微软出的LightBGM.

你可能感兴趣的:(茶桁的AI秘籍#BI,机器学习,人工智能)

一文详解：使用HTTPS有哪些优势？ JoySSL303 https 网络协议 http ssl 网络
互联网发展到今天，HTTP协议的明文传输会让用户存在非常大的安全隐患。试想一下，假如你在一个HTTP协议的网站上面购物，你需要在页面上输入你的银行卡号和密码，然后你把数据提交到服务器实现购买。假如这个环节稍有不慎，你的传输数据被第三者给截获了，由于HTTP明文数据传输的原因，你的银行卡号和密码，将会被这个截获人所得到。现在你还敢在一个HTTP的网站上面购物吗？你还会在一个HTTP的网站上面留下你的
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
Android 高通平台修改摄像头拍照偏暗的问题
Android高通平台某款摄像头拍照会偏暗，修改摄像头拍照偏暗的问题按如下方法修改。开发云-一站式云服务平台.../chromatix_gc02m1/preview/chromatix_gc02m1_preview.h|10+++++-----1filechanged,5insertions(+),5deletions(-)diff--gita/vendor/qcom/proprietary/mm
AI+区块链：代购系统如何破解碳足迹追踪“数据黑箱”？
绿色电商趋势：代购系统如何实现碳足迹追踪与可持续物流？在全球气候危机与可持续发展目标的双重驱动下，绿色电商正从概念走向实践。作为跨境电商的核心环节，代购系统如何通过技术创新实现碳足迹追踪与可持续物流，成为行业突破增长瓶颈、构建差异化竞争力的关键。本文结合技术架构、行业实践与未来趋势，解析代购系统在绿色转型中的路径选择。一、碳足迹追踪：从数据孤岛到全链路透明1.技术架构：区块链+IoT构建可信数据链
Three.js 实现导出模型文件（.glb,.gltf）功能 GLTFExporter
Three.js提供了导出（.glb,.gltf）文件的APIGLTFExporter用于实现场景内容导出模型文件的功能导出模型文件主要使用parse方法，该方法接收三个参数：1.scene：要导出的场景对象。2.onComplete：解析完成后的回调函数，接收一个参数result，表示解析后的glTF数据。3.options：可选参数，用于配置导出的选项。下面是options的一些常用参数选项：
ECR仓库CloudFormation模板完整指南 ivwdcwso 运维与云原生自动化 aws 运维 ECR CloudFormation 镜像容器
概述本文档详细介绍了一个通用的AmazonECR（ElasticContainerRegistry）仓库CloudFormation模板，该模板支持多业务组、参数化配置，并包含完整的安全策略、生命周期管理和监控功能。模板特性核心功能✅支持4个业务组：app、ai、mall、frontend✅灵活的服务名手动输入✅多环境支持（dev/test/staging/prod）✅自动镜像扫描和安全检查✅生命
[晕事]今天做了件晕事83: pen test mzhan017 英语学习笔记晕事英语学习
这个缩写，就不能顾名思义了，而且pen是一个独立的单词，从读音上来说还容易和pain混淆，所以导致初接触者有些困扰。所以这个pentest的缩写，有些失败。全写是penetrationtest：渗透测试。https://en.wikipedia.org/wiki/Penetration_test修改建议是改成penetest，至少可以和pen在书写上区分，在读音是也可以区分，就读“排你test”。
青少年编程与数学 02-022 专业应用软件简介 24 项目管理工具：Trello
青少年编程与数学02-022专业应用软件简介24项目管理工具：Trello引言一、Trello的发展背景与历程1.1创立初衷1.2被Atlassian收购二、Trello的核心功能与特性2.1看板式任务管理（KanbanBoard）2.2卡片内容丰富性2.3自动化与规则引擎（Butler）2.4团队协作与权限管理三、Trello的应用场景与行业应用3.1软件开发与敏捷项目管理3.2市场营销与内容策
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
探秘阿里云消息队列：解锁分布式系统的异步通信奥秘云资源服务商阿里云云计算中间件
阿里云消息队列：分布式架构的基石在当今数字化快速发展的时代，分布式系统已成为企业构建高可用、高性能应用的关键架构。而消息队列，作为分布式系统中的重要组件，犹如基石一般，支撑着整个架构的稳定运行。它能够有效地解决分布式系统中的异步通信、解耦、削峰填谷等问题，为系统的可靠性和扩展性提供了强大的保障。阿里云作为云计算领域的领军者，其推出的阿里云消息队列凭借着卓越的性能、高可靠性以及丰富的功能，成为了众多
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
数据结构：位图顾小玙数据结构算法
目录问题引入位图定义相关整型位操作疑点位运算C++库里的bitset实现应用优缺点问题引入有一道经典的面试题：有40亿个无序无符号整数，要求你高效判断一个数是否在这堆数中。想法一：暴力查找似乎能够解决问题，但显然找一次就要消耗O(N)的时间，这是不能接受的；想法二：问题的本质是查找，因此想到使用高效的二分查找：先进行一次O(NlogN)的排序，之后的每次查找都只要O(logN)。想法二的改进很不错
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
大模型中标斩获3项第一！百度智能云
今年1-4月，百度智能云在主流大模型厂商中一举拿下三项第一！数量最多！中标项目数量7个！行业最全！覆盖最多行业6个！金额最高！中标金额总数最高5600万+南方电网、泰康保险、北京车网、中华总工会、上海城投污水处理有限公司等行业头部客户，纷纷与百度智能云达成合作，体现出大模型技术在政策、市场的双轮驱动下的强劲增长态势。百度智能云将继续深化与行业客户合作，共同探索大模型技术在各行业的应用场景，推动行业
李彦宏的求真务实：AI领域的生死局，信心从何而来？
文|大力财经据自媒体『划重点』独家报道，李彦宏在季度高管会上，来了一场《求真务实》的内部演讲，还把原文向全员公开，这实在可罕。“不是所有的game百度都能去玩、都能赢，所以要搞清楚该干什么、不该干什么。”李彦宏这话，算是把“求真务实”给点透了。他还直接开炮：“百度为什么打不赢仗？为什么起大早赶晚集？因为我们不聚焦。”他要求百度高管得敢于批评和自我批评，要开诚布公，知道自己几斤几两，还得能指出队友的
c语言逻辑运算符编程,C语言之逻辑运算符详解湛蓝色的迷惘 c语言逻辑运算符编程
一逻辑运算符：&&：逻辑与，读作并且表达式左右两边都为真，那么结果才为真口诀：一假则假||：逻辑或，读作或者表达式左右两边，有一个为真，那么结果就为真口诀：一真则真!:逻辑非，读作取反表达式的结果如果为假，就变成真，如果为真，就变成假口诀：真变假，假变真二逻辑运算符的短路问题tips:非0为真，0为假短路的情况：&&：左边如果为假，则右边短路(右边不会被执行)||：左边如果为真，则右边短路(右边不
C语言正则表达式使用详解
标准的C和C++都不支持正则表达式，但有正则表达式的函数库提供这功能.C语言处理正则表达式常用的函数有regcomp()、regexec()、regfree()和regerror()。使用正则表达式步骤：1)编译正则表达式regcomp()2)匹配正则表达式regexec()3)释放正则表达式regfree()4)获取regcomp或者regexec产生错误，获取包含错误信息的字符串函数声明如下：
PHP安全编程实践系列（三）：安全会话管理与防护策略软考和人工智能学堂 php #php程序设计经验 php 安全开发语言
前言会话管理是Web应用安全的核心环节，不安全的会话实现可能导致用户账户被劫持、敏感数据泄露等严重后果。本文将深入探讨PHP中的会话安全机制，分析常见会话攻击手段，并提供全面的防护策略和实践方案。一、会话安全基础1.1PHP会话机制工作原理理论：PHP会话是通过会话ID（SessionID）在服务器和客户端之间维持状态的一种机制。关键流程包括：会话初始化：session_start()调用会话ID
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
Vue3 学习教程，从入门到精通，使用 VSCode 开发 Vue3 的详细指南（3）知识分享小能手前端开发 vue3 网页开发学习前端 javascript vue.js vue3 vue 前端框架
使用VSCode开发Vue3的详细指南本文将详细介绍如何使用VisualStudioCode(VSCode)开发Vue3项目，包括创建项目、打开项目、运行第一个入门程序，并涵盖关键的语法知识点及使用方法。每个知识点都将提供具体的案例代码，并附有详细注释。此外，还将提供一些入门案例，帮助您快速上手Vue3开发。目录准备工作创建Vue3项目在VSCode中打开Vue3项目运行第一个入门程序Vue3关键
【实战派×学院派】32｜上线后一堆优化需求，到底是 Bug 还是改进？郭菁菁 (BA/PM)实战派常踩的坑学院派如何补上 bug 业务分析需求分析 BA
学院派：用Bug/Enhancement分类机制+优化反馈池+二次迭代评审机制，避免优化失控、节奏紊乱你是不是也遇到过这样的场景：“这个报表逻辑不太合理，麻烦调整下。”“那个按钮位置不合适，顺便挪一挪吧。”“这个功能可以加个提醒吗？体验会好一点。”项目刚上线没多久，各路优化意见像潮水一样涌来。最让人头疼的是：到底这些算Bug（缺陷）还是Enhancement（优化改进）？该优先处理哪个？哪些该打回
进阶之App 测试一只舰性能测试
App知识点什么是activityActivity一个应用程序的组件，它提供一个屏幕来与用户交互。Activity:应用程序中，一个Activity就相当于手机屏幕，它是一种可以包含用户界面的组件，主要用于和用户进行交互。一个应用程序可以包含许多活动，比如事件的点击，一般都会触发一个新的Activity。Activity生命周期四种状态:1、运行2、暂停3、停止4、系统回收（killed）Andr
万向节死锁公式推导微小冷机器人欧拉角旋转矩阵万向节万向节死锁旋转轴旋转
文章目录欧拉角的万向节死锁旋转轴欧拉角的万向节死锁如果把刚体的旋转沿着三个旋转轴进行拆分，那么可以变成三个旋转角的叠加，这三个旋转角就是欧拉角，分别对应旋转矩阵，为了书写方便，记Sθ=sin⁡θ,Cθ=cos⁡θS_\theta=\sin\theta,C_\theta=\cos\thetaSθ=sinθ,Cθ=cosθ，则三个旋转矩阵为Rx(θ)R_x(\theta)Rx(θ)Ry(θ)R_y(\
Three.js实现海洋与天空
Three.js实现海洋与天空https://threehub.cn/#/codeMirror?navigation=ThreeJS&classify=shader&id=waterSkyimport*asTHREEfrom"three";import{OrbitControls}from'three/examples/jsm/controls/OrbitControls.js'constDOM=
Three.js引擎开发：Three.js动画系统实现_（9）.Three.js中的骨骼动画实现 chenlz2007 游戏开发 javascript nginx 开发语言 vr 性能优化 ecmascript 前端
Three.js中的骨骼动画实现在上一节中，我们介绍了如何在Three.js中加载和显示3D模型。接下来，我们将深入探讨如何在Three.js中实现骨骼动画。骨骼动画是一种高级的动画技术，它通过控制模型的骨骼来驱动模型的动画，广泛应用于虚拟角色的动画制作。在本节中，我们将学习如何在Three.js中实现骨骼动画，包括骨骼动画的基本原理、如何加载带有骨骼的模型、如何创建和控制动画混合器（Animat
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多