Miracle8070

梯度提升树GBDT的理论学习与细节补充

1. 写在前面

今天是梯度提升树GBDT的理论学习和细节补充，之前整理过XGBOOST和Lightgbm，在那里面提到了GBDT，但是只是简单的一过，并没有关注太多GBDT的细节，所以这次借着整理推荐系统里面的GBDT+LR模型的机会，重新过了一遍GBDT和LR的基础知识，确实发现忽略了很多知识，而GBDT和逻辑回归模型都是作为面试考核的大点，所以有必要细一些了。

关于逻辑回归的细节，在这篇文章中进行了补充，今天的重点是GBDT， GBDT全称梯度提升决策树，在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一，在前几年深度学习还没有大行其道之前，gbdt在各种竞赛是大放异彩。原因大概有几个，一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了，导致在面试的时候大家也非常喜欢问这个算法，下面就从算法的原理与公式推导，算法如何选择特征，如何进行回归和分类等几方面进行一个整理。

PS：这个算法非常重要，现在机器学习算法最常用的XGBOOST， Lightgbm， catboost这几大巨头算法都是基于这个算法的基础上进行发展起来的，面试里面一般会问到的关于这个算法的问题，大致有下面几个，由于我也刚开始接触细节部分，先整理其中的几个，后面再慢慢加：

gbdt算法的流程？
gbdt如何选择特征？
gbdt如何构建特征？
gbdt如何用于分类
gbdt 通过什么方式减少误差？
gbdt的效果相比于传统的LR，SVM效果为什么好一些？
gbdt 如何加速训练？
gbdt的参数有哪些，如何调参？
gbdt 实战当中遇到的一些问题？
gbdt的优缺点？

大纲如下：

GBDT？我们先从提升树(BDT)开始吧
梯度提升之GBDT的原理（上面问题的1， 2）
GBDT如何构建特征（3）
GBDT如何进行分类（4）
为何GBDT受人青睐（6， 10）

Ok let’s go!

2. GBDT? 先从提升树开始

在介绍GBDT之前，先简单的介绍一下BDT, 也就是Boosting Decision Tree，这是以CART决策树为基学习器的集成学习方法，关于集成学习，这里就不过多赘述了，可以参考白话机器学习算法理论+实战之AdaBoost算法。提升树模型可以表示为决策树的加法模型：

$f_{M}(x)=\sum_{m=1}^{M} T\left(x ; \Theta_{m}\right)$
其中， $T(x;\Theta_m)$ 表示决策树； $\Theta_m$ 为决策树的参数， $M$ 表示树的个数，即M棵树的结果相加。

提升树采用的是前向分布算法，首先确定初始提升树 $f_0(x)=0$ ，第 $m$ 步的模型是：
$f_{m}(x)=f_{m-1}(x)+T\left(x ; \Theta_{m}\right)$
通过经验风险极小化确定下一棵树的参数（让残差尽可能的小找到最优划分点）：
$\hat{\Theta}_{m}=\arg \min _{\Theta_{m}} \sum_{i=1}^{N} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+T\left(x_{i} ; \Theta_{m}\right)\right)$

这里的 $L ()$ 是损失函数,回归算法选择的损失函数一般是均方差(最小二乘)或者绝对值误差;而在分类算法中一般的损失函数选择对数函数来表示。这是李航老师《统计学习方法》里面的原内容，也是对提升树比较好的总结。

如果对上面的公式一脸懵逼，那么我们拿一个图来看一下BDT的一个学习流程，然后再回顾一下上面的这些公式，就会有一种豁然开朗的感觉(初极狭，才通人，复行数十步，豁然开朗哈哈）

根据这个图先梳理一遍BDT的流程：

boosting方法之前已经提到过，是由多个弱学习器进行组合得到的一个强学习器，而每个弱学习器之间是相互关联的， AdaBoost是boosting家族的一员，它与BDT不同， AdaBoost中弱学习器之间的关联关系是前一轮学习器表现不行的样本，而GDT中弱学习器之间的关联是残差。

给我一些训练样本，我们先训练第一个弱学习器， BDT里面的话就是决策树了，关于决策树的问题这里依然不多说，可以参考白话机器学习算法理论+实战之决策树, 训练完了第一个学习器，就可以对样本进行一个预测，此时会得到一个与真实标签的一个残差，那么就可以用这个残差来训练后面的学习器，也就是第二个分类器关注于与前面学习器与真实标签的差距，这样依次类推，最后会得到n个弱分类器。那么我这n个分类器进行加和，就得到了最终的学习器。最后就是用这个东西进行预测。关于这个拟合残差的这部分，在白话机器学习算法理论+实战番外篇之Xgboost做了比较详细的赘述，这里就不再重复了，因为这篇文章内容也很多，不要再冗余了哈哈。

根据上面的这个简单过程，我们再来理解一下《统计学习方法》里面的公式， 提升树实际上是加法模型和前向分布算法，表示为：

在前向分布算法的第 $m$ 步时，给定当前的模型 $f_{m-1}(x)$ , 求解：

这样就可以得到第 $m$ 棵决策树 $\Theta_m)$ 。只不过不同问题的提升树，损失函数不同。如果我们解决的一个回归问题，我们用平方损失函数的话，第 $m$ 次迭代的损失函数为：
$\mathrm{L}\left(\mathrm{y}, f_{m-1}(x)+T\left(x, \Theta_{m}\right)\right)=\left(y-f_{m-1}(x)-T\left(x, \Theta_{m}\right)\right)^{2} = \left(r-T\left(x, \Theta_{m}\right)\right)^{2}$
这里的 $r$ 就是残差，所以第 $m$ 棵决策树 $\Theta_m)$ 是对该残差的拟合。但是要注意的是提升树算法中的基学习器是CART树的回归树。关于CART树，可以参考决策树那篇文章。

这就是BDT算法的一般流程，简单总结就是初始化一棵树，计算残差，根据残差拟合一棵树，然后更新。下面就是完整的提升树算法：

关于回归问题的提升树算法，李航老师书上有个比较好的例子，由于比较细致，这里只摘一部分，但是在摘之前，需要先整理一下CART回归树的生成方式，因为之前整理决策树全是分类任务，而这次要整理的BDT或者是下面的GBDT都是用CART回归树作为的基分类器，所以有必要了解一下CART回归树的生成过程，这也对应着面试过程中的一个问题，如何选择特征？这个细节其实就是CART回归树的生成过程，因为CART回归树生成的过程就是一个特征选择的过程。（这里PS一下：gbdt的弱分类器默认选择的是CART TREE。其实也可以选择其他弱分类器的，选择的前提是低方差和高偏差。框架服从boosting 框架即可）

一棵回归树对应着特征空间的一个划分以及在划分单元上的输出值。假设已将输入空间划分为M个单元 $R_1, R_2, ..., R_M$ , 并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ , 于是回归树模型表示为：

$f(x)=\sum_{m=1}^{M} c_{m} I\left(x \in R_{m}\right)$

当输入空间的划分确定时，可以用平方误差 $\sum_{x_{i} \in R_{m}}\left(y_{i}-f\left(x_{i}\right)\right)^{2}$ 来表示回归树训练数据的误差，用平方误差最小的准则求解每个单元上的最优输出值。单元 $R_m$ 上的 $c_m$ 的最优输出值 $\hat c_m$ 是 $R_m$ 上的所有输入实例 $x_i$ 对应的 $y_i$ 的均值，即
$\hat{c}_{m}=\operatorname{ave}\left(y_{i} \mid x_{i} \in R_{m}\right)$
现在问题是如何对输入空间进行划分？这里才用的启发方法，选择第 $j$ 个变量（特征） $x^{(j)}$ 和它的取值 $s$ , 作为切分变量和切分点，并定义两个区域：

$R_{1}(j, s)=\left\{x \mid x^{(j)} \leqslant s\right\} \quad \text { 和 } \quad R_{2}(j, s)=\left\{x \mid x^{(j)}>s\right\}$

然后寻找最优切分点 $j$ 和最优切分点 $s$ 。这个是关键，如何寻找？

具体的求解
$\min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right]$
对固定输入变量 $j$ 可以找到最优切分点 $s$ 。
$\hat{c}_{1}=\operatorname{ave}\left(y_{i} \mid x_{i} \in R_{1}(j, s)\right) \quad \text { 和 } \quad \hat{c}_{2}=\operatorname{ave}\left(y_{i} \mid x_{i} \in R_{2}(j, s)\right)$
遍历所有输入变量，找到最优切分变量 $j$ ，构成一个对 $(j, s)$ 。依此将输入空间划分为两个区域。重复上面的过程，直到满足条件，这样就生成了一棵回归树。

如果感觉上面的内容比较头大，那么可以看下面的这个例子，这个例子既说明了一下回归树是如何生成的，又解释了回归问题提升树的原理，这是李航老师书上的一个例子：

假设这里有10个训练样本的某个特征取值范围区间[0.5, 10.5], $y$ 的取值范围[5.0, 10.0]，我们学习一个提升树模型。

首先通过下面的优化问题：
$\min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right]$
求训练数据的切分点 $s$ . 根据所给数据，我们考虑如下切分点：
$1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5$
对于每个切分点，很容易求出 $R_1, R_2, c_1, c_2$ 及
$m(s)=\min _{c_{1}} \sum_{x_{i} \in R_{1}}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{2}}\left(y_{i}-c_{2}\right)^{2}$
比如，当 $s = 1.5$ , $R_1={1}, R_2={2, 3,...10}$ ，对应 $y$ 的平均 $c_1=5.56, c_2=7.5$ , 这时候根据上面这个公式得到

$m(s)=\min _{c_{1}} \sum_{x_{i} \in R_{1}}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{2}}\left(y_{i}-c_{2}\right)^{2}=0+15.72=15.72$
然后，在当 $s = 2.5$ 的时候，再求一个m, 得到如下表：

可以发现 $s = 6.5$ 的时候 $m (s)$ 最小，此时 $R_1=\{1, 2, ...6\}$ , $R_2=\{7, 8, 9, 10\}$ , $c_1=6.24, c_2=8.91$ , 所以这样就得到了第一棵回归树 $T_1(x)$ 为
$T_{1}(x)=\left\{\begin{array}{ll} 6.24, & x<6.5 \\ 8.91, & x \geqslant 6.5 \end{array}\right.$
即 $f_1(x)=T_1(x)$ 。这就是回归树的建树过程了，然后谈到BDT，就会发现根据第一棵树，每个训练数据会有一个残差，也就是经过第一轮的预测，与样本的真实值还是有些差距的，即

其中， $r_{2 i}=y_{i}-f_{1}\left(x_{i}\right), i=1,2, \cdots, 10$

用 $f_1(x)$ 拟合训练数据的平方损失误差：
$L\left(y, f_{1}(x)\right)=\sum_{i=1}^{10}\left(y_{i}-f_{1}\left(x_{i}\right)\right)^{2}=1.93$

第二步，就是求 $T_2(x)$ , 方法和上面一样，只是这次我们的训练集上图的残差的这个，把这个当做训练数据，同理就会得到
$T_{2}(x)=\left\{\begin{array}{ll} -0.52, & x<3.5 \\ 0.22, & x \geqslant 3.5 \end{array}\right.$

这样，我们就得到了 $f_2(x)$
$f_{2}(x)=f_{1}(x)+T_{2}(x)=\left\{\begin{array}{ll} 5.72, & x<3.5 \\ 6.46, & 3.5 \leqslant x<6.5 \\ 9.13, & x \geqslant 6.5 \end{array}\right.$
用 $f_2(x)$ 拟合训练数据的平方损失误差：
$L\left(y, f_{2}(x)\right)=\sum_{i=1}^{10}\left(y_{i}-f_{2}\left(x_{i}\right)\right)^{2}=0.79$
就会发现误差小了一些了。然后我们可以再次求残差，再进行下面树的建立，再求误差。但误差小到了我们允许的范围内，停。

这时候， $f(x)=f_n(x)$ 就是我们求得最终的提升树了。

好了，有了上面的基础，相信下面的GBDT就比较容易了。当然上面的如何选择特征，其实就是考察CART Tree建立的过程，也是上面这个了。

3. 梯度提升之GBDT的原理

提升树利用加法模型和前向分布算法实现学习的优化过程，但损失函数是平方损失或者指数损失时，优化比较简单，但是对于一般的损失函数而言，往往每一步优化不容易，针对这个问题，所以Friedman大神提出了利用最速下降的近似方法，即利用损失函数的负梯度来拟合基学习器。就是它了
$-\left[\frac{\partial L\left(y_{i}, F\left(\mathbf{x}_{\mathbf{i}}\right)\right)}{\partial F\left(\mathbf{x}_{\mathbf{i}}\right)}\right]_{F(\mathbf{x})=F_{t-1}(\mathbf{x})}$
用这个东西直接作为残差的近似值，拟合回归树。

怎么来理解这个近似呢？如果是平方损失函数的话，就一目了然了：

$L\left(y_{i}, F\left(\mathbf{x}_{\mathbf{i}}\right)\right)=\frac{1}{2}\left(y_{i}-F\left(\mathbf{x}_{\mathbf{i}}\right)\right)^{2}$
这时候对 $F(X_i)$ 求导，得：
$\frac{\partial L\left(y_{i}, F\left(\mathbf{x}_{\mathrm{i}}\right)\right)}{\partial F\left(\mathbf{x}_{\mathrm{i}}\right)}=F\left(\mathbf{x}_{\mathrm{i}}\right)-y_{i}$
就会发现，这个残差正是梯度的相反数，即：
$r_{t i}=y_{i}-F_{t-1}(\mathbf{x})=-\left[\frac{\partial L\left(y_{i}, F\left(\mathbf{x}_{\mathbf{i}}\right)\right)}{\partial F\left(\mathbf{x}_{\mathbf{i}}\right)}\right]_{F(\mathbf{x})=F_{t-1}(\mathbf{x})}$
所以在GBDT中使用负梯度作为残差进行拟合，当然这是平方损失函数，其他损失的话，也会得到近似的结论，只不过不是完全相等，这里放张图体会一下：

这其实就是GBDT的核心了，即利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值去拟合一个回归树。gbdt 每轮迭代的时候，都去拟合损失函数在当前模型下的负梯度。这样每轮训练的时候都能够让损失函数尽可能快的减小，尽快的收敛达到局部最优解或者全局最优解。

下面就是GBDT的梯度提升流程（这里是宏观的角度，即分类器是个大类），和BDT差不多，只不过残差这里直接用负梯度进行了替代。

输入：训练集 ${(x_1, y_1), (x_2, y_2), ...(x_N, y_N)\}, y_i属于\{+1, -1\}$ 。

初始化： $F_{0}(\mathbf{x})=\arg \min _{h_{0}} \sum_{i=1}^{N} L\left(y_{i}, h_{0}(\mathbf{x})\right)$

for t=1 to T do

计算负梯度： $\tilde{y}_{i}=-\left[\frac{\partial L\left(y_{i}, F\left(\mathbf{x}_{i}\right)\right)}{\partial F\left(\mathbf{x}_{i}\right)}\right]_{F(\mathbf{x})=F_{t-1}(\mathbf{x})}, i=1,2, \cdots, N$

拟合残差得到基学习器：
$w_{t}=\arg \min _{w_{t}} \sum_{i=1}^{N}\left(\tilde{y}_{i}-h_{t}\left(\mathbf{x} ; \mathbf{w}_{\mathbf{t}}\right)\right)^{2}$

得到基学习器的权重：
$\alpha_{t}=\arg \min _{\alpha_{t}} \sum_{i=1}^{N} L\left(y_{i}, f_{t-1}\left(\mathbf{x}_{\mathbf{i}}\right)+\alpha_{t} h_{t}\left(\mathbf{x} ; \mathbf{w}_{t}\right)\right)$

更新 $F_{t}(\mathbf{x})=F_{t-1}\left(\mathbf{x}_{\mathbf{i}}\right)+\alpha_{t} h_{t}\left(\mathbf{x} ; \mathbf{w}_{\mathbf{t}}\right)$

如果公式不好看，那就看图，这个图应该也是了然：

可以发现GBDT和提升树的区别是残差使用了梯度来替代，且每个基学习器有了对应的参数权重。gbdt通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的(因为训练的过程是通过降低偏差来不断提高最终分类器的精度)。弱分类器一般会选择为CART TREE（也就是分类回归树）。由于上述高偏差和简单的要求每个分类回归树的深度不会很深。最终的总分类器是将每轮训练得到的弱分类器加权求和得到的（也就是加法模型）。

这就是GBDT的训练流程了，当然要明确一点， gbdt无论用于分类还是回归一直都是使用CART回归树，这个原因后面会说，既然是用的回归树，我们就有：
$f(\mathbf{X})=\sum_{k=1}^{K} c_{k} I\left(\mathbf{X} \in R_{k}\right)$
这时候，流程可以化成下面的形式了，

算法第 1 步初始化，估计使损失函数极小化的常数值，它是只有一个根结点的树。第 2(a) 步计算损失函数的负梯度在当前模型的值，将它作为残差的估计。对于平方损失函数，它就是通常所说的残差，对于一般损失函数，它就是残差的近似值。第 2(b) 步估计回归树叶结点区域，以拟合残差的近似值。第 2(c )步利用线性搜索估计叶结点区域的值，使损失函数极小化。第 2(d) 步更新回归树。第 3 步得到输出的最终模型 $\hat f(x)$ 。

这就是GBDT算法的流程了。上面的第一个问题。下面进行下一个问题， GBDT如何构建特征？

4. GBDT如何构建特征

其实说gbdt能够构建特征并非很准确，gbdt 本身是不能产生特征的，但是我们可以利用gbdt去产生特征的组合。在CTR预估中，工业界一般会采用逻辑回归去进行处理,在逻辑回归那篇文章中已经说过，逻辑回归本身是适合处理线性可分的数据，如果我们想让逻辑回归处理非线性的数据，其中一种方式便是组合不同特征，增强逻辑回归对非线性分布的拟合能力。

长久以来，我们都是通过人工的先验知识或者实验来获得有效的组合特征，但是很多时候，使用人工经验知识来组合特征过于耗费人力，造成了机器学习当中一个很奇特的现象：有多少人工就有多少智能。关键是这样通过人工去组合特征并不一定能够提升模型的效果。所以我们的从业者或者学界一直都有一个趋势便是通过算法自动，高效的寻找到有效的特征组合。Facebook 在2014年发表的一篇论文便是这种尝试下的产物，利用gbdt去产生有效的特征组合，以便用于逻辑回归的训练，提升模型最终的效果。

这本应该是推荐系统那边的模型，后面会在那边再详细整理一下这个，这里简单整理一下这个过程：看论文里面的这个图：

我们使用 GBDT 生成了两棵树，两颗树一共有五个叶子节点。我们将样本 X 输入到两颗树当中去，样本X 落在了第一棵树的第二个叶子节点，第二颗树的第一个叶子节点，于是我们便可以依次构建一个五维的特征向量，每一个纬度代表了一个叶子节点，样本落在这个叶子节点上面的话那么值为1，没有落在该叶子节点的话，那么值为 0.

于是对于该样本，我们可以得到一个向量[0,1,0,1,0] 作为该样本的组合特征，和原来的特征一起输入到逻辑回归当中进行训练。实验证明这样会得到比较显著的效果提升。

关于这个模型的详细整理和代码实践部分，可以参考推荐系统专栏里面的LR+GBDT模型，这里不多说，但是这里会有一个问题，就是LR+GBDT模型一般是用于点击率预测里面，而点击率预测是个典型的分类问题（点击或者不点击），而我们上面一直说GBDT用的是CART回归树，那么我们上面那部分进行样本类别划分的时候，是怎么划分的呢？回归树不是输出连续值吗？我们怎么训练上面的GBDT模型？

所以下面才是重点， GBDT如何用于分类？

5. GBDT如何用于分类？

首先明确一点，gbdt 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树，这里面的核心是因为gbdt 每轮的训练是在上一轮的训练的残差基础之上进行训练的。这里的残差就是当前模型的负梯度值。这个要求每轮迭代的时候，弱分类器的输出的结果相减是有意义的。残差相减是有意义的。

如果选用的弱分类器是分类树，类别相减是没有意义的。上一轮输出的是样本 x 属于 A类，本一轮训练输出的是样本 x属于 B类。 A 和 B 很多时候甚至都没有比较的意义，A 类- B类是没有意义的。那么我们如何进行分类呢？

假设样本X总共有K类，来了一个样本，我们使用gbdt来判断样本x属于哪一类？流程如下：

我们在训练的时候，是针对样本X每个可能的类训练一个分类回归树。
举个例子，假设目前样本一共三类，也就是K=3, 样本x属于第二类。那么针对该样本x的分类结果，我们可以用一个三维向量[0, 1, 0]来表示。 0表示样本不属于该类， 1表示属于该类，因为样本属于第二类嘛。
针对样本由三类的情况，我们实质上每轮训练的时候是训练三棵树
第一棵针对样本x得第一类，输入为(x, 0), 第二棵是针对样本x的第二类，输入(x, 1), 第三棵针对样本x的第三类，输入(x, 0), 这里的具体训练过程就是我们上面CART 回归树生成过程了，按照上面的生成过程，我们就可以解出这三棵树以及三棵树上x类别的预测值 $f_{1}(x), f_{2}(x), f_{3}(x)$ 。
在此类训练中，我们仿照多分类的逻辑回归，使用softmax产生概率，则属于类别1的概率：

$p_{1}(\mathbf{x})=\frac{\exp \left(f_{1}(\mathbf{x})\right)}{ \sum_{l=1}^{3} \exp \left(f_{l}(\mathbf{x})\right)}$

对每个类别分别计算残差
如类别1： $\tilde{y}_{1}=0-p_{1}\left(\mathbf{x}{\mathbf{}}\right)$ ，类别2： $\tilde{y}_{2}=1-p_{2}\left(\mathbf{x}{\mathbf{}}\right)$ ，类别3： $\tilde{y}_{3}=0-p_{3}\left(\mathbf{x}{\mathbf{}}\right)$
开始第二轮的训练，针对第一类输入为 $\left(\mathbf{x}_{\mathbf{}}, \tilde{y}_{1}\right)$ ，针对第二类输入为 $\left(\mathbf{x}_{\mathbf{}}, \tilde{y}_{2}\right)$ ，针对第三类输入为 $\left(\mathbf{x}_{\mathbf{}}, \tilde{y}_{3}\right)$ ，继续训练出三棵树。
重复5直到迭代M轮，就得到了最后的模型，预测的时候只要找出概率最高的即为对应的类别。

如果感觉上面的理论比较难理解，那么依然是来一个例子，鸢尾花分类的数据集作为例子，看一下gbdt多分类的过程。

数据集如下：

这是一个有6个样本的三分类问题。我们需要根据这个花的花萼长度，花萼宽度，花瓣长度，花瓣宽度来判断这个花属于山鸢尾，杂色鸢尾，还是维吉尼亚鸢尾。具体应用到gbdt多分类算法上面。我们用一个三维向量来标志样本的label。[1,0,0] 表示样本属于山鸢尾，[0,1,0] 表示样本属于杂色鸢尾，[0,0,1] 表示属于维吉尼亚鸢尾。

以样本1为例，第一轮要训练3棵CART树，对于第一棵CART回归树，训练样本是[5.1, 3.5, 1.4, 0.2], label是1，第二棵训练样本是[5.1, 3.5, 1.4, 0.2], label是0，第三棵训练样本是[5.1, 3.5, 1.4, 0.2], label是0。

下面我们看CART 1是如何生成的， CART 1生成过程是从这四个特征中找一个特征作为CART 1的节点，比如花萼长度作为节点， 6个样本当中花萼长度大于5.1 cm的就是 A类，小于等于 5.1 cm 的是B类。生成的过程其实非常简单，但是有两个问题：

是哪个特征最合适？
是这个特征的什么特征值作为切分点？

即使我们已经确定了花萼长度做为节点。花萼长度本身也有很多值。在这里我们的方式是遍历所有的可能性，找到一个最好的特征和它对应的最优特征值可以让当前式子的值最小。
$\min _{j, s}\left[\min _{q} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{a_{i}} \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right]$
还记得这个吗？我们以第一个特征的第一个特征值为例。 $R_1$ 为所有样本中花萼长度小于 5.1 cm 的样本集合， $R_2$ 为所有样本当中花萼长度大于等于 5.1cm 的样本集合。所以 $R_1=\{2\}, R_2=\{1,3,4,5,6\}$

解释一下上面这个图就是 $y_1$ 是 $R_1$ label的均值，由于 $R_1$ 只有一个元素且label为1，则均值为1，即 $y_1=1$ , $y_2$ 是 $R_2$ 的label均值，由于 $R_2$ 里面只有1的label是1， 3， 4， 5， 6label是0，故均值是0.2，下面就是用上面的公式计算的损失函数了。就会发现山鸢尾类型在特征1的第一个特征值上的损失为0.8。

同样的方式，我们可以计算特征1上第二个特征值上的损失， $R_1$ 为所有样本花萼长度小于4.9cm的样本集合， $R_2$ 为所有样本中花萼长度大于等于4.9cm的样本集合。所以 $R_1=\{\}, R_2=\{1, 2, 3, 4, 5, 6\}$ , 再计算得到特征1的第二个特征上的损失：

这样我们可以遍历所有特征的所有特征值，找到让这个式子最小的特征以及其对应的特征值。在这里我们算出来让这个式子最小的特征花萼长度,特征值为5.1 cm。这个时候损失函数最小为 0.8。

于是我们的预测函数为：
$f(x)=∑_{xϵR1}y1∗I(xϵR1)+∑_{xϵR2}y2∗I(xϵR2)$
此处 $R_1=\{2\}, R_2=\{1, 3, 4, 5, 6\}$ , $y_1=1, y_2=0.2$ , 训练完以后的最终式子为：
$f1(x)=∑_{xϵR1}1∗I(xϵR1)+∑_{xϵR2}0.2∗I(xϵR2)$

因此，我们得到对样本属于类别1的预测值
$f 1 (x) = 1 + 0.2 * 5 = 2 f 1 (x) = 1 + 0.2 * 5 = 2$

同理，我们也可以构建CART 2和CART 3计算得到样本属于类别2和类别3的预测值 $f_2(x), f_3(x)$ ，那么我们就可以根据softmax得到样本属于类别1的概率：
$p_{1}(\mathbf{x})=\frac{\exp \left(f_{1}(\mathbf{x})\right)}{ \sum_{l=1}^{3} \exp \left(f_{l}(\mathbf{x})\right)}$
类别2和类别3的也能算出来，然后就可以得到残差，每个样本都是如此，就可以进行第二轮的训练了。

这就解决了上面的问题4，最后再整理一个。

6. 为何GBDT如此受人青睐

GBDT的优势首先得益于 Decision Tree 本身的一些良好特性，具体可以列举如下:

Decision Tree 可以很好的处理 missing feature，这是他的天然特性，因为决策树的每个节点只依赖一个 feature，如果某个 feature 不存在，这颗树依然可以拿来做决策，只是少一些路径。像逻辑回归，SVM 就没这个好处。
Decision Tree 可以很好的处理各种类型的 feature，也是天然特性，很好理解，同样逻辑回归和 SVM 没这样的天然特性。
对特征空间的 outlier 有鲁棒性，因为每个节点都是 x < 的形式，至于大多少，小多少没有区别，outlier 不会有什么大的影响，同样逻辑回归和 SVM 没有这样的天然特性。
如果有不相关的 feature，没什么干扰，如果数据中有不相关的 feature，顶多这个 feature 不出现在树的节点里。逻辑回归和 SVM 没有这样的天然特性(但是有相应的补救措施，比如逻辑回归里的 L1 正则化)。
数据规模影响不大，因为我们对弱分类器的要求不高，作为弱分类器的决策树的深度一般设的比较小，即使是大数据量，也可以方便处理。像 SVM 这种数据规模大的时候训练会比较麻烦。

当然 Decision Tree 也不是毫无缺陷，通常在给定的不带噪音的问题上，他能达到的最佳分类效果还是不如 SVM，逻辑回归之类的。但是，我们实际面对的问题中，往往有很大的噪音，使得 Decision Tree 这个弱势就不那么明显了。而且，GBDT 通过不断的叠加组合多个小的 Decision Tree，他在不带噪音的问题上也能达到很好的分类效果。换句话说，通过GBDT训练组合多个小的 Decision Tree 往往要比一次性训练一个很大的 Decision Tree 的效果好很多。因此不能把 GBDT 理解为一颗大的决策树，几颗小树经过叠加后就不再是颗大树了，它比一颗大树更强。

关于GBDT的理论和细节，先到这里，更详细的可以参考下面的第三个链接，这里就先不都整理过来了，有了上面的GBDT的这些知识，对于了解推荐系统里面的GBDT+LR模型，或者GBDT+FM模型就比较轻松了，对于了解XGBOOST和Lightgbm应该也会比较轻松了。

铺垫已经完成，下一个就要一睹GBDT+LR模型的真容了

参考：

李航老师 – 《统计学习方法》
西瓜书第八章 - 集成学习
机器学习算法GBDT — 比较详细的一篇
GBDT的原理和应用
梯度提升树(GBDT)原理小结
B站上一个讲集成学习的视频感觉也不错
白话机器学习算法理论+实战之决策树
白话机器学习算法理论+实战番外篇之Xgboost
白话机器学习算法理论+实战番外篇之LightGBM
白话机器学习算法理论+实战之AdaBoost算法

你可能感兴趣的:(机器学习笔记,梯度提升树,GBDT,LR,提升树)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
利用技术分享提升个人影响力 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《利用技术分享提升个人影响力》关键词：技术分享、个人品牌、影响力、内容创作、互动反馈、持续成长摘要：本文将深入探讨技术分享在个人发展中的重要作用，通过详细分析技术分享的意义、平台选择、内容创作、互动反馈及个人影响力提升策略，帮助读者掌握利用技术分享提升个人影响力的实用方法。第一部分：引言与基础第1章：技术分享的意义与价值1.1.1技术分享的历史与发展技术分享作为一种知识传播的方式，其历史可以追溯到
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
等保测评中的物联网设备安全评估亿林数据物联网安全网络安全等保测评
随着物联网（IoT）技术的飞速发展，物联网设备已经广泛应用于智能家居、智慧城市、工业自动化等多个领域，极大地提升了社会生产力和生活便利性。然而，随着IoT设备数量的激增，其安全性问题也日益凸显，成为我们必须面对的重要课题。在这一背景下，等级保护（等保）测评中的物联网设备安全评估显得尤为重要，它为我们提供了一个有效的安全评估和管理机制。一、物联网设备安全评估的重要性物联网设备的核心理念是实现物物相连
docker0网卡没有ip一步解决 ξ流ぁ星ぷ132 tcp/ip 网络服务器
正常查看ip的时候一直显示没有ip这里先删除docker0网卡iplinkdeletedocker0然后重启服务systemctlrestartdocker再次查看显示有ip了并且查看配置文件也是正常的cat/etc/docker/daemon.json{"registry-mirrors":["https://docker.m.daocloud.io","https://docker.imgdb
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
C# 设计模式（结构型模式）：组合模式硅谷调试员玩转C#设计模式 c#设计模式组合模式
C#设计模式（结构型模式）：组合模式在软件设计中，有时我们需要处理的是一组对象，而这些对象既可以是单独的元素，也可以是由多个子元素组成的复合体。这时，组合模式（CompositePattern）便能提供帮助。它允许客户端将单个对象和对象集合统一对待，从而简化了树形结构的管理。1.组合模式的定义组合模式是一个结构型设计模式，主要用于将多个对象组合成树形结构，以表示“部分-整体”的层次关系。通过组合模
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
树莓派 5 - Raspberry Pi OS 新版本 Bookworm（书虫） kuan_li_lyg 树莓派 &Jetson 教程机器人 stm32 嵌入式硬件自动驾驶 ROS 树莓派 raspberry pi
文章目录在这里插入图片描述版本说明前言二、PipeWire三、Networking四、Firefox五、Documentation六、What’smissing? 新版本下载地址为：https://www.raspberrypi.com/software/operating-systems/版本说明 2023-10-10:基于Debianbookworm版本支持树莓派5在RaspberryPi4和
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
C++STL-set s15335 C++STL c++开发语言
一.基础概念set也是一种容器，像vector,string这样，但它是树形容器。在物理结构上是二叉搜索树，逻辑上还是线性结构。set容器内元素不可重复，multiset内容器元素可以重复；这两个容器，插入的元素都是有序排列。二.基础用法1.set对象创建1.默认构造函数sets1;2.初始化列表sets2_1={9,8,7,6,5};//56789sets2_2({9,8,7,7,6,5});/
Vue.js 过渡 & 动画 lsx202406 开发语言
Vue.js过渡&动画引言在Web开发中，过渡与动画是提升用户体验的关键元素。Vue.js作为一款流行的前端框架，提供了强大的过渡与动画功能，使得开发者能够轻松实现丰富的交互效果。本文将深入探讨Vue.js中的过渡与动画，包括其原理、应用场景以及实现方法。一、Vue.js过渡原理Vue.js过渡是利用CSS3的transition属性实现的。当Vue.js侦测到数据变化时，会自动触发过渡效果。过渡
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
赛亚超频：蚂蚁、阿瓦隆、神马矿工超频解除低温限制，高温保护 Punkhash算力租赁超频虚拟货币矿机
www.punkhash.com赛亚超频在比特币挖矿行业日益激烈的今天，矿工们越来越重视矿机的效率与稳定性。随着电价的波动、币价的不确定以及矿机成本的攀升，单纯依靠“买新设备”提升产出，已经不再是最优选择。越来越多有经验的矿工开始转向对现有设备进行超频优化，以提高算力、降低单位能耗，从而获得更高的收益回报。而在众多第三方超频固件中，赛亚超频（SaiyanFirmware）凭借稳定性强、兼容机型广、
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
计算机科学与技术柳依依@ 学习前端 c4前端后端
计算机科学是一个庞大且关联性强的学科体系，初学者常面临以下痛点：-**知识点零散**：容易陷入"只见树木不见森林"的学习困境-**方向不明确**：面对海量技术栈不知从何入手-**体系缺失**：难以建立完整的知识网络1.计算机基础-计算机组成原理-冯·诺依曼体系-CPU/内存/IO设备-操作系统-进程与线程-内存管理-文件系统-计算机网络-TCP/IP模型-HTTP/HTTPS-网络安全2.编程能力
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
php加密的是什么,看看下面这个php代码是使用什么加密的? xiao龟 php加密的是什么
加密的代码如下：!/usr/bin/php-qeNrtWWlTG1cW/SvY5Yqg4krevoSQuIUEiE0LYAwuijKbEGA2YbMk+TUOjEnyc976b+Y2pKZqpNcgz3gm46r5BpL69Ln3nnvved3PrrFyRhOJEAoySvT66ceoMFbS02BNEFE8XRsLRAmkHI7eKMxMHC7tnKOz+Ytuezt7SUrPS6TcOa0c6
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，