weixin_39986741

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！...

转载自：Datawhale(ID：Datawhale)

作者：阿泽

本文 9764字40图，建议阅读 25 分钟。本文为阿泽带你学决策树的第三篇，主要介绍基于Boosting框架的主流集成算法。

本文是决策树的第三篇，主要介绍基于 Boosting 框架的主流集成算法，包括 XGBoost 和 LightGBM。

送上完整的思维导图：

XGBoost

XGBoost 是大规模并行 boosting tree 的工具，它是目前最快最好的开源 boosting tree 工具包，比常见的工具包快 10 倍以上。Xgboost 和 GBDT 两者都是 boosting 方法，除了工程实现、解决问题上的一些差异外，最大的不同就是目标函数的定义。故本文将从数学原理和工程实现上进行介绍，并在最后介绍下 Xgboost 的优点。

1.1 数学原理

1.1.1 目标函数

我们知道 XGBoost 是由 k 个基模型组成的一个加法运算式：

其中为第 k 个基模型，为第 i 个样本的预测值。损失函数可由预测值与真实值进行表示：其中 n 为样本数量。我们知道模型的预测精度由模型的偏差和方差共同决定，损失函数代表了模型的偏差，想要方差小则需要简单的模型，所以目标函数由模型的损失函数 L 与抑制模型复杂度的正则项组成，所以我们有：

为模型的正则项，由于 XGBoost 支持决策树也支持线性模型，所以这里不再展开描述。我们知道 boosting 模型是前向加法，以第 t 步的模型为例，模型对第 i 个样本的预测为：其中由第 t-1 步的模型给出的预测值，是已知常数，是我们这次需要加入的新模型的预测值，此时，目标函数就可以写成：

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第2张图片

求此时最优化目标函数，就相当于求解。泰勒公式是将一个在处具有 n 阶导数的函数 f(x) 利用关于的 n 次多项式来逼近函数的方法，若函数 f(x) 在包含的某个闭区间上具有 n 阶导数，且在开区间 (a,b) 上具有 n+1 阶导数，则对闭区间上任意一点 x 有：

其中的多项式称为函数在处的泰勒展开式，是泰勒公式的余项且是的高阶无穷小。根据泰勒公式我们把函数在点 x 处进行泰勒的二阶展开，可得到如下等式：

我们把视为，视为，故可以将目标函数写为：

其中为损失函数的一阶导，为损失函数的二阶导，注意这里的求导是对求导。我们以平方损失函数为例：

则：

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第3张图片

由于在第 t 步时其实是一个已知的值，所以是一个常数，其对函数的优化不会产生影响，因此目标函数可以写成：

所以我们只需要求出每一步损失函数的一阶导和二阶导的值(由于前一步的是已知的，所以这两个值就是常数)，然后最优化目标函数，就可以得到每一步的 f(x) ，最后根据加法模型得到一个整体模型。

1.1.2 基于决策树的目标函数

我们知道 Xgboost 的基模型不仅支持决策树，还支持线性模型，这里我们主要介绍基于决策树的目标函数。

我们可以将决策树定义为，x 为某一样本，这里的 q(x) 代表了该样本在哪个叶子结点上，而 w_q 则代表了叶子结点取值 w ，所以就代表了每个样本的取值 w (即预测值)。决策树的复杂度可由叶子数 T 组成，叶子节点越少模型越简单，此外叶子节点也不应该含有过高的权重 w (类比 LR 的每个变量的权重)，所以目标函数的正则项可以定义为：即决策树模型的复杂度由生成的所有决策树的叶子节点数量，和所有节点权重所组成的向量的范式共同决定。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第4张图片

这张图给出了基于决策树的 XGBoost 的正则项的求解方式。我们设为第 j 个叶子节点的样本集合，故我们的目标函数可以写成：

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第5张图片

第二步到第三步可能看的不是特别明白，这边做些解释：第二步是遍历所有的样本后求每个样本的损失函数，但样本最终会落在叶子节点上，所以我们也可以遍历叶子节点，然后获取叶子节点上的样本集合，最后在求损失函数。即我们之前样本的集合，现在都改写成叶子结点的集合，由于一个叶子结点有多个样本存在，因此才有了和这两项，为第 j 个叶子节点取值。为简化表达式，我们定义，则目标函数为：

这里我们要注意和是前 t-1 步得到的结果，其值已知可视为常数，只有最后一棵树的叶子节点不确定，那么将目标函数对求一阶导，并令其等于 0 ，则可以求得叶子结点 j 对应的权值：所以目标函数可以化简为：

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第6张图片

上图给出目标函数计算的例子，求每个节点每个样本的一阶导数和二阶导数，然后针对每个节点对所含样本求和得到的和，最后遍历决策树的节点即可得到目标函数。

1.1.3 最优切分点划分算法

在决策树的生长过程中，一个非常关键的问题是如何找到叶子的节点的最优切分点，Xgboost 支持两种分裂节点的方法——贪心算法和近似算法。

1)贪心算法

从深度为 0 的树开始，对每个叶节点枚举所有的可用特征；
针对每个特征，把属于该节点的训练样本根据该特征值进行升序排列，通过线性扫描的方式来决定该特征的最佳分裂点，并记录该特征的分裂收益；
选择收益最大的特征作为分裂特征，用该特征的最佳分裂点作为分裂位置，在该节点上分裂出左右两个新的叶节点，并为每个新节点关联对应的样本集
回到第 1 步，递归执行到满足特定条件为止。

那么如何计算每个特征的分裂收益呢？

假设我们在某一节点完成特征分裂，则分列前的目标函数可以写为：

分裂后的目标函数为：

则对于目标函数来说，分裂后的收益为：

注意该特征收益也可作为特征重要性输出的重要依据。对于每次分裂，我们都需要枚举所有特征可能的分割方案，如何高效地枚举所有的分割呢？我假设我们要枚举所有 x < a 这样的条件，对于某个特定的分割点 a 我们要计算 a 左边和右边的导数和。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第7张图片

我们可以发现对于所有的分裂点 a，我们只要做一遍从左到右的扫描就可以枚举出所有分割的梯度和和。然后用上面的公式计算每个分割方案的分数就可以了。 2)近似算法贪婪算法可以的到最优解，但当数据量太大时则无法读入内存进行计算，近似算法主要针对贪婪算法这一缺点给出了近似最优解。对于每个特征，只考察分位点可以减少计算复杂度。该算法会首先根据特征分布的分位数提出候选划分点，然后将连续型特征映射到由这些候选点划分的桶中，然后聚合统计信息找到所有区间的最佳分裂点。在提出候选切分点时有两种策略：

Global：学习每棵树前就提出候选切分点，并在每次分裂时都采用这种分割；
Local：每次分裂前将重新提出候选切分点。

直观上来看，Local 策略需要更多的计算步骤，而 Global 策略因为节点没有划分所以需要更多的候选点。下图给出不同种分裂策略的 AUC 变换曲线，横坐标为迭代次数，纵坐标为测试集 AUC，eps 为近似算法的精度，其倒数为桶的数量。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第8张图片

我们可以看到 Global 策略在候选点数多时(eps 小)可以和 Local 策略在候选点少时(eps 大)具有相似的精度。此外我们还发现，在 eps 取值合理的情况下，分位数策略可以获得与贪婪算法相同的精度。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第9张图片

第一个 for 循环：对特征 k 根据该特征分布的分位数找到切割点的候选集合。XGBoost 支持 Global 策略和 Local 策略。
第二个 for 循环：针对每个特征的候选集合，将样本映射到由该特征对应的候选点集构成的分桶区间中，即，对每个桶统计 G,H 值，最后在这些统计量上寻找最佳分裂点。

下图给出近似算法的具体例子，以三分位为例：

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第10张图片

根据样本特征进行排序，然后基于分位数进行划分，并统计三个桶内的 G,H 值，最终求解节点划分的增益。

1.1.4 加权分位数缩略图

事实上， XGBoost 不是简单地按照样本个数进行分位，而是以二阶导数值作为样本的权重进行划分，如下：

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第11张图片

那么问题来了：为什么要用进行样本加权？我们知道模型的目标函数为：

我们稍作整理，便可以看出有对 loss 加权的作用。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第12张图片

其中与 C 皆为常数。我们可以看到 h_i 就是平方损失函数中样本的权重。对于样本权值相同的数据集来说，找到候选分位点已经有了解决方案(GK 算法)，但是当样本权值不一样时，该如何找到候选分位点呢？ (作者给出了一个 Weighted Quantile Sketch 算法，这里将不做介绍。 )

1.1.5 稀疏感知算法

在决策树的第一篇文章中我们介绍 CART 树在应对数据缺失时的分裂策略，XGBoost 也给出了其解决方案。

XGBoost 在构建树的节点过程中只考虑非缺失值的数据遍历，而为每个节点增加了一个缺省方向，当样本相应的特征值缺失时，可以被归类到缺省方向上，最优的缺省方向可以从数据中学到。至于如何学到缺省值的分支，其实很简单，分别枚举特征缺省的样本归为左右分支后的增益，选择增益最大的枚举项即为最优缺省方向。

在构建树的过程中需要枚举特征缺失的样本，乍一看该算法的计算量增加了一倍，但其实该算法在构建树的过程中只考虑了特征未缺失的样本遍历，而特征值缺失的样本无需遍历只需直接分配到左右节点，故算法所需遍历的样本量减少，下图可以看到稀疏感知算法比 basic 算法速度块了超过 50 倍。

1.2 工程实现

1.2.1 块结构设计

我们知道，决策树的学习最耗时的一个步骤就是在每次寻找最佳分裂点是都需要对特征的值进行排序。而 XGBoost 在训练之前对根据特征对数据进行了排序，然后保存到块结构中，并在每个块结构中都采用了稀疏矩阵存储格式(Compressed Sparse Columns Format，CSC)进行存储，后面的训练过程中会重复地使用块结构，可以大大减小计算量。

每一个块结构包括一个或多个已经排序好的特征；
缺失特征值将不进行排序；
每个特征会存储指向样本梯度统计值的索引，方便计算一阶导和二阶导数值。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第14张图片

这种块结构存储的特征之间相互独立，方便计算机进行并行计算。在对节点进行分裂时需要选择增益最大的特征作为分裂，这时各个特征的增益计算可以同时进行，这也是 Xgboost 能够实现分布式或者多线程计算的原因。 1.2.2 缓存访问优化算法 块结构的设计可以减少节点分裂时的计算量，但特征值通过索引访问样本梯度统计值的设计会导致访问操作的内存空间不连续，这样会造成缓存命中率低，从而影响到算法的效率。为了解决缓存命中率低的问题，XGBoost 提出了缓存访问优化算法：为每个线程分配一个连续的缓存区，将需要的梯度信息存放在缓冲区中，这样就是实现了非连续空间到连续空间的转换，提高了算法效率。此外适当调整块大小，也可以有助于缓存优化。 1.2.3 “核外”块计算 当数据量过大时无法将数据全部加载到内存中，只能先将无法加载到内存中的数据暂存到硬盘中，直到需要时再进行加载计算，而这种操作必然涉及到因内存与硬盘速度不同而造成的资源浪费和性能瓶颈。为了解决这个问题，XGBoost 独立一个线程专门用于从硬盘读入数据，以实现处理数据和读入数据同时进行。此外，XGBoost 还用了两种方法来降低硬盘读写的开销：

块压缩：对 Block 进行按列压缩，并在读取时进行解压；
块拆分：将每个块存储到不同的磁盘中，从多个磁盘读取可以增加吞吐量。

1.3 优缺点

1.3.1 优点

精度更高：GBDT 只用到一阶泰勒展开，而 XGBoost 对损失函数进行了二阶泰勒展开。XGBoost 引入二阶导一方面是为了增加精度，另一方面也是为了能够自定义损失函数，二阶泰勒展开可以近似大量损失函数；
灵活性更强：GBDT 以 CART 作为基分类器，XGBoost 不仅支持 CART 还支持线性分类器，(使用线性分类器的 XGBoost 相当于带 L1 和 L2 正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题))。此外，XGBoost 工具支持自定义损失函数，只需函数支持一阶和二阶求导；
正则化：XGBoost 在目标函数中加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、叶子节点权重的 L2 范式。正则项降低了模型的方差，使学习出来的模型更加简单，有助于防止过拟合；
Shrinkage(缩减)：相当于学习速率。XGBoost 在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间；
列抽样：XGBoost 借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算；
缺失值处理：XGBoost 采用的稀疏感知算法极大的加快了节点分裂的速度；
可以并行化操作：块结构可以很好的支持并行计算。

1.3.2 缺点

虽然利用预排序和近似算法可以降低寻找最佳分裂点的计算量，但在节点分裂过程中仍需要遍历数据集；
预排序过程的空间复杂度过高，不仅需要存储特征值，还需要存储特征对应样本的梯度统计值的索引，相当于消耗了两倍的内存。

LightGBM

LightGBM 由微软提出，主要用于解决 GDBT 在海量数据中遇到的问题，以便其可以更好更快地用于工业实践中。

从 LightGBM 名字我们可以看出其是轻量级(Light)的梯度提升机(GBM)，其相对 XGBoost 具有训练速度快、内存占用低的特点。下图分别显示了 XGBoost、XGBoost_hist(利用梯度直方图的 XGBoost) 和 LightGBM 三者之间针对不同数据集情况下的内存和训练时间的对比：

那么 LightGBM 到底如何做到更快的训练速度和更低的内存使用的呢？我们刚刚分析了 XGBoost 的缺点，LightGBM 为了解决这些问题提出了以下几点解决方案：

单边梯度抽样算法；
直方图算法；
互斥特征捆绑算法；
基于最大深度的 Leaf-wise 的垂直生长算法；
类别特征最优分割；
特征并行和数据并行；
缓存优化。

本节将继续从数学原理和工程实现两个角度介绍 LightGBM。

2.1 数学原理

2.1.1 单边梯度抽样算法

GBDT 算法的梯度大小可以反应样本的权重，梯度越小说明模型拟合的越好，单边梯度抽样算法(Gradient-based One-Side Sampling, GOSS)利用这一信息对样本进行抽样，减少了大量梯度小的样本，在接下来的计算锅中只需关注梯度高的样本，极大的减少了计算量。

GOSS 算法保留了梯度大的样本，并对梯度小的样本进行随机抽样，为了不改变样本的数据分布，在计算增益时为梯度小的样本引入一个常数进行平衡。具体算法如下所示：

我们可以看到 GOSS 事先基于梯度的绝对值对样本进行排序(无需保存排序后结果)，然后拿到前 a% 的梯度大的样本，和剩下样本的 b%，在计算增益时，通过乘上 \frac{1-a}{b} 来放大梯度小的样本的权重。一方面算法将更多的注意力放在训练不足的样本上，另一方面通过乘上权重来防止采样对原始数据分布造成太大的影响。

2.1.2 直方图算法

直方图算法

直方图算法的基本思想是将连续的特征离散化为 k 个离散特征，同时构造一个宽度为 k 的直方图用于统计信息(含有 k 个 bin)。利用直方图算法我们无需遍历数据，只需要遍历 k 个 bin 即可找到最佳分裂点。

我们知道特征离散化的具有很多优点，如存储方便、运算更快、鲁棒性强、模型更加稳定等等。对于直方图算法来说最直接的有以下两个优点(以 k=256 为例)：

内存占用更小：XGBoost 需要用 32 位的浮点数去存储特征值，并用 32 位的整形去存储索引，而 LightGBM 只需要用 8 位去存储直方图，相当于减少了 1/8；
计算代价更小：计算特征分裂增益时，XGBoost 需要遍历一次数据找到最佳分裂点，而 LightGBM 只需要遍历一次 k 次，直接将时间复杂度从 O(#data * #feature) 降低到 O(k * #feature) ，而我们知道 #data >> k 。

虽然将特征离散化后无法找到精确的分割点，可能会对模型的精度产生一定的影响，但较粗的分割也起到了正则化的效果，一定程度上降低了模型的方差。

直方图加速

在构建叶节点的直方图时，我们还可以通过父节点的直方图与相邻叶节点的直方图相减的方式构建，从而减少了一半的计算量。在实际操作过程中，我们还可以先计算直方图小的叶子节点，然后利用直方图作差来获得直方图大的叶子节点。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第17张图片

稀疏特征优化

XGBoost 在进行预排序时只考虑非零值进行加速，而 LightGBM 也采用类似策略：只用非零特征构建直方图。

2.1.3 互斥特征捆绑算法

高维特征往往是稀疏的，而且特征间可能是相互排斥的(如两个特征不同时取非零值)，如果两个特征并不完全互斥(如只有一部分情况下是不同时取非零值)，可以用互斥率表示互斥程度。互斥特征捆绑算法(Exclusive Feature Bundling, EFB)指出如果将一些特征进行融合绑定，则可以降低特征数量。

针对这种想法，我们会遇到两个问题：

哪些特征可以一起绑定？
特征绑定后，特征值如何确定？

对于问题一：EFB 算法利用特征和特征间的关系构造一个加权无向图，并将其转换为图着色算法。我们知道图着色是个 NP-Hard 问题，故采用贪婪算法得到近似解，具体步骤如下：

构造一个加权无向图，顶点是特征，边是两个特征间互斥程度；
根据节点的度进行降序排序，度越大，与其他特征的冲突越大；
遍历每个特征，将它分配给现有特征包，或者新建一个特征包，是的总体冲突最小。

算法允许两两特征并不完全互斥来增加特征捆绑的数量，通过设置最大互斥率来平衡算法的精度和效率。 EFB 算法的伪代码如下所示：

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第18张图片

我们看到时间复杂度为 O(#feature^2) ，在特征不多的情况下可以应付，但如果特征维度达到百万级别，计算量则会非常大，为了改善效率，我们提出了一个更快的解决方案：将 EFB 算法中通过构建图，根据节点度来排序的策略改成了根据非零值的技术排序，因为非零值越多，互斥的概率会越大。对于问题二：论文给出特征合并算法，其关键在于原始特征能从合并的特征中分离出来。假设 Bundle 中有两个特征值，A 取值为 [0, 10]、B 取值为 [0, 20]，为了保证特征 A、B 的互斥性，我们可以给特征 B 添加一个偏移量转换为 [10, 30]，Bundle 后的特征其取值为 [0, 30]，这样便实现了特征合并。具体算法如下所示：

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第19张图片

2.1.4 带深度限制的 Leaf-wise 算法 在建树的过程中有两种策略：

Level-wise：基于层进行生长，直到达到停止条件；
Leaf-wise：每次分裂增益最大的叶子节点，直到达到停止条件。

XGBoost 采用 Level-wise 的增长策略，方便并行计算每一层的分裂节点，提高了训练速度，但同时也因为节点增益过小增加了很多不必要的分裂，降低了计算量； LightGBM 采用 Leaf-wise 的增长策略减少了计算量，配合最大深度的限制防止过拟合，由于每次都需要计算增益最大的节点，所以无法并行分裂。

2.1.5 类别特征最优分割

大部分的机器学习算法都不能直接支持类别特征，一般都会对类别特征进行编码，然后再输入到模型中。常见的处理类别特征的方法为 one-hot 编码，但我们知道对于决策树来说并不推荐使用 one-hot 编码：

会产生样本切分不平衡问题，切分增益会非常小。如，国籍切分后，会产生是否中国，是否美国等一系列特征，这一系列特征上只有少量样本为 1，大量样本为 0。这种划分的增益非常小：较小的那个拆分样本集，它占总样本的比例太小。无论增益多大，乘以该比例之后几乎可以忽略；较大的那个拆分样本集，它几乎就是原始的样本集，增益几乎为零；
影响决策树学习：决策树依赖的是数据的统计信息，而独热码编码会把数据切分到零散的小空间上。在这些零散的小空间上统计信息不准确的，学习效果变差。本质是因为独热码编码之后的特征的表达能力较差的，特征的预测能力被人为的拆分成多份，每一份与其他特征竞争最优划分点都失败，最终该特征得到的重要性会比实际值低。

LightGBM 原生支持类别特征，采用 many-vs-many 的切分方式将类别特征分为两个子集，实现类别特征的最优切分。假设有某维特征有 k 个类别，则有 2^{(k-1)} - 1 中可能，时间复杂度为 O(2^k) ，LightGBM 基于 Fisher 大佬的《On Grouping For Maximum Homogeneity》实现了 O(klog_2k) 的时间复杂度。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第21张图片

上图为左边为基于 one-hot 编码进行分裂，后图为 LightGBM 基于 many-vs-many 进行分裂，在给定深度情况下，后者能学出更好的模型。其基本思想在于每次分组时都会根据训练目标对类别特征进行分类，根据其累积值 \frac{\sum gradient }{\sum hessian} 对直方图进行排序，然后在排序的直方图上找到最佳分割。此外，LightGBM 还加了约束条件正则化，防止过拟合。

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！..._第22张图片

我们可以看到这种处理类别特征的方式使得 AUC 提高了 1.5 个点，且时间仅仅多了 20%。

2.2 工程实现

2.2.1 特征并行

传统的特征并行算法在于对数据进行垂直划分，然后使用不同机器找到不同特征的最优分裂点，基于通信整合得到最佳划分点，然后基于通信告知其他机器划分结果。

传统的特征并行方法有个很大的缺点：需要告知每台机器最终划分结果，增加了额外的复杂度(因为对数据进行垂直划分，每台机器所含数据不同，划分结果需要通过通信告知)。

LightGBM 则不进行数据垂直划分，每台机器都有训练集完整数据，在得到最佳划分方案后可在本地执行划分而减少了不必要的通信。

2.2.2 数据并行

传统的数据并行策略主要为水平划分数据，然后本地构建直方图并整合成全局直方图，最后在全局直方图中找出最佳划分点。

这种数据划分有一个很大的缺点：通讯开销过大。如果使用点对点通信，一台机器的通讯开销大约为 O(#machine * #feature *#bin ) ；如果使用集成的通信，则通讯开销为 O(2 * #feature *#bin ) ，

LightGBM 采用分散规约(Reduce scatter)的方式将直方图整合的任务分摊到不同机器上，从而降低通信代价，并通过直方图做差进一步降低不同机器间的通信。

2.2.3 投票并行

针对数据量特别大特征也特别多的情况下，可以采用投票并行。投票并行主要针对数据并行时数据合并的通信代价比较大的瓶颈进行优化，其通过投票的方式只合并部分特征的直方图从而达到降低通信量的目的。

大致步骤为两步：

本地找出 Top K 特征，并基于投票筛选出可能是最优分割点的特征；
合并时只合并每个机器选出来的特征。

2.2.4 缓存优化

上边说到 XGBoost 的预排序后的特征是通过索引给出的样本梯度的统计值，因其索引访问的结果并不连续，XGBoost 提出缓存访问优化算法进行改进。

而 LightGBM 所使用直方图算法对 Cache 天生友好：

首先，所有的特征都采用相同的方法获得梯度(区别于不同特征通过不同的索引获得梯度)，只需要对梯度进行排序并可实现连续访问，大大提高了缓存命中；
其次，因为不需要存储特征到样本的索引，降低了存储消耗，而且也不存在 Cache Miss的问题。

2.3 与 XGBoost 的对比 本节主要总结下 LightGBM 相对于 XGBoost 的优点，从内存和速度两方面进行介绍。 2.3.1 内存更小

XGBoost 使用预排序后需要记录特征值及其对应样本的统计值的索引，而 LightGBM 使用了直方图算法将特征值转变为 bin 值，且不需要记录特征到样本的索引，将空间复杂度从 O(2*#data) 降低为 O(#bin) ，极大的减少了内存消耗；
LightGBM 采用了直方图算法将存储特征值转变为存储 bin 值，降低了内存消耗；
LightGBM 在训练过程中采用互斥特征捆绑算法减少了特征数量，降低了内存消耗。

2.3.2 速度更快

LightGBM 采用了直方图算法将遍历样本转变为遍历直方图，极大的降低了时间复杂度；
LightGBM 在训练过程中采用单边梯度算法过滤掉梯度小的样本，减少了大量的计算；
LightGBM 采用了基于 Leaf-wise 算法的增长策略构建树，减少了很多不必要的计算量；
LightGBM 采用优化后的特征并行、数据并行方法加速计算，当数据量非常大的时候还可以采用投票并行的策略；
LightGBM 对缓存也进行了优化，增加了 Cache hit 的命中率。

参考文献

XGBoost: A Scalable Tree Boosting System
陈天奇论文演讲 PPT
机器学习算法中 GBDT 和 XGBOOST 的区别有哪些？- wepon的回答 - 知乎
LightGBM: A Highly Efficient Gradient Boosting Decision Tree
LightGBM 文档
论文阅读——LightGBM 原理
机器学习算法之 LightGBM
关于sklearn中的决策树是否应该用one-hot编码？- 柯国霖的回答 - 知乎
如何玩转LightGBM
A Communication-Efficient Parallel Algorithm for Decision Tree.

——END——

你可能感兴趣的:(react,递归遍历四层树结构,遍历分支中的最后一个节点,xgboost算法)

MDC-Mapped Diagnostic Context（映射诊断上下文） NEUMaple 微服务 spring boot java MDC
MDC，全称为MappedDiagnosticContext（映射诊断上下文），是SLF4J（SimpleLoggingFacadeforJava）提供的一种机制，用于在多线程应用中存储和管理与特定线程相关的上下文信息。这种机制特别适用于需要跨多个方法调用或服务边界传递诊断信息的场景，例如跟踪分布式系统中的请求流。MDC的主要用途日志关联：在分布式系统或多线程应用中，MDC可以用来携带一些上下文信
新建react native项目都失败，创建出来的都是.xcodeproj，而不是.xcworkspace，如何解决？？ bug菌¹ 全栈Bug调优(实战版)react native react.js javascript
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案1.确保正确设置代理源（如果你在国内）2.手动安装CocoaPods依赖3.检查你的Ruby和CocoaPods环境4.尝试清理并重建项目5.查
Android com.facebook.react:react-native:+ 版本问题小铁-Android react native android
Executionfailedfortask':app:desugarBetaDebugAndroidTestFileDependencies'.>Couldnotresolveallfilesforconfiguration':app:betaDebugRuntimeClasspath'.>Failedtotransformreact-native-0.71.0-rc.0-debug.aar(c
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
flutter-制作可缩放底部弹出抽屉评论区效果冲浪的鹏多多 Flutter flutter
文章目录1.介绍2.效果展示3.结构分析4.完整代码5.总结1.介绍在Flutter开发中，底部弹出抽屉是一种常见的交互方式，它可以为用户提供额外的操作选项或展示更多的内容。本文将详细介绍如何使用Flutter实现一个可缩放的底部弹出抽屉效果，用户点击特定区域后会弹出底部抽屉，抽屉的高度可以通过手指滑动进行调整。当手指滑动距离超过一定阈值时，抽屉会关闭；否则，抽屉会恢复到初始高度。2.效果展示3.
B端安全网关的简单实现 #六脉神剑 java java 网络安全 spring boot
安全网关中的DMZ内网穿透是一种结合网络安全隔离与穿透技术的解决方案，主要用于实现外部网络对内网资源的安全访问。其核心逻辑如下：一、DMZ区的安全隔离作用网络分区机制‌：DMZ（非军事区）是安全网关设置的中间隔离区域，用于部署对外提供服务的设备（如Web服务器、邮件服务器），与内网核心数据区域物理隔离‌。访问控制‌：外网用户仅能访问DMZ区资源，无法直接触及内网敏感数据，即使DMZ区设备被攻破，内
虚幻网络同步机制中的两个核心类污领巾虚幻网络游戏引擎
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、将数据从GameMode迁移到GameState1.1在GameState中定义同步变量1.2在GameMode中操作GameState变量二、在客户端访问GameState数据2.1在客户端读取同步变量2.2使用RepNotify实现客户端回调三、通过RPC同步数据（补充方案）3.1服务器通过多播RPC通知客户端四、
1，Kotlin代码案例：决属性与方法冲突的类和对象操作演示淮山2 kotlin
//使用Kotlin1.3.11编译器//不需要包声明（package语句）//定义类A1classA1{//定义静态变量BBB，类似C语言中的全局静态变量companionobject{varBBB:Int=0//初始化静态变量BBB为0}//定义实例变量AAA，包含整数和字符串类型，类似C语言中的结构体成员变量varAAA_int:Int=0//整数类型的实例变量，初始化值为0varAAA_s
6，Kotlin代码案例，并按照要求对变量、类、方法等进行了改写淮山2 kotlin
//使用Kotlin1.3.11编译器//不需要包声明（package语句）//定义类A1，类似一个简单的控制器类，用于处理Web请求相关操作classA1{//定义静态变量BBB，这里模拟一个可能的全局配置相关的静态变量companionobject{varBBB:Int=0}//实例方法CCC，模拟处理"/helloworld"和"/"路径的请求funCCC():Any{//返回一个字符串，模
Angular 单元测试中的 Mock 技巧 t0_54program 编程问题解决手册 angular.js 单元测试 log4j 个人开发
在Angular应用开发中，单元测试是确保代码质量的重要环节。特别是当我们使用依赖注入时，测试变得更加复杂。最近，我在处理一个Angular项目时，遇到了一些问题：如何正确地在单元测试中Mock一个服务类，尤其是在使用了Standalone组件的情况下。下面我将详细介绍如何解决这个问题。背景介绍假设我们有一个名为TestDialogComponent的组件，它使用了Ionic的ModalContr
Kotlin v2.1.20 发布，标准库又有哪些变化？ ForteScarlet 水文罢了 kotlin 开发语言 android
大家吼哇！就在三小时前，Kotlinv2.1.20发布了，更新的内容也已经在官网上更新：What’snewinKotlin2.1.20。我粗略地看了一下，下面为大家选出一些我比较感兴趣、且你可能也会感兴趣的内容。注意！这里只选了一些标准库中的一些API之类的变化，不会包括诸如编译器变动、工具（例如Gradle）变化等。AtomicAPI现在，在Kotlin的标准库中可以使用原子类啦！在之前，想要使
flutter-实现Tabs吸顶的PageView效果冲浪的鹏多多 Flutter flutter javascript 前端
文章目录1.效果预览2.结构分析3.完整代码4.总结1.效果预览在Flutter开发中，创建具有吸顶Tabs的PageView效果可以极大地提升用户界面的交互性和用户体验。今天，我们就通过一段具体的代码来深入了解如何实现这一功能。效果预览如下：2.结构分析我们从整体上看这段代码，它定义了一个名为CeilingTabsPageView的有状态组件。这个组件的作用就是构建出一个带有吸顶Tabs的页面，
JDBC:Apache DBUtils的使用恒奇恒毅 JavaSE
•commons-dbutils是Apache组织提供的一个开源JDBC工具类库，它是对JDBC的简单封装，学习成本极低，并且使用dbutils能极大简化jdbc编码的工作量，同时也不会影响程序的性能。•API介绍：–org.apache.commons.dbutils.QueryRunner–org.apache.commons.dbutils.ResultSetHandler以及一些实现类–工
SpringBoot集成Pulsar 生产者与消费者示例代码七维大脑技术&解决方案分享 java 中间件
目录介绍功能特点一、导入pulsar依赖二、pulsar配置（示例为yml文件）三、生产者示例代码四、消费者代码介绍Pulsar是一个多租户、高性能的服务器到服务器消息传递解决方案。Pulsar最初由Yahoo开发，由Apache软件基金会管理。功能特点Pulsar的主要功能如下：原生支持Pulsar实例中的多个集群，并可跨集群无缝地复制消息。非常低的发布和端到端延迟。无缝扩展到超过一百万个主题。
vue中根据html动态渲染内容今天吃了嘛o vue.js html javascript
需求：根据数据中的html，因为我是在做填空，所以是需要将html中的_____替换成input，由于具体需求我使用的是元素contenteditable代替的可编辑的inputhtml部分js部分//这个是为了保证输入的时候光标保持在最后constmoveCursorToEnd=(element:HTMLElement)=>{constrange=document.createRange();c
Spring Boot与Hazelcast整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Hazelcast整合教程简介Hazelcast是一个开源的内存数据网格（IMDG），提供分布式缓存、计算和数据结构功能。与SpringBoot整合后，可以快速实现分布式缓存、会话共享等功能。本教程将演示如何将Hazelcast嵌入SpringBoot应用。环境准备JDK17+Sp
使用E2B数据分析沙盒进行文件分析 qahaj 数据分析数据挖掘 python
使用E2B数据分析沙盒进行文件分析在现代数据分析中，运行环境的安全性与灵活性是确保数据处理高效可靠的关键因素。E2B提供了一个数据分析沙盒，能够在隔离的环境中安全地执行代码，非常适合构建诸如代码解释器或类似于ChatGPT的高级数据分析工具。在这篇文章中，我将演示如何使用E2B的数据分析沙盒来对上传的文件进行分析，为您提供一个强大的Python代码示例。核心原理解析E2B的数据分析沙盒为开发者提供
代码随想录算法训练营第八天| 344 反转字符串、541 反转字符串II Anjoubecoding 算法数据结构 c++c语言 leetcode
这两天开的是字符串专题，我准备在做题的时候用C++做一遍，再用C做一遍，因为一直刷leetcode用的都是C++，导致C的基础太薄弱了，之后工作中有可能用到C，相当于再复习复习一、Leetcode344反转字符串题目链接：Leetcode344反转字符串这道题很简单，这才是真正的简单题voidreverseString(char*s,intsSize){intleft=0,right=sSize-
大神之路安卓工匠程序员的自我修养
首先申明，文章是我在码农网摘过来的，那里没有分享，我感觉程序员也需要鸡汤，或者说这篇文章更应该是一篇一个过来人的经验，以及对我们这些想学计算机或者其他各行各业的人的一个简单的阐述。读完文章后，感觉收获很多，作者说的对，坚持，一鸣惊人需要坚持不断地做一件事。我是前端小学生，每天晚上都会练习代码，并浏览微博，前端路上，有你有我。有的人想成为大牛，却不曾为此努力。有的人辛苦耕耘，却收获寥寥。很多时候，你
挑战20天学完JavaSE第四天——方法的定义、调用和方法重载呆呆why care 挑战20天学完javaSE java 笔记改行学it 程序人生
Java方法是语句的集合，它们在一起执行一个功能。方法是解决一类问题的步骤的有序组合。方法包含于类或对象中。方法在程序中被创建，在其他地方被引用。设计方法的原则:方法的本意是功能块，就是实现某个功能的语句块的集合。我们设计方法的时候，最好保持方法的原子性，就是一个方法只完成1个功能，这样利于我们后期的扩展。方法的命名规则：首字母小写驼峰命名方法的定义Java的方法类似于其它语言的函数，是一段用来完
HTML 写一个计算器瑞晟技术服务中心-耿瑞 html css css3
Calculatordiv,span{margin:0;padding:0;font-weight:bold;font:bold16pxArial,sans-serif;/*禁止选中文本*/-moz-user-select:none;-webkit-user-select:none;-o-user-select:none;user-select:none;}body{background:radi
cesium 文字避让花归去 cesium javascript 前端 vue.js
token记得换成您自己的！！！申请cesium的token官网【Cesium:ThePlatformfor3DGeospatial】>import*asCesiumfrom'cesium';import{onMounted,reactive,ref,computed,nextTick}from'vue';//地图实例letviewer:any;constshowText=()=>{viewer.
从MVC实战学习网站编写（一）初识MVC 璞瑜无文 MVC 架构 mvc 设计结构
前情概要：曾是学生时代的我，初识架构是一个传说中的三层架构。这可是鼻祖啊！因为我个人认为这是第一个让我明白高内聚低耦合的一种写代码的方式。刚接触写程序统统都是把所有的东西放一起，自己找一段代码得花很长时间（哪个时候还不知道VS有F12的存在）。简单的说就是UI层（界面），BLL层（业务处理），DAL层（数据处理）。就是分工明确在不同的包里分别编译，便于管理。今天我们从MVC基础开始穿插Knocko
ZooKeeper集群高可用性测试与实践：从规划到故障模拟磐基Stack专业服务团队 Zookeeper zookeeper 可用性测试
#作者：任少近文章目录ZooKeeper集群环境规划1.集群数据一致性测试2.集群节点故障测试ZooKeeper集群高可用性测试的主要目的是确保在分布式环境中，ZooKeeper服务能够持续提供一致性和高可用性的协调服务。ZooKeeper集群环境规划节点ipZooKeeper版本java版本对外端口集群通信端口集群选举端口192.168.x.xZooKeeper-3.6.11.8.0_33221
使用原生table合并单元格会说法语的猪前端 vue vue.js javascript 表格
先上个我要实现的页面例子1：就是最近要开发这么一个页面（这是个原型图，没有美化，大概是这个样子也都懂），刚看到的时候说实话有点儿懵的，第一次见到这样的表格，可以看到里面有很多字段，将来后台会一个个的返回给我们，其中右侧的原因是可编辑的！下面的调度主任和填写人也都是可编辑的，其他的都是后台会返回给我们的字段了，并且可以导出这咋整呢，看着就烦，里面乱糟糟的，闹心。然后开始的时候我是用element-u
VS Code 在Linux下IDE开发C++的HelloWorld leon_zeng0 c++VScode linux ide c/c++helloworld
用VisualStudioCode在Linux(Ubuntu)下构造c++的集成开发环境，编辑，编译和调试运行一个简单程序HelloWorld。想达到上面目标，搜索到以下文章，学习验证而成本文日记。链接是：https://code.visualstudio.com/docs/cpp/config-linux前期准备运行环境是ubuntu16.0，先安装好VisualStudioCode(VSCod
从MapRerankDocumentsChain迁移到LangGraph实现文档分析 bBADAS 服务器运维 python
在分析长文本的场景中，MapRerankDocumentsChain提供了一种有效的策略。这种策略涉及以下步骤：将文本拆分为较小的文档。为文档集映射一个处理过程，该过程包括生成评分。根据评分对结果进行排名，并返回得分最高的结果。这种情况下的常见过程是使用文档中的上下文进行问答，强制模型生成评分以帮助选择只由相关上下文生成的答案。LangGraph的实现允许在此问题中集成工具调用和其他功能。下面我们
MySQL 内置函数码农吃枇杷 MySQL mysql 数据库
1.日期函数1.1部分介绍函数名描述CURRENT_DATE()返回当前日期CURRENT_TIME返回当前时间CURRENT_TIMESTAMP()返回当前日期和时间DATEDIFF(d1,d2)计算日期d1->d2之间相隔的天数DATE_ADD(d，INTERVALexprtype)计算起始日期d加上一个时间段后的日期，type值可以是：year,minute,second,hour,day,
emit作用肉肉不吃肉 vue.js javascript 前端
emit是Vue3中用于子组件向父组件传递事件和数据的机制。它允许子组件触发一个自定义事件，父组件可以监听这个事件并执行相应的逻辑。emit的作用子组件向父组件通信：子组件通过emit触发一个自定义事件，父组件监听这个事件并执行相应的逻辑。传递数据：子组件可以通过emit向父组件传递数据，父组件可以在事件处理函数中接收这些数据。解耦组件逻辑：子组件不需要知道父组件的具体实现，只需要触发事件，父组件
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

react 递归遍历四层树结构 遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！...

你可能感兴趣的:(react,递归遍历四层树结构,遍历分支中的最后一个节点,xgboost算法)

react 递归遍历四层树结构遍历分支中的最后一个节点_终于有人把XGBoost 和 LightGBM 讲明白了，项目中最主流的集成算法！...