Rome Cao

lightgb原理_深入理解LightGBM

我的个人微信公众号：Microstrong

微信公众号ID：MicrostrongAI

微信公众号介绍：Microstrong(小强)同学主要研究机器学习、深度学习、计算机视觉、智能对话系统相关内容，分享在学习过程中的读书笔记！期待您的关注，欢迎一起学习交流进步！

本文主要内容概览：

1. LightGBM简介

GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。

1.1 LightGBM提出的动机

常用的机器学习算法，例如神经网络等算法，都可以以mini-batch的方式训练，训练数据的大小不会受到内存限制。而GBDT在每一次迭代的时候，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常大的时间。尤其面对工业级海量的数据，普通的GBDT算法是不能满足其需求的。

LightGBM提出的主要原因就是为了解决GBDT在海量数据遇到的问题，让GBDT可以更好更快地用于工业实践。

1.2 XGBoost的缺点及LightGBM的优化

(1)XGBoost的缺点

在LightGBM提出之前，最有名的GBDT工具就是XGBoost了，它是基于预排序方法的决策树算法。这种构建决策树的算法基本思想是：首先，对所有特征都按照特征的数值进行预排序。其次，在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。最后，在找到一个特征的最好分割点后，将数据分裂成左右子节点。

这样的预排序算法的优点是能精确地找到分割点。但是缺点也很明显：首先，空间消耗大。这样的算法需要保存数据的特征值，还保存了特征排序的结果(例如，为了后续快速的计算分割点，保存了排序后的索引)，这就需要消耗训练数据两倍的内存。其次，时间上也有较大的开销，在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大。最后，对cache优化不友好。在预排序后，特征对梯度的访问是一种随机访问，并且不同的特征访问的顺序不一样，无法对cache进行优化。同时，在每一层长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，也会造成较大的cache miss。

(2)LightGBM的优化

为了避免上述XGBoost的缺陷，并且能够在不损害准确率的条件下加快GBDT模型的训练速度，lightGBM在传统的GBDT算法上进行了如下优化：基于Histogram的决策树算法。

单边梯度采样 Gradient-based One-Side Sampling(GOSS)：使用GOSS可以减少大量只具有小梯度的数据实例，这样在计算信息增益的时候只利用剩下的具有高梯度的数据就可以了，相比XGBoost遍历所有特征值节省了不少时间和空间上的开销。

互斥特征捆绑 Exclusive Feature Bundling(EFB)：使用EFB可以将许多互斥的特征绑定为一个特征，这样达到了降维的目的。

带深度限制的Leaf-wise的叶子生长策略：大多数GBDT工具使用低效的按层生长 (level-wise) 的决策树生长策略，因为它不加区分的对待同一层的叶子，带来了很多没必要的开销。实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长 (leaf-wise) 算法。

直接支持类别特征(Categorical Feature)

支持高效并行

Cache命中率优化

下面我们就详细介绍以上提到的lightGBM优化算法。

2. LightGBM的基本原理

2.1 基于Histogram的决策树算法

(1)直方图算法

Histogram algorithm应该翻译为直方图算法，直方图算法的基本思想是：先把连续的浮点特征值离散化成

个整数，同时构造一个宽度为

的直方图。在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。图：直方图算法

直方图算法简单理解为：首先确定对于每一个特征需要多少个箱子(bin)并为每一个箱子分配一个整数；然后将浮点数的范围均分成若干区间，区间个数与箱子个数相等，将属于该箱子的样本数据更新为箱子的值；最后用直方图(#bins)表示。看起来很高大上，其实就是直方图统计，将大规模的数据放在了直方图中。

我们知道特征离散化具有很多优点，如存储方便、运算更快、鲁棒性强、模型更加稳定等。对于直方图算法来说最直接的有以下两个优点：内存占用更小：直方图算法不仅不需要额外存储预排序的结果，而且可以只保存特征离散化后的值，而这个值一般用

位整型存储就足够了，内存消耗可以降低为原来的

。也就是说XGBoost需要用

位的浮点数去存储特征值，并用

位的整形去存储索引，而 LightGBM只需要用

位去存储直方图，内存相当于减少为

；图：内存占用优化为预排序算法的1/8计算代价更小：预排序算法XGBoost每遍历一个特征值就需要计算一次分裂的增益，而直方图算法LightGBM只需要计算

次(

可以认为是常数)，直接将时间复杂度从

降低到

，而我们知道

。

当然，Histogram算法并不是完美的。由于特征被离散化后，找到的并不是很精确的分割点，所以会对结果产生影响。但在不同的数据集上的结果表明，离散化的分割点对最终的精度影响并不是很大，甚至有时候会更好一点。原因是决策树本来就是弱模型，分割点是不是精确并不是太重要；较粗的分割点也有正则化的效果，可以有效地防止过拟合；即使单棵树的训练误差比精确分割的算法稍大，但在梯度提升(Gradient Boosting)的框架下没有太大的影响。

(2)直方图做差加速

LightGBM另一个优化是Histogram(直方图)做差加速。一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到，在速度上可以提升一倍。通常构造直方图时，需要遍历该叶子上的所有数据，但直方图做差仅需遍历直方图的k个桶。在实际构建树的过程中，LightGBM还可以先计算直方图小的叶子节点，然后利用直方图做差来获得直方图大的叶子节点，这样就可以用非常微小的代价得到它兄弟叶子的直方图。图：直方图做差

注意：XGBoost 在进行预排序时只考虑非零值进行加速，而 LightGBM 也采用类似策略：只用非零特征构建直方图。

2.2 带深度限制的 Leaf-wise 算法

在Histogram算法之上，LightGBM进行进一步的优化。首先它抛弃了大多数GBDT工具使用的按层生长 (level-wise) 的决策树生长策略，而使用了带有深度限制的按叶子生长 (leaf-wise) 算法。

XGBoost 采用 Level-wise 的增长策略，该策略遍历一次数据可以同时分裂同一层的叶子，容易进行多线程优化，也好控制模型复杂度，不容易过拟合。但实际上Level-wise是一种低效的算法，因为它不加区分的对待同一层的叶子，实际上很多叶子的分裂增益较低，没必要进行搜索和分裂，因此带来了很多没必要的计算开销。图：按层生长的决策树

LightGBM采用Leaf-wise的增长策略，该策略每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同Level-wise相比，Leaf-wise的优点是：在分裂次数相同的情况下，Leaf-wise可以降低更多的误差，得到更好的精度；Leaf-wise的缺点是：可能会长出比较深的决策树，产生过拟合。因此LightGBM会在Leaf-wise之上增加了一个最大深度的限制，在保证高效率的同时防止过拟合。图：按叶子生长的决策树

2.3 单边梯度采样算法

Gradient-based One-Side Sampling 应该被翻译为单边梯度采样(GOSS)。GOSS算法从减少样本的角度出发，排除大部分小梯度的样本，仅用剩下的样本计算信息增益，它是一种在减少数据量和保证精度上平衡的算法。

AdaBoost中，样本权重是数据重要性的指标。然而在GBDT中没有原始样本权重，不能应用权重采样。幸运的是，我们观察到GBDT中每个数据都有不同的梯度值，对采样十分有用。即梯度小的样本，训练误差也比较小，说明数据已经被模型学习得很好了，直接想法就是丢掉这部分梯度小的数据。然而这样做会改变数据的分布，将会影响训练模型的精确度，为了避免此问题，提出了GOSS算法。

GOSS是一个样本的采样算法，目的是丢弃一些对计算信息增益没有帮助的样本留下有帮助的。根据计算信息增益的定义，梯度大的样本对信息增益有更大的影响。因此，GOSS在进行数据采样的时候只保留了梯度较大的数据，但是如果直接将所有梯度较小的数据都丢弃掉势必会影响数据的总体分布。所以，GOSS首先将要进行分裂的特征的所有取值按照绝对值大小降序排序(XGBoost一样也进行了排序，但是LightGBM不用保存排序后的结果)，选取绝对值最大的

个数据。然后在剩下的较小梯度数据中随机选择

个数据。接着将这

个数据乘以一个常数

，这样算法就会更关注训练不足的样本，而不会过多改变原数据集的分布。最后使用这

个数据来计算信息增益。下图是GOSS的具体算法。图：单边梯度采样算法

2.4 互斥特征捆绑算法

高维度的数据往往是稀疏的，这种稀疏性启发我们设计一种无损的方法来减少特征的维度。通常被捆绑的特征都是互斥的(即特征不会同时为非零值，像one-hot)，这样两个特征捆绑起来才不会丢失信息。如果两个特征并不是完全互斥(部分情况下两个特征都是非零值)，可以用一个指标对特征不互斥程度进行衡量，称之为冲突比率，当这个值较小时，我们可以选择把不完全互斥的两个特征捆绑，而不影响最后的精度。互斥特征捆绑算法(Exclusive Feature Bundling, EFB)指出如果将一些特征进行融合绑定，则可以降低特征数量。这样在构建直方图时的时间复杂度从

变为

，这里

指特征融合绑定后特征包的个数，且

远小于

。

针对这种想法，我们会遇到两个问题：怎么判定哪些特征应该绑在一起(build bundled)？

怎么把特征绑为一个(merge feature)？

(1)解决哪些特征应该绑在一起

将相互独立的特征进行绑定是一个 NP-Hard 问题，LightGBM的EFB算法将这个问题转化为图着色的问题来求解，将所有的特征视为图的各个顶点，将不是相互独立的特征用一条边连接起来，边的权重就是两个相连接的特征的总冲突值，这样需要绑定的特征就是在图着色问题中要涂上同一种颜色的那些点(特征)。此外，我们注意到通常有很多特征，尽管不是100％相互排斥，但也很少同时取非零值。如果我们的算法可以允许一小部分的冲突，我们可以得到更少的特征包，进一步提高计算效率。经过简单的计算，随机污染小部分特征值将影响精度最多

，

是每个绑定中的最大冲突比率，当其相对较小时，能够完成精度和效率之间的平衡。具体步骤可以总结如下：构造一个加权无向图，顶点是特征，边有权重，其权重与两个特征间冲突相关；

根据节点的度进行降序排序，度越大，与其它特征的冲突越大；

遍历每个特征，将它分配给现有特征包，或者新建一个特征包，使得总体冲突最小。

算法允许两两特征并不完全互斥来增加特征捆绑的数量，通过设置最大冲突比率

来平衡算法的精度和效率。EFB 算法的伪代码如下所示：图：贪心绑定算法

算法3的时间复杂度是

，训练之前只处理一次，其时间复杂度在特征不是特别多的情况下是可以接受的，但难以应对百万维度的特征。为了继续提高效率，LightGBM提出了一种更加高效的无图的排序策略：将特征按照非零值个数排序，这和使用图节点的度排序相似，因为更多的非零值通常会导致冲突，新算法在算法3基础上改变了排序策略。

(2)解决怎么把特征绑为一捆

特征合并算法，其关键在于原始特征能从合并的特征中分离出来。绑定几个特征在同一个bundle里需要保证绑定前的原始特征的值可以在bundle中识别，考虑到histogram-based算法将连续的值保存为离散的bins，我们可以使得不同特征的值分到bundle中的不同bin(箱子)中，这可以通过在特征值中加一个偏置常量来解决。比如，我们在bundle中绑定了两个特征A和B，A特征的原始取值为区间[0,10)，B特征的原始取值为区间[0,20)，我们可以在B特征的取值上加一个偏置常量10，将其取值范围变为[10,30)，绑定后的特征取值范围为 [0, 30)，这样就可以放心的融合特征A和B了。具体的特征合并算法如下所示：图：特征合并算法

3. LightGBM的工程优化

我们将论文《Lightgbm: A highly efficient gradient boosting decision tree》中没有提到的优化方案，而在其相关论文《A communication-efficient parallel algorithm for decision tree》中提到的优化方案，放到本节作为LightGBM的工程优化来向大家介绍。

3.1 直接支持类别特征

实际上大多数机器学习工具都无法直接支持类别特征，一般需要把类别特征，通过 one-hot 编码，转化到多维的0/1特征，降低了空间和时间的效率。但我们知道对于决策树来说并不推荐使用 one-hot 编码，尤其当类别特征中类别个数很多的情况下，会存在以下问题：会产生样本切分不平衡问题，导致切分增益非常小(即浪费了这个特征)。使用 one-hot编码，意味着在每一个决策节点上只能使用one vs rest(例如是不是狗，是不是猫等)的切分方式。例如，动物类别切分后，会产生是否狗，是否猫等一系列特征，这一系列特征上只有少量样本为 1，大量样本为 0，这时候切分样本会产生不平衡，这意味着切分增益也会很小。较小的那个切分样本集，它占总样本的比例太小，无论增益多大，乘以该比例之后几乎可以忽略；较大的那个拆分样本集，它几乎就是原始的样本集，增益几乎为零。比较直观的理解就是不平衡的切分和不切分没有区别。

会影响决策树的学习。因为就算可以对这个类别特征进行切分，独热编码也会把数据切分到很多零散的小空间上，如下图左边所示。而决策树学习时利用的是统计信息，在这些数据量小的空间上，统计信息不准确，学习效果会变差。但如果使用下图右边的切分方法，数据会被切分到两个比较大的空间，进一步的学习也会更好。下图右边叶子节点的含义是X=A或者X=C放到左孩子，其余放到右孩子。图：左图为基于 one-hot 编码进行分裂，右图为 LightGBM 基于 many-vs-many 进行分裂

而类别特征的使用在实践中是很常见的。且为了解决one-hot编码处理类别特征的不足，LightGBM优化了对类别特征的支持，可以直接输入类别特征，不需要额外的0/1展开。LightGBM采用 many-vs-many 的切分方式将类别特征分为两个子集，实现类别特征的最优切分。假设某维特征有 k 个类别，则有

种可能，时间复杂度为

，LightGBM 基于 Fisher的《On Grouping For Maximum Homogeneity》论文实现了

的时间复杂度。

算法流程如下图所示，在枚举分割点之前，先把直方图按照每个类别对应的label均值进行排序；然后按照排序的结果依次枚举最优分割点。从下图可以看到，

为类别的均值。当然，这个方法很容易过拟合，所以LightGBM里面还增加了很多对于这个方法的约束和正则化。图：LightGBM求解类别特征的最优切分算法

在Expo数据集上的实验结果表明，相比0/1展开的方法，使用LightGBM支持的类别特征可以使训练速度加速8倍，并且精度一致。更重要的是，LightGBM是第一个直接支持类别特征的GBDT工具。

3.2 支持高效并行

(1)特征并行

特征并行的主要思想是不同机器在不同的特征集合上分别寻找最优的分割点，然后在机器间同步最优的分割点。XGBoost使用的就是这种特征并行方法。这种特征并行方法有个很大的缺点：就是对数据进行垂直划分，每台机器所含数据不同，然后使用不同机器找到不同特征的最优分裂点，划分结果需要通过通信告知每台机器，增加了额外的复杂度。

LightGBM 则不进行数据垂直划分，而是在每台机器上保存全部训练数据，在得到最佳划分方案后可在本地执行划分而减少了不必要的通信。具体过程如下图所示。图：特征并行

(2)数据并行

传统的数据并行策略主要为水平划分数据，让不同的机器先在本地构造直方图，然后进行全局的合并，最后在合并的直方图上面寻找最优分割点。这种数据划分有一个很大的缺点：通讯开销过大。如果使用点对点通信，一台机器的通讯开销大约为

；如果使用集成的通信，则通讯开销为

。

LightGBM在数据并行中使用分散规约 (Reduce scatter) 把直方图合并的任务分摊到不同的机器，降低通信和计算，并利用直方图做差，进一步减少了一半的通信量。具体过程如下图所示。图：数据并行

(3)投票并行

基于投票的数据并行则进一步优化数据并行中的通信代价，使通信代价变成常数级别。在数据量很大的时候，使用投票并行的方式只合并部分特征的直方图从而达到降低通信量的目的，可以得到非常好的加速效果。具体过程如下图所示。

大致步骤为两步：本地找出 Top K 特征，并基于投票筛选出可能是最优分割点的特征；

合并时只合并每个机器选出来的特征。图：投票并行

3.3 Cache命中率优化

XGBoost对cache优化不友好，如下图所示。在预排序后，特征对梯度的访问是一种随机访问，并且不同的特征访问的顺序不一样，无法对cache进行优化。同时，在每一层长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，也会造成较大的cache miss。为了解决缓存命中率低的问题，XGBoost 提出了缓存访问算法进行改进。图：随机访问会造成cache miss

而 LightGBM 所使用直方图算法对 Cache 天生友好：首先，所有的特征都采用相同的方式获得梯度(区别于XGBoost的不同特征通过不同的索引获得梯度)，只需要对梯度进行排序并可实现连续访问，大大提高了缓存命中率；

其次，因为不需要存储行索引到叶子索引的数组，降低了存储消耗，而且也不存在 Cache Miss的问题。图：LightGBM增加缓存命中率

4. LightGBM的优缺点

4.1 优点

这部分主要总结下 LightGBM 相对于 XGBoost 的优点，从内存和速度两方面进行介绍。

(1)速度更快LightGBM 采用了直方图算法将遍历样本转变为遍历直方图，极大的降低了时间复杂度；

LightGBM 在训练过程中采用单边梯度算法过滤掉梯度小的样本，减少了大量的计算；

LightGBM 采用了基于 Leaf-wise 算法的增长策略构建树，减少了很多不必要的计算量；

LightGBM 采用优化后的特征并行、数据并行方法加速计算，当数据量非常大的时候还可以采用投票并行的策略；

LightGBM 对缓存也进行了优化，增加了缓存命中率；

(2)内存更小XGBoost使用预排序后需要记录特征值及其对应样本的统计值的索引，而 LightGBM 使用了直方图算法将特征值转变为 bin 值，且不需要记录特征到样本的索引，将空间复杂度从

降低为

，极大的减少了内存消耗；

LightGBM 采用了直方图算法将存储特征值转变为存储 bin 值，降低了内存消耗；

LightGBM 在训练过程中采用互斥特征捆绑算法减少了特征数量，降低了内存消耗。

4.2 缺点可能会长出比较深的决策树，产生过拟合。因此LightGBM在Leaf-wise之上增加了一个最大深度限制，在保证高效率的同时防止过拟合；

Boosting族是迭代算法，每一次迭代都根据上一次迭代的预测结果对样本进行权重调整，所以随着迭代不断进行，误差会越来越小，模型的偏差(bias)会不断降低。由于LightGBM是基于偏差的算法，所以会对噪点较为敏感；

在寻找最优解时，依据的是最优切分变量，没有将最优解是全部特征的综合这一理念考虑进去；

5. LightGBM实例

5.1 安装LightGBM依赖包

pip install lightgbm

5.2 LightGBM分类和回归

LightGBM有两大类接口：LightGBM原生接口和 scikit-learn接口，并且LightGBM能够实现分类和回归两种任务。

(1)基于LightGBM原生接口的分类

import lightgbm as lgb

from sklearn import datasets

from sklearn.model_selection import train_test_split

import numpy as np

from sklearn.metrics import roc_auc_score, accuracy_score

# 加载数据

iris = datasets.load_iris()

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3)

# 转换为Dataset数据格式

train_data = lgb.Dataset(X_train, label=y_train)

validation_data = lgb.Dataset(X_test, label=y_test)

# 参数

params = {

'learning_rate': 0.1,

'lambda_l1': 0.1,

'lambda_l2': 0.2,

'max_depth': 4,

'objective': 'multiclass', # 目标函数

'num_class': 3,

}

# 模型训练

gbm = lgb.train(params, train_data, valid_sets=[validation_data])

# 模型预测

y_pred = gbm.predict(X_test)

y_pred = [list(x).index(max(x)) for x in y_pred]

print(y_pred)

# 模型评估

print(accuracy_score(y_test, y_pred))

(2)基于Scikit-learn接口的分类

from lightgbm import LGBMClassifier

from sklearn.metrics import accuracy_score

from sklearn.model_selection import GridSearchCV

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.externals import joblib

# 加载数据

iris = load_iris()

data = iris.data

target = iris.target

# 划分训练数据和测试数据

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)

# 模型训练

gbm = LGBMClassifier(num_leaves=31, learning_rate=0.05, n_estimators=20)

gbm.fit(X_train, y_train, eval_set=[(X_test, y_test)], early_stopping_rounds=5)

# 模型存储

joblib.dump(gbm, 'loan_model.pkl')

# 模型加载

gbm = joblib.load('loan_model.pkl')

# 模型预测

y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration_)

# 模型评估

print('The accuracy of prediction is:', accuracy_score(y_test, y_pred))

# 特征重要度

print('Feature importances:', list(gbm.feature_importances_))

# 网格搜索，参数优化

estimator = LGBMClassifier(num_leaves=31)

param_grid = {

'learning_rate': [0.01, 0.1, 1],

'n_estimators': [20, 40]

}

gbm = GridSearchCV(estimator, param_grid)

gbm.fit(X_train, y_train)

print('Best parameters found by grid search are:', gbm.best_params_)

(3)基于LightGBM原生接口的回归

对于LightGBM解决回归问题，我们用Kaggle比赛中回归问题：House Prices: Advanced Regression Techniques，地址：https://www.kaggle.com/c/house-prices-advanced-regression-techniques 来进行实例讲解。

该房价预测的训练数据集中一共有81列，第一列是Id，最后一列是label，中间79列是特征。这79列特征中，有43列是分类型变量，33列是整数变量，3列是浮点型变量。训练数据集中存在缺失值。

import pandas as pd

from sklearn.model_selection import train_test_split

import lightgbm as lgb

from sklearn.metrics import mean_absolute_error

from sklearn.preprocessing import Imputer

# 1.读文件

data = pd.read_csv('./dataset/train.csv')

# 2.切分数据输入：特征输出：预测目标变量

y = data.SalePrice

X = data.drop(['SalePrice'], axis=1).select_dtypes(exclude=['object'])

# 3.切分训练集、测试集,切分比例7.5 : 2.5

train_X, test_X, train_y, test_y = train_test_split(X.values, y.values, test_size=0.25)

# 4.空值处理，默认方法：使用特征列的平均值进行填充

my_imputer = Imputer()

train_X = my_imputer.fit_transform(train_X)

test_X = my_imputer.transform(test_X)

# 5.转换为Dataset数据格式

lgb_train = lgb.Dataset(train_X, train_y)

lgb_eval = lgb.Dataset(test_X, test_y, reference=lgb_train)

# 6.参数

params = {

'task': 'train',

'boosting_type': 'gbdt', # 设置提升类型

'objective': 'regression', # 目标函数

'metric': {'l2', 'auc'}, # 评估函数

'num_leaves': 31, # 叶子节点数

'learning_rate': 0.05, # 学习速率

'feature_fraction': 0.9, # 建树的特征选择比例

'bagging_fraction': 0.8, # 建树的样本采样比例

'bagging_freq': 5, # k 意味着每 k 次迭代执行bagging

'verbose': 1 # <0 显示致命的, =0 显示错误 (警告), >0 显示信息

}

# 7.调用LightGBM模型，使用训练集数据进行训练(拟合)

# Add verbosity=2 to print messages while running boosting

my_model = lgb.train(params, lgb_train, num_boost_round=20, valid_sets=lgb_eval, early_stopping_rounds=5)

# 8.使用模型对测试集数据进行预测

predictions = my_model.predict(test_X, num_iteration=my_model.best_iteration)

# 9.对模型的预测结果进行评判(平均绝对误差)

print("Mean Absolute Error : " + str(mean_absolute_error(predictions, test_y)))

(4)基于Scikit-learn接口的回归

import pandas as pd

from sklearn.model_selection import train_test_split

import lightgbm as lgb

from sklearn.metrics import mean_absolute_error

from sklearn.preprocessing import Imputer

# 1.读文件

data = pd.read_csv('./dataset/train.csv')

# 2.切分数据输入：特征输出：预测目标变量

y = data.SalePrice

X = data.drop(['SalePrice'], axis=1).select_dtypes(exclude=['object'])

# 3.切分训练集、测试集,切分比例7.5 : 2.5

train_X, test_X, train_y, test_y = train_test_split(X.values, y.values, test_size=0.25)

# 4.空值处理，默认方法：使用特征列的平均值进行填充

my_imputer = Imputer()

train_X = my_imputer.fit_transform(train_X)

test_X = my_imputer.transform(test_X)

# 5.调用LightGBM模型，使用训练集数据进行训练(拟合)

# Add verbosity=2 to print messages while running boosting

my_model = lgb.LGBMRegressor(objective='regression', num_leaves=31, learning_rate=0.05, n_estimators=20,

verbosity=2)

my_model.fit(train_X, train_y, verbose=False)

# 6.使用模型对测试集数据进行预测

predictions = my_model.predict(test_X)

# 7.对模型的预测结果进行评判(平均绝对误差)

print("Mean Absolute Error : " + str(mean_absolute_error(predictions, test_y)))

5.3 LightGBM调参

在上一部分中，LightGBM模型的参数有一部分进行了简单的设置，但大都使用了模型的默认参数，但默认参数并不是最好的。要想让LightGBM表现的更好，需要对LightGBM模型进行参数微调。下图展示的是回归模型需要调节的参数，分类模型需要调节的参数与此类似。

6. 关于LightGBM若干问题的思考

6.1 LightGBM与XGBoost的联系和区别有哪些？

(1)LightGBM使用了基于histogram的决策树算法，这一点不同于XGBoost中的贪心算法和近似算法，histogram算法在内存和计算代价上都有不小优势。1)内存上优势：很明显，直方图算法的内存消耗为

(因为对特征分桶后只需保存特征离散化之后的值)，而XGBoost的贪心算法内存消耗为：

，因为XGBoost既要保存原始feature的值，也要保存这个值的顺序索引，这些值需要32位的浮点数来保存。2)计算上的优势：预排序算法在选择好分裂特征计算分裂收益时需要遍历所有样本的特征值，时间为

，而直方图算法只需要遍历桶就行了，时间为

。

(2)XGBoost采用的是level-wise的分裂策略，而LightGBM采用了leaf-wise的策略，区别是XGBoost对每一层所有节点做无差别分裂，可能有些节点的增益非常小，对结果影响不大，但是XGBoost也进行了分裂，带来了不必要的开销。leaft-wise的做法是在当前所有叶子节点中选择分裂收益最大的节点进行分裂，如此递归进行，很明显leaf-wise这种做法容易过拟合，因为容易陷入比较高的深度中，因此需要对最大深度做限制，从而避免过拟合。

(3)XGBoost在每一层都动态构建直方图，因为XGBoost的直方图算法不是针对某个特定的特征，而是所有特征共享一个直方图(每个样本的权重是二阶导)，所以每一层都要重新构建直方图，而LightGBM中对每个特征都有一个直方图，所以构建一次直方图就够了。

(4)LightGBM使用直方图做差加速，一个子节点的直方图可以通过父节点的直方图减去兄弟节点的直方图得到，从而加速计算。

(5)LightGBM支持类别特征，不需要进行独热编码处理。

(6)LightGBM优化了特征并行和数据并行算法，除此之外还添加了投票并行方案。

(7)LightGBM采用基于梯度的单边采样来减少训练样本并保持数据分布不变，减少模型因数据分布发生变化而造成的模型精度下降。

(8)特征捆绑转化为图着色问题，减少特征数量。

7. Reference

由于参考的文献较多，我把每篇参考文献按照自己的学习思路，进行了详细的归类和标注。

LightGBM论文解读：

【1】Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[C]//Advances in Neural Information Processing Systems. 2017: 3146-3154.

【4】Lightgbm源论文解析：LightGBM: A Highly Efficient Gradient Boosting Decision Tree，地址：https://blog.csdn.net/anshuai_aw1/article/details/83048709

【6】『论文阅读』LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree，地址：https://blog.csdn.net/shine19930820/article/details/79123216

LightGBM算法讲解：

【7】【机器学习】决策树(下)——XGBoost、LightGBM(非常详细) - 阿泽的文章 - 知乎 https://zhuanlan.zhihu.com/p/87885678

【8】入门 | 从结构到性能，一文概述XGBoost、Light GBM和CatBoost的同与不同，地址：https://mp.weixin.qq.com/s/TD3RbdDidCrcL45oWpxNmw

LightGBM工程优化：

【11】Meng Q, Ke G, Wang T, et al. A communication-efficient parallel algorithm for decision tree[C]//Advances in Neural Information Processing Systems. 2016: 1279-1287.

【12】Zhang H, Si S, Hsieh C J. GPU-acceleration for Large-scale Tree Boosting[J]. arXiv preprint arXiv:1706.08359, 2017.

LightGBM实例：

LightGBM若干问题的思考：

你可能感兴趣的:(lightgb原理)

Java内存模型深度解析：栈、堆、方法区详解 wsj__WSJ java java
本文通过生动比喻和实战案例，帮你彻底掌握Java内存结构中栈内存、堆内存和方法区的核心原理与协作方式。一、为什么要区分三种内存？Java划分栈、堆、方法区是为了提高内存使用效率，不同数据有不同的生命周期和访问频率：数据类型类比场景存储位置生命周期临时数据（方法参数）便签纸栈内存方法执行期间对象实例常用文件夹堆内存对象存在期间类定义信息公司制度手册方法区程序运行期间就像高效的办公桌管理：栈内存：临时
gRPC深度解析：原理、实践与性能优化指南亲爱的非洲野猪性能优化
引言在现代分布式系统架构中，服务间通信的效率直接影响着整体系统的性能。gRPC作为新一代RPC框架，凭借其高性能、跨语言支持和强大的功能特性，已成为微服务通信的事实标准。本文将深入剖析gRPC的核心原理，分享最佳实践，并提供生产环境中的优化建议。一、gRPC核心架构解析1.1ProtocolBuffers：高效的数据交换格式ProtocolBuffers（简称protobuf）是gRPC的接口定义
Socket 套接字原理详解 ASDDAG Socket python python
Socket套接字原理详解socket编程介绍Socket编程封装了常见的TCP、UDP操作，可以实现非常方便的网络编程。socket()函数介绍#socket.socket(family,type)tcpSocket=socket.socket(AF_INET,SOCK_STREAM)#family地址系列应为AF_INET(IPv4),AF_INET6(IPv6)#type套接字类型应为SOC
深入理解Socket套接字原理 Princesk web应用测试学习 websocket tcp/ip python
Socket套接字原理1、什么是Socket在计算机领域，套接字Socket作为计算机之间进行通信的固定的约定方式之一存在。这种太抽象了，我举个例子，我们要是用笔记本电脑前需要先对电脑供电，那供电就有两种方式电线插座供电和电池供电，电网有电就用插座供电，电网没电就用笔记本的自带的电池供电。那么这个供电的工具（电池或者电线插座）就是套接字Socket。Socket起源于Linux系统，我们都知道Li
Kotlin 属性委托 observable 的实现原理
Kotlin的Delegates.observable是Kotlin标准库中提供的一个属性委托，它允许你在属性的值发生变化时自动执行某段逻辑，比如常用于监听属性变化（例如UI数据更新）。基本使用示例：importkotlin.properties.Delegatesvarname:StringbyDelegates.observable("initial"){property,oldValue,n
final修饰符不可变的底层
final修饰符的底层原理在Java中，final修饰符的底层实现涉及编译器优化和JVM字节码层面的约束其核心目标是保证被修饰元素的【不可变性】或【不可重写/继承性】一、final修饰类：禁止继承的底层约束当一个类被final修饰时，例如String、IntegerJVM在字节码层面会通过访问标志（accessflags）标记该类为ACC_FINAL编译器在编译时会检查：如果子类试图继承被fina
DNS考点
在网络工程师、系统工程师、运维工程师、安全工程师等岗位的面试中，DNS（DomainNameSystem，域名系统）是高频必考知识点。DNS作为互联网的“电话簿”，负责将人类可读的域名（如www.example.com）解析为机器可识别的IP地址（如192.0.2.1），是网络通信的基础组件。以下是系统化的核心考点梳理，涵盖DNS基础概念、工作原理、协议细节及应聘高频问题。一、DNS基础考点1.D
Agent架构与工作原理：理解智能体的核心机制 hdzw20 agent学习 ai 机器学习 agent 智能体
Agent架构与工作原理：深入理解智能体的核心机制AIAgent的核心组成部分一个完整的AIAgent通常由以下几个核心模块组成：1.规划模块（PlanningModule）规划模块是Agent的"大脑"，负责制定行动策略。它接收目标任务，分析当前状态，并制定一系列行动计划。规划可以是：短期规划：针对当前步骤的即时决策长期规划：面向整体目标的战略性规划动态规划：根据执行结果实时调整计划2.记忆模块
复习博客：JVM hdzw20 java八股文复习 jvm java intellij-idea spring 后端
复习博客：JVM今日复习内容今天学习Java虚拟机（JVM），它是Java程序运行的基石。理解JVM的工作原理对于优化Java应用性能和排查问题至关重要。主要复习了以下内容：JVM内存模型JVM内存模型（也称为运行时数据区域）主要分为以下几个部分：程序计数器(ProgramCounterRegister)：一块较小的内存空间，是当前线程所执行的字节码的行号指示器。每个线程都有一个独立的程序计数器，
yolov8涨点系列之C2f模块改进主分支没脾气的小玩家 YOLO 目标检测
文章目录C2F模块介绍定义与基本原理应用场景C2f模块修改步骤(1)C2f_up模块编辑(2)在__init_.py+block.py中声明（3）在task.py中声明yolov8引入C2f_up模块yolov8.yamlyolov8.yaml引入C2f_up模块C2f改进对YOLOv8检测具有多方面的好处C2F模块介绍定义与基本原理 C2F（Coarse-to-Fine）模块通常是一
Java 实现 TCP 多发多收通信程序小陈永不服输 java 开发语言 tcp/ip 网络网络协议
在网络通信中，TCP协议的可靠传输特性使其在需要持续交互的场景中被广泛应用。本文将围绕一段实现TCP多发多收功能的Java代码，详细解析其实现原理、运行流程及技术特点，帮助开发者深入理解TCP持续通信的实现方式。核心代码展示以下是实现TCP多发多收通信的完整代码，包含客户端与服务器端两个部分：客户端（Client）代码packagecom.practical.agreement.tcp.tcp_2
抽象文档模式 hello 早上好设计模式开发语言 java
抽象文档模式在软件开发中，我们经常需要处理半结构化数据（如JSON、XML、文档数据库中的文档）。这类数据的特点是结构灵活，可能存在嵌套关系，且字段可能动态变化。传统的面向对象设计可能需要为每种数据结构定义大量类，导致代码冗余和维护困难。这时候，抽象文档模式（AbstractDocumentPattern）就能派上用场。本文将通过一个完整的Java案例，详细讲解抽象文档模式的实现原理、设计思路和实
HTTP性能优化终极指南：从协议原理到企业级实践
前言：为什么性能优化是Web开发的生命线？根据Google研究数据，当页面加载时间从1秒增加到3秒时，跳出率提升32%；当达到5秒时，转化率下降90%。本文将通过七层优化体系，带您掌握HTTP性能优化的核心技术，包含：8大核心优化方向12个真实企业案例20+可立即落地的配置代码最新HTTP/3实践方案一、网络层优化：从DNS到HTTP/3的全栈加速1.1智能DNS解析体系//动态预解析用户可能访问
Java学习-----Bean 典孝赢麻崩乐急 java 学习 rpc
在Spring框架中，Bean是核心概念之一，它贯穿了整个Spring应用的生命周期，是实现依赖注入（DI）和控制反转（IoC）的基础。理解Bean的原理、作用及使用特点，对于掌握Spring框架至关重要。SpringBean的本质是由SpringIoC容器管理的对象，它的创建、初始化、依赖注入及销毁等过程均由容器控制，而非通过传统的new关键字手动创建。其核心原理可概括为以下两点：1.控制反转（
Java学习----NIO模型典孝赢麻崩乐急 java 学习 nio
在Java的I/O模型中，NIO（Non-BlockingI/O，非阻塞I/O）是对BIO的重要改进。它为高并发场景提供了更高效的处理方式，在众多Java应用中发挥着关键作用。NIO模型的核心在于非阻塞和多路复用，其采用“一个线程处理多个连接”的模式，主要依靠通道（Channel）、缓冲区（Buffer）和选择器（Selector）这三个核心组件协同工作，每个核心组件的功能原理和功能如下：（1）通
Java学习————————ThreadLocal 典孝赢麻崩乐急 java 学习开发语言
ThreadLocal是Java中一个非常重要的线程级别的变量隔离机制，它提供了线程局部变量，使得每个线程都可以拥有自己独立的变量副本，从而避免了多线程环境下的共享变量竞争问题。ThreadLocal的实现原理主要依赖于：（1）ThreadLocalMap：每个Thread对象内部都有一个ThreadLocalMap实例（2）弱引用键：ThreadLocalMap使用ThreadLocal对象作为
【集群】MySQL的主从复制了解吗？会有延迟吗，原因是什么？雪碧聊技术 Java八股文 mysql 数据库 MySQL主从复制
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
【锁】MySQL中有哪几种锁？雪碧聊技术 Java八股文 mysql 数据库锁
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
MySQL的Binlog有几种格式? 雪碧聊技术 Java八股文 mysql 数据库
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
【加解密与C】Rot系列(四)Rot8000 阿捏利加解密与C c语言 Rot8000
Rot8000简介Rot8000是一种基于Unicode字符集的旋转加密算法，类似于经典的Rot13，但扩展到了更大的字符范围（通常是Unicode的基本多语言平面，即U+0000到U+FFFF）。Rot13仅适用于26个拉丁字母，而Rot8000通过覆盖更多字符（如中文、符号等），增强了加密的灵活性和趣味性。Rot8000加密原理Rot8000的核心思想是将每个Unicode字符的码点值加上0x
Arraylist与LinkedList区别雪碧聊技术 Java八股文 ArrayList LinkedList
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
Android Jetpack Compose + MVI 开发流程深度分析你过来啊你 android compose mvi
MVI架构核心原理MVI（Model-View-Intent）是一种基于单向数据流的架构模式，其核心组件关系如下：[View]--Intents-->[ViewModel]--States-->[View]||用户交互事件处理业务逻辑||[View]=emptyList(),valisLoading:Boolean=false,valerror:String?=null,valnewTodoTit
Android Room使用方法与底层原理详解你过来啊你 android room
Room是一个强大的SQLite对象映射库，旨在提供更健壮、更简洁、更符合现代开发模式的数据库访问方式。核心价值：消除大量样板代码，提供编译时SQL验证，强制结构化数据访问，并流畅集成LiveData、Flow和RxJava以实现响应式UI。一、使用流程(Step-by-StepWorkflow)Room的使用遵循一个清晰的结构化流程：添加依赖：//build.gradle(Module)depe
Java中HashMap的实现原理详解
HashMap是Java集合框架中的核心类，基于哈希表实现键值对（Key-Value）存储，提供O(1)时间复杂度的快速查找。以下从数据结构、哈希机制、冲突解决、扩容策略等角度详细解析其实现原理（基于Java8）。一、核心数据结构：数组+链表+红黑树transientNode[]table;//哈希桶数组staticclassNode{//链表节点finalinthash;finalKkey;Vv
Nmap --- Ingreslock后门漏洞唯师默蓝
目的：利用telnet连接目标主机的1524端口，直接获取root权限；原理：Ingreslock后门程序运行在1524端口，连接到1524端口就能直接获得root权限，经常用于入侵一个暴露的服务器；步骤：nmap-sV192.168.1.3,扫描目标主机端口，发现目标主机开启了1524端口；telnet192.168.1.31524连接目标主机并直接成功，在渗透进的主机中，输入whoami,查看
关于Go语言的底层，Slice，map -睡到自然醒~ golang 开发语言后端 gin spring boot
1SliceSlice底层实现原理切片是基于数组实现的，它的底层是数组，它自己本身非常小，可以理解为对底层数组的抽象。因为基于数组实现，所以它的底层的内存是连续分配的，效率非常高，还可以通过索引获得数据，可以迭代以及垃圾回收优化。切片本身并不是动态数组或者数组指针。它内部实现的数据结构通过指针引用底层数组，设定相关属性将数据读写操作限定在指定的区域内。切片本身是一个只读对象，其工作机制类似数组指针
大模型微调技术的详细解析及对比老兵发新帖人工智能大数据
以下是四种主流大模型微调技术的详细解析及对比，结合技术原理、适用场景与性能表现进行说明：1.Full-tuning（全量微调）核心原理：加载预训练模型的所有参数，用特定任务数据（通常为指令-回答对）继续训练，更新全部权重。相当于对模型整体知识结构进行重构。操作流程：加载预训练模型；用任务数据集（如分类文本）和优化目标（如最小化误差）训练；所有参数参与梯度更新。优势：模型充分学习任务特征，效果通常最
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
开源Agent平台Dify源码剖析系列（六）核心模块core/agent之CotCompletionAgentRunner ATM006 机器智能人工智能大模型人机协同 Agent Dify
每一篇文章都短小精悍，不啰嗦。笔者寄语本期介绍Dify框架的核心模块core/agent。接下来我们一起深入剖析core/agent目录下的所有代码，并以通俗易懂的方式解释。我们需要先了解这个目录的完整结构，然后逐个分析关键文件，最后总结整个Agent框架的设计和工作原理。首先，让我查看core/agent目录的完整结构：dify/api/core/agent.├──base_agent_runn
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>