Grateful_Dead424

LESSON 12.1-12.6 梯度提升树的基本思想&梯度提升树的参数

目录
一梯度提升树的基本思想
1 梯度提升树 pk AdaBoost
2 GradientBoosting回归与分类的实现
二梯度提升树的参数
1 迭代过程
1.1 初始预测结果 0 的设置
1.2 使用回归器完成分类任务
1.3 GBDT的8种损失函数
2 弱评估器结构
2.1 梯度提升树种的弱评估器复杂度
2.2 弗里德曼均方误差
3 梯度提升树的提前停止机制
4 梯度提升树的袋外数据
5 缺失参数class_weight与n_jobs
三梯度提升树的参数空间与自动优化
1 GBDT的参数空间
2 基于TPE对GBDT进行优化
四原理进阶：梯度提升回归树的求解流程
1 GBDT的基本数学流程
2 初始化H0过程中的常数C是什么？
3 伪残差、残差与梯度有什么关系？
4 证明：拟合伪残差的合理性

一梯度提升树的基本思想

1 梯度提升树 pk AdaBoost

梯度提升树（Gradient Boosting Decision Tree，GBDT）是提升法中的代表性算法，它即是当代强力的XGBoost、LGBM等算法的基石，也是工业界应用最多、在实际场景中表现最稳定的机器学习算法之一。在最初被提出来时，GBDT被写作梯度提升机器（Gradient Boosting Machine，GBM），它融合了Bagging与Boosting的思想、扬长避短，可以接受各类弱评估器作为输入，在后来弱评估器基本被定义为决策树后，才慢慢改名叫做梯度提升树。受Boosting算法首个发扬光大之作AdaBoost的启发，GBDT中自然也包含Boosting三要素：

损失函数 (,) ：用以衡量模型预测结果与真实结果的差异
弱评估器 () ：（一般为）决策树，不同的boosting算法使用不同的建树过程
综合集成结果 () ：即集成算法具体如何输出集成结果

同时，GBDT也遵循boosting算法的基本流程进行建模：
但与AdaBoost不同的是，GBDT在整体建树过程中做出了以下几个关键的改变：

弱评估器

GBDT的弱评估器输出类型不再与整体集成算法输出类型一致。对于AdaBoost或随机森林算法来说，当集成算法执行的是回归任务时，弱评估器也是回归器，当集成算法执行分类任务时，弱评估器也是分类器。但对于GBDT而言，无论GBDT整体在执行回归/分类/排序任务，弱评估器一定是回归器。GBDT通过sigmoid或softmax函数输出具体的分类结果，但实际弱评估器一定是回归器。

损失函数 (,)

在GBDT当中，损失函数范围不再局限于固定或单一的某个损失函数，而从数学原理上推广到了任意可微的函数。因此GBDT算法中可选的损失函数非常多，GBDT实际计算的数学过程也与损失函数的表达式无关。

拟合残差

GBDT依然自适应调整弱评估器的构建，但却不像AdaBoost一样通过调整数据分布来间接影响后续弱评估器。相对的，GBDT通过修改后续弱评估器的拟合目标来直接影响后续弱评估器的结构。
具体地来说，在AdaBoost当中，每次建立弱评估器之前需要修改样本权重，且用于建立弱评估器的是样本 $X$ 以及对应的 $y$ ，在GBDT当中，我们不修改样本权重，但每次用于建立弱评估器的是样本 $X$ 以及当下集成输出 $H(x_i)$ 与真实标签 $y$ 的差异（ $y - H(x_i)$ ）。这个差异在数学上被称之为残差（Residual），因此GBDT不修改样本权重，而是通过拟合残差来影响后续弱评估器结构。

-抽样思想

GBDT加入了随机森林中随机抽样的思想，在每次建树之前，允许对样本和特征进行抽样来增大弱评估器之间的独立性（也因此可以有袋外数据集）。虽然Boosting算法不会大规模地依赖于类似于Bagging的方式来降低方差，但由于Boosting算法的输出结果是弱评估器结果的加权求和，因此Boosting原则上也可以获得由“平均”带来的小方差红利。当弱评估器表现不太稳定时，采用与随机森林相似的方式可以进一步增加Boosting算法的稳定性。

除了以上四个改变之外，GBDT的求解流程与AdaBoost大致相同。因此，如果你对AdaBoost的流程相当熟悉，GBDT的建模过程并不难懂。sklearn当中集成了GBDT分类与GBDT回归，我们使用如下两个类来调用它们：

class sklearn.ensemble.GradientBoostingClassifier(*, loss=‘deviance’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=‘friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001, ccp_alpha=0.0)

class sklearn.ensemble.GradientBoostingRegressor(*, loss=‘squared_error’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=‘friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, init=None, random_state=None, max_features=None, alpha=0.9, verbose=0, max_leaf_nodes=None, warm_start=False, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001, ccp_alpha=0.0)

比起AdaBoost，GBDT的超参数数量增加了不少，但与其他集成算法一样，GBDT回归器与GBDT分类器的超参数高度一致（实际上，对GBDT来说，是完全一致）。在课程当中，我们将重点介绍GBDT独有的参数，以及GBDT分类器与GBDT回归器中表现不一致的参数。

2 GradientBoosting的实现

import matplotlib.pyplot as plt
from sklearn.ensemble import GradientBoostingRegressor as GBR
from sklearn.ensemble import GradientBoostingClassifier as GBC
from sklearn.ensemble import AdaBoostRegressor as ABR
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.model_selection import cross_validate, KFold

data = pd.read_csv(r"D:\Pythonwork\2021ML\PART 2 Ensembles\datasets\House Price\train_encode.csv",index_col=0)
data.head()

#回归数据
X = data.iloc[:,:-1]
y = data.iloc[:,-1]
X.shape
#(1460, 80)
y.describe()
#count      1460.000000
#mean     180921.195890
#std       79442.502883
#min       34900.000000
#25%      129975.000000
#50%      163000.000000
#75%      214000.000000
#max      755000.000000
#Name: SalePrice, dtype: float64

#定义所需的交叉验证方式
cv = KFold(n_splits=5,shuffle=True,random_state=1412)

def RMSE(result,name):
    return abs(result[name].mean())

梯度提升回归树

gbr = GBR(random_state=1412) #实例化
result_gbdt = cross_validate(gbr,X,y,cv=cv
                             ,scoring="neg_root_mean_squared_error" #负根均方误差
                             ,return_train_score=True
                             ,verbose=True
                             ,n_jobs=-1)
#[Parallel(n_jobs=-1)]: Using backend LokyBackend with 16 concurrent workers.
#[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    0.4s finished
RMSE(result_gbdt,"train_score")
#13990.790813889864
RMSE(result_gbdt,"test_score")
#28783.954343252786

梯度提升回归与其他算法的对比

modelname = ["GBDT","RF","AdaBoost","RF-TPE","Ada-TPE"]

models = [GBR(random_state=1412)
         ,RFR(random_state=1412,n_jobs=-1)
         ,ABR(random_state=1412)
         ,RFR(n_estimators=89, max_depth=22, max_features=14, min_impurity_decrease=0
              ,random_state=1412, verbose=False, n_jobs=-1)
         ,ABR(n_estimators=39, learning_rate=0.94,loss="exponential"
              ,random_state=1412)]

colors = ["green","gray","orange","red","blue"]

for name,model in zip(modelname,models):
    start = time.time()
    result = cross_validate(model,X,y,cv=cv,scoring="neg_root_mean_squared_error"
                            ,return_train_score=True
                            ,verbose=False
                            ,n_jobs=-1)
    end = time.time()-start
    print(name)
    print("\t train_score:{:.3f}".format(RMSE(result,"train_score")))
    print("\t test_score:{:.3f}".format(RMSE(result,"test_score")))
    print("\t time:{:.2f}s".format(end))
    print("\n")
#GBDT
#	 train_score:13990.791
#	 test_score:28783.954
#	 time:0.49s
#RF
#	 train_score:11177.272
#	 test_score:30571.267
#	 time:0.70s
#AdaBoost
#	 train_score:27062.107
#	 test_score:35345.931
#	 time:0.25s
#RF-TPE
#	 train_score:11208.818
#	 test_score:28346.673
#	 time:0.22s
#Ada-TPE
#	 train_score:27401.542
#	 test_score:35169.730
#	 time:0.23s

先来看默认参数下所有算法的表现。当不进行调参时，随机森林的运行时间最长、AdaBoost最快，GBDT居中，但考虑到AdaBoost的n_estimators参数的默认值为50，而GBDT和随机森林的n_estimators默认值都为100，可以认为AdaBoost的运行速度与GBDT相差不多。从结果来看，未调参状态下GBDT的结果是最好的，其结果甚至与经过TPE精密调参后的随机森林结果相差不多，而AdaBoost经过调参后没有太多改变，可以说AdaBoost极其缺乏调参空间、并且学习能力严重不足。

基于以上信息，我们可以观察三个算法的过拟合情况：

xaxis = range(1,6)
plt.figure(figsize=(8,6),dpi=80)

for name,model,color in zip(modelname[:3],models[:3],colors[:3]):
    result = cross_validate(model,X,y,cv=cv,scoring="neg_root_mean_squared_error"
                            ,return_train_score=True
                            ,verbose=False
                            ,n_jobs=-1)
    plt.plot(xaxis,abs(result["train_score"]), color=color, label = name+"_Train")
    plt.plot(xaxis,abs(result["test_score"]), color=color, linestyle="--",label = name+"_Test")

plt.xticks([1,2,3,4,5])
plt.xlabel("CVcounts",fontsize=16)
plt.ylabel("RMSE",fontsize=16)
plt.title("RF vs GBDT vs AdaBoost")
plt.legend()
plt.show()

不难发现，AdaBoost是过拟合程度最轻的，这也反映出它没有调参空间的事实，而GBDT与随机森林过拟合程度差不多，不过GBDT的过拟合程度相对较轻一些，这是因为Boosting算法的原理决定了Boosting算法更加不容易过拟合，这一点在后续讲解GBDT的参数时我们会详细说明。

我们可以绘制随机森林调参前后、以及AdaBoost调参前后的结果对比：

xaxis = range(1,6)
plt.figure(figsize=(8,6),dpi=80)

for name,model,color in zip(modelname[2:5:2],models[2:5:2],colors[2:5:2]):
    result = cross_validate(model,X,y,cv=cv,scoring="neg_root_mean_squared_error"
                            ,return_train_score=True
                            ,verbose=False
                            ,n_jobs=-1)
    plt.plot(xaxis,abs(result["train_score"]), color=color, label = name+"_Train")
    plt.plot(xaxis,abs(result["test_score"]), color=color, linestyle="--",label = name+"_Test")

plt.xticks([1,2,3,4,5])
plt.xlabel("CVcounts",fontsize=16)
plt.ylabel("RMSE",fontsize=16)
plt.title("AdaBoost vs AdaBoost-TPE")
plt.legend()
plt.show()

xaxis = range(1,6)
plt.figure(figsize=(8,6),dpi=80)

for name,model,color in zip(modelname[1:4:2],models[1:4:2],colors[1:4:2]):
    result = cross_validate(model,X,y,cv=cv,scoring="neg_root_mean_squared_error"
                            ,return_train_score=True
                            ,verbose=False
                            ,n_jobs=-1)
    plt.plot(xaxis,abs(result["train_score"]), color=color, label = name+"_Train")
    plt.plot(xaxis,abs(result["test_score"]), color=color, linestyle="--",label = name+"_Test")

plt.xticks([1,2,3,4,5])
plt.xlabel("CVcounts",fontsize=16)
plt.ylabel("RMSE",fontsize=16)
plt.title("RF vs RF-TPE")
plt.legend()
plt.show()

不难发现，AdaBoost在经过精密调参后，并没有太多改变，而随机森林调参后过拟合程度明显降低，测试集上的结果明显提升，这是随机森林在潜力和根本原则上都比AdaBoost要强大的表现。那GBDT的表现如何呢？GBDT在默认参数上的结果接近经过TPE调参后的随机森林，我们来看看这两个算法的对比：

xaxis = range(1,6)
plt.figure(figsize=(8,6),dpi=80)

for name,model,color in zip(modelname[:5:3],models[:5:3],colors[:5:3]):
    result = cross_validate(model,X,y,cv=cv,scoring="neg_root_mean_squared_error"
                            ,return_train_score=True
                            ,verbose=False
                            ,n_jobs=-1)
    plt.plot(xaxis,abs(result["train_score"]), color=color, label = name+"_Train")
    plt.plot(xaxis,abs(result["test_score"]), color=color, linestyle="--",label = name+"_Test")

plt.xticks([1,2,3,4,5])
plt.xlabel("CVcounts",fontsize=16)
plt.ylabel("RMSE",fontsize=16)
plt.title("GBDT vs RF-TPE")
plt.legend()
plt.show()

不难发现，GBDT的过拟合程度是轻于优化后的随机森林的。并且，在大部分交叉验证的结果下，GBDT的效果都接近或好于优化后的随机森林。在cv=2时GBDT的表现远不如森林，一次糟糕的表现拉低了GBDT的整体表现，否则GBDT可能在默认参数上表现出比优化后的随机森林更好的结果。如果我们可以通过调参优化让GBDT的表现更加稳定，GBDT可能会出现惊人的表现。

梯度提升树分类

#分类数据
X_clf = data.iloc[:,:-2]
y_clf = data.iloc[:,-2]

np.unique(y_clf) #6分类
#array([0., 1., 2., 3., 4., 5.])

#GBDT分类的实现
clf = GBC(random_state=1412) #实例化
cv = KFold(n_splits=5,shuffle=True,random_state=1412)
result_clf = cross_validate(clf,X_clf,y_clf,cv=cv
                            ,return_train_score=True
                            ,verbose=True
                            ,n_jobs=-1)                        
#[Parallel(n_jobs=-1)]: Using backend LokyBackend with 16 concurrent workers.
#[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    5.5s finished
result_clf
#{'fit_time': array([3.47425294, 3.40723777, 3.38023067, 3.39023256, 3.41823983]),
#'score_time': array([0.0040009 , 0.00400043, 0.00400066, 0.00300074, 0.00400186]),
#'test_score': array([0.89726027, 0.8869863 , 0.90410959, 0.8869863 , 0.90753425]),
#'train_score': array([0.99058219, 0.99315068, 0.99229452, 0.99143836, 0.99143836])}
result_clf["train_score"].mean()
#0.9919520547945206
result_clf["test_score"].mean()
#0.8979452054794521

二梯度提升树的参数

与随机森林一样，由于GBDT超参数数量较多，因此我们可以将GBDT的参数分为以下5大类别，其中标注为绿色的参数包括了我们未曾学过的知识、需要重点讲解：

1 迭代过程

之前我们提到过，GBDT的整体建模流程与AdaBoost高度相似，因此GBDT当中也有设置具体迭代次数（弱评估器次数）的参数n_estimators与学习率参数learning_rate，这两个参数的含义、以及对集成算法的影响与AdaBoost当中完全一致。

具体地来说，对于样本 $x_i$ ，集成算法当中一共有 $T$ 棵树，则参数n_estimators的取值为T。假设现在正在建立第 $t$ 个弱评估器，则则第 $t$ 个弱评估器上 $x_i$ 的结果可以表示为 $f_t(x_i)$ 。假设整个Boosting算法对样本 $x_i$ 输出的结果为 $H(x_i)$ ，则该结果一般可以被表示为t=1~t=T过程当中，所有弱评估器结果的加权求和：

$H(x_i) = \sum_{t=1}^\boldsymbol{\color{red}T}\phi_tf_t(x_i)$

其中， $\phi_t$ 为第t棵树的权重。对于第 $t$ 次迭代来说，则有：

$H_t(x_i) = H_{t-1}(x_i) + \phi_tf_t(x_i)$

在这个一般过程中，每次将本轮建好的决策树加入之前的建树结果时，可以在权重 $\phi$ 前面增加参数 $\color{red}\eta$ ，表示为第t棵树加入整体集成算法时的学习率，对标参数learning_rate。

$H_t(x_i) = H_{t-1}(x_i) + \boldsymbol{\color{red}\eta} \phi_tf_t(x_i)$

该学习率参数控制Boosting集成过程中 $H(x_i)$ 的增长速度，是相当关键的参数。当学习率很大时， $H(x_i)$ 增长得更快，我们所需的n_estimators更少，当学习率较小时， $H(x_i)$ 增长较慢，我们所需的n_estimators就更多，因此boosting算法往往会需要在n_estimators与learning_rate中做出权衡。

这两个参数的使用方法与AdaBoost中也完全一致，故此处不再赘述，后续我们会直接使用这两个参数进行调参。

1.1 初始预测结果 $H_0$ 的设置

在上述过程中，我们建立第一个弱评估器时有：

$H_1(x_i) = H_{0}(x_i) + \phi_1f_1(x_i)$

由于没有第0棵树的存在，因此 $H_0(x_i)$ 的值在数学过程及算法具体实现过程中都需要进行单独的确定，这一确定过程由参数init确定。

参数init：输入计算初始预测结果 $H_0$ 的估计器对象。

在该参数中，可以输入任意评估器、字符串"zero"、或者None对象，默认为None对象。

当输入任意评估器时，评估器必须要具备fit以及predict_proba功能，即我们可以使用决策树、逻辑回归等可以输出概率的模型。如果输出一个已经训练过、且精细化调参后的模型，将会给GBDT树打下坚实的基础。

填写为字符串"zero"，则代表令 $H_0 = 0$ 来开始迭代。

不填写，或填写为None对象，sklearn则会自动选择类DummyEstimator中的某种默认方式进行预测作为 $H_0$ 的结果。DummyEstimator类是sklearn中设置的使用超简单规则进行预测的类，其中最常见的规则是直接从训练集标签中随机抽样出结果作为预测标签，也有选择众数作为预测标签等选项。

一般在GBDT类的使用过程中，我们不会主动调节参数init，但是当我们有足够的算力支持超参数搜索时，我们可以在init上进行选择。

from sklearn.tree import DecisionTreeRegressor as DTR
tree_reg = DTR(random_state=1412)
rf = RFR(n_estimators=89, max_depth=22, max_features=14, min_impurity_decrease=0
              ,random_state=1412, verbose=False, n_jobs=-1)

for init in [tree_reg,rf,"zero",None]:
    reg = GBR(init = init,random_state=1412)
    cv = KFold(n_splits=5,shuffle=True,random_state=1412)
    result_reg = cross_validate(reg,X,y,cv=cv,scoring="neg_root_mean_squared_error"
                                ,return_train_score=True
                                ,verbose=False
                                ,n_jobs=-1)
    print("\n")
    print(RMSE(result_reg,"train_score"))
    print(RMSE(result_reg,"test_score"))
#0.0
#42065.93924112058
#单颗决策树
#
#5669.291478825804
#27171.244181270857
#随机森林
#
#13990.791639702458
#28739.882050269225
#zero
#
#13990.790813889864
#28783.954343252786
#none

不难发现，初始参数的具体输入会对模型的最终结果造成巨大影响，在init中输入训练好的模型会加重GBDT的过拟合，但同时也可能得到更好的测试集结果。我们甚至可以无限套娃，让init参数中输入被训练好的GBDT模型，当然，这样做的结果往往是过拟合被放大到无法挽回了。通常来说，我们还是会选择"zero"作为init的输入。

与参数init相对的属性就是init_，当模型被拟合完毕之后，我们可以使用该属性来返回输出 $H_0$ 的评估器对象。

reg = GBR(init = None,random_state=1412)
reg.fit(X,y).init_ #返回sklearn中的玩具评估器DummyRegressor
#DummyRegressor()
reg = GBR(init = rf,random_state=1412)
reg.fit(X,y).init_
#RandomForestRegressor(max_depth=22, max_features=14, min_impurity_decrease=0,
#                      n_estimators=89, n_jobs=-1, random_state=1412,
#                      verbose=False)

当然，在init中的值是我们自己输入的值的情况下，属性init_略显鸡肋，但我们或许会预见需要该属性的具体场景，例如在建模过程中进行监控打印时、或在大量初始化模型中选择最佳初始化模型时。

1.2 使用回归器完成分类任务

GBDT与AdaBoost及随机森林的关键区别之一，是GBDT中所有的弱评估器都是回归树，因此在实际调用梯度提升树完成分类任务时，需要softmax函数或sigmoid函数对回归树输出的结果进行处理。因此，对于二分类情况来说，集成算法对样本 $x_i$ 输出的结果为：
$H(x_i) = \sum_{t=1}^\boldsymbol{\color{red}T}\phi_tf_t(x_i)$ $p(\hat{y}_i = 1 |x_i) = \sigma(H(x_i))$

其中 $\sigma$ 是sigmoid函数，当 $p(\hat{y}_i = 1 |x_i)$ 大于0.5时，样本 $x_i$ 的预测类别为1，反之则为0。

而对多分类来说，情况就比较复杂了。在讲解AdaBoost时我们说明过，二分类当中我们只需求解一个概率 $P (Y = 1)$ ，因为 $P (Y = 0) = 1 - P (Y = 1)$ ，因此 $P (Y = 1)$ 大于0.5时预测标签为1，否则预测标签为0。但在多分类当中，我们必须求解出所有标签类别所对应的概率，在所有这些概率当中，最大概率所对应的标签才是多分类的预测标签。GBDT对于多分类也只能输出集成算法回归结果 $H(x_i)$ ，因此我们需要使用softmax函数帮助我们将回归值转化为概率，而Softmax函数是接受K个连续型结果，并输出K个相对概率的函数。

一般我们在使用softmax函数时，3分类问题则需要向softmax函数输入3个值，4分类问题则需要向softmax函数输入4个值，以此类推，最终softmax函数输出的是与输入值同等数量的相对概率，而多分类算法的预测标签是相对概率最高的类别。因此，在使用softmax函数前，我们需要准备好与类别数量相当的 $H(x_i)$ 。

具体来说，当现在的问题是 $K$ 分类、且每个类别为 $[1, 2, 3 . . . k]$ 时，我们则分别按照 $y = 1, y = 2, . . ., y = k$ 进行建模，总共建立 $K$ 棵树，每棵树输出的结果为：

$H^1(x_i), H^2(x_i),...,H^k(x_i)$

总共 $K$ 个输出结果。然后，我们分别将 $H^1(x_i)$ 到 $H^k(x_i)$ 的结果输入softmax，来计算出每个标签类别所对应的概率。具体地来说，softmax函数的表达式为：

$Softmax(H^k(x)) = \frac{e^{H^k(x)}}{\sum_{k=1}^Ke^{H_k(x)}}$

其中 $e$ 为自然常数， $H$ 是集成算法的输出结果， $K$ 表示标签中的类别总数为 $K$ ，如三分类时 $K = 3$ ，四分类时 $K = 4$ ， $k$ 表示任意标签类别， $H_k$ 则表示以类别 $k$ 为真实标签进行训练而得出的 $H$ 。不难发现，Softmax函数的分子是多分类状况下某一个标签类别的H(x)的指数函数，而分母时多分类状况下所有标签类别的H(x)的指数函数之和，因此Softmax函数的结果代表了样本的预测标签为类别 $k$ 的概率。假设现在是三分类[1,2,3]，则样本 $i$ 被分类为1类的概率为：

$\begin{aligned} p^1(x_i) &= \frac{e^{H^1(x)}}{\sum_{k=1}^Ke^{H_k(x)}} \\ &= \frac{e^{H^1(x)}}{e^{H^1(x)}+e^{H^2(x)}+e^{H^3(x)}}\\ \end{aligned}$

最终得到 $K$ 个相对概率 $p^k(x_i)$ ，并求解出相对概率最高的类别。不难发现，当执行多分类时，这一计算流程中涉及到的计算量以及弱评估器数量都会远远超出二分类以及回归类问题。实际上，在执行多分类任务时，如果我们要求模型迭代10次，模型则会按照实际的多分类标签数n_classes建立10 * n_classes个弱评估器。对于这一现象，我们可以通过属性n_estimators_以及属性estimators_查看到。

n_estimators_：实际迭代次数，estimators_：实际建立的弱评估器数量

clf = GBC(n_estimators=10 #迭代次数为10次
          ,random_state=1412)
X_clf.shape #查看X与y的结果
#(1460, 79)
np.unique(y_clf) #多分类，现在为6分类
#array([0., 1., 2., 3., 4., 5.])
clf = clf.fit(X_clf,y_clf)

clf.n_estimators_ #实际迭代数量为10
#10
clf.estimators_.shape #但每次迭代时其实建立了6个评估器
#(10, 6)
clf.estimators_[0] #其中一次迭代中建立的全部评估器
# array([DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                              random_state=RandomState(MT19937) at 0x204E8C6B140),
#        DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                              random_state=RandomState(MT19937) at 0x204E8C6B140),
#        DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                              random_state=RandomState(MT19937) at 0x204E8C6B140),
#        DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                              random_state=RandomState(MT19937) at 0x204E8C6B140),
#        DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                              random_state=RandomState(MT19937) at 0x204E8C6B140),
#        DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                              random_state=RandomState(MT19937) at 0x204E8C6B140)],
#       dtype=object)

如果是二分类则不会出现这种现象

from sklearn.datasets import load_breast_cancer
X_clf2 = load_breast_cancer().data
y_clf2 = load_breast_cancer().target
np.unique(y_clf2)
#array([0, 1])
clf = GBC(n_estimators=10,random_state=1412)
clf = clf.fit(X_clf2,y_clf2)

clf.n_estimators_
#10
clf.estimators_
# array([[DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)],
#        [DecisionTreeRegressor(criterion='friedman_mse', max_depth=3,
#                               random_state=RandomState(MT19937) at 0x204E9485840)]],
#       dtype=object)

这一现象只在弱评估器为回归器的各类boosting算法中出现，对于弱评估器可以是回归树也可以是分类树的随机森林、Adaboost来说，多分类时每个类别对应的概率是在叶子节点上自然生成的。因为有此区别，因此多分类问题在随机森林上的计算可能会表现得更快。

1.3 GBDT的8种损失函数

作为基于AdaBoost改进的Boosting算法，GBDT的功绩之一是将损失函数从有限的指数损失、MSE等推广到了任意可微函数，因此GBDT的损失函数选择异常丰富，因此我们可以在调参时加入损失函数作为需要调整的参数进行考量。在sklearn中，控制具体损失函数的参数为loss。

GBDT中的损失函数因GBDT具体执行的预测任务而存在区别，同时也因标签的分布而存在区别。对于梯度提升分类树来说，loss的备选项有如下几种：

分类器中的loss：字符串型，可输入"deviance", “exponential”，默认值=“deviance”

其中"deviance"直译为偏差，特指逻辑回归的损失函数——交叉熵损失，而"exponential"则特指AdaBoost中使用的指数损失函数。对任意样本 $i$ 而言， $y_i$ 为真实标签， $\hat{y_i}$ 为预测标签， $H(x_i)$ 为集成算法输出结果， $p(x_i)$ 为基于 $H(x_i)$ 和sigmoid/softmax函数计算的概率值。则各个损失的表达式为：

二分类交叉熵损失——

$-\left( y\log p(x) + (1 - y)\log(1 - p(x)) \right)$

注意，log当中输入的一定是概率值。对于逻辑回归来说，概率就是算法的输出，因此我们可以认为逻辑回归中 $p = H (x)$ ，但对于GBDT来说， $p(x_i) = Sigmoid(H(x_i))$ ，这一点一定要注意。

多分类交叉熵损失，总共有K个类别——

$-\sum_{k=1}^Ky^*_k\log(P^k(x))$

其中， $P^k(x)$ 是概率值，对于多分类GBDT来说， $p^k(x) = Softmax(H^k(x))$ 。 $y^*$ 是由真实标签转化后的向量。例如，在3分类情况下，真实标签 $y_i$ 为2时， $y^*$ 为[ $y^*_{1}$ , $y^*_{2}$ , $y^*_{3}$ ]，取值分别为：

$y^*_{1}$	$y^*_{2}$	$y^*_{3}$
$0$	$1$	$0$

这一转化过程与AdaBoost中多分类指数损失中的转化高度相似。

二分类指数损失——

$L = e^{-yH(x)}$

多分类指数损失，总共有K个类别——

$\begin{aligned} L &=exp \left( -\frac{1}{K}\boldsymbol{y^* · H^*(x)} \right) \\ & = exp \left( -\frac{1}{K}(y^1H^1(x)+y^2H^2(x) \ + \ ... + y^kH^k(x)) \right) \end{aligned}$

需要注意，指数损失中的 $y^*$ 与交叉熵损失中的 $y^*$ 不是同样的向量。我们已经在逻辑回归的章节中详解过交叉熵损失，在AdaBoost的章节当中详解过指数损失，因此这里便不再展开赘述了。需要注意的是，一般梯度提升分类器默认使用交叉熵损失，如果使用指数损失，则相当于执行没有权重调整的AdaBoost算法。

对于梯度提升回归树来说，loss的备选项有如下几种：

回归器中的loss：字符串型，可输入{“squared_error”, “absolute_error”, “huber”, “quantile”}，默认值=“squared_error”

其中’squared_error’是指回归的平方误差，'absolute_error’指的是回归的绝对误差，这是一个鲁棒的损失函数。'huber’是以上两者的结合。'quantile’则表示使用分位数回归中的弹球损失pinball_loss。对任意样本 $i$ 而言， $y_i$ 为真实标签， $H(x_i)$ 为预测标签，则各个损失的表达式为：

平方误差——

$\sum{(y_i - H(x_i))^2}$

绝对误差——

$\sum{|y_i - H(x_i)|}$

Huber损失——

$\sum{l(y_i,H(x_i))}$

其中 $l=\left\{\begin{array}{ll} \frac{1}{2}\left(y_{i}-H\left(x_{i}\right)\right)^{2}, & \left|y_{i}-H\left(x_{i}\right)\right| \leq \alpha \\ \alpha\left(\left|y_{i}-H\left(x_{i}\right)\right|-\frac{\alpha}{2}\right), & \left|y_{i}-H\left(x_{i}\right)\right|>\alpha \end{array}, \quad \alpha \in(0,1)\right.$

quantile损失——

$\sum{l(y_i,H(x_i))}$

其中
$l=\left\{\begin{array}{ll} \alpha\left(y_{i}-H\left(x_{i}\right)\right), & y_{i}-H\left(x_{i}\right)>0 \\ 0, & y_{i}-H\left(x_{i}\right)=0, \quad \alpha \in(0,1) \\ (1-\alpha)\left(y_{i}-H\left(x_{i}\right)\right), & y_{i}-H\left(x_{i}\right)<0 \end{array}\right.$

其中 $\alpha$ 是需要我们自己设置的超参数，由参数alpha控制。在huber损失中，alpha是阈值，在quantile损失中，alpha用于辅助计算损失函数的输出结果，默认为0.9。

=更新警告=
在sklearn1.0版本及后续版本当中，损失函数"ls"与"lad"被删除了，其中"ls"的功能被"squared_error"取代，而"lad"被"absolute_error"取代。如果你在运行代码时，发现你的参数默认值、参数名称与课件中不相同，或者在运行过程中出现报错、警告等现象，你可能需要更新你的sklearn。

对于相同的样本、相同的差异，不同损失函数给出的损失值不同

yi = 10
Hx = 8

绝对 - 2 #一视同仁
平方 - 4 - 差异>1，误差被放大，差异<1，误差是会被缩小 #关注差异大的样本，忽略差异小的样本

如何选择不同的损失函数？

GBDT是工业应用最广泛的模型，工业数据大部分都极度偏态、具有长尾，因此GBDT必须考虑离群值带来的影响。数据中的离群值会极大程度地影响模型地构建，当离群值在标签当中、而我们是依赖于减小损失函数来逐渐构建算法时，这种影响会前所未有地大。因此Boosting是天生更容易被离群值影响的模型、也更擅长学习离群值的模型。

举例来说，若离群值的标签为1000，大部分正常样本的标签在0.1~0.2之间，算法一定会异常努力地学习离群值的规律，因为将离群值预测错误会带来巨大的损失。在这种状况下，最终迭代出的算法可能是严重偏离大部分数据的规律的。同样，我们也会遇见很多离群值对我们很关键的业务场景：例如，电商中的金额离群用户可能是VIP用户，风控中信用分离群的用户可能是高风险用户，这种状况下我们反而更关注将离群值预测正确。不同的损失函数可以帮助我们解决不同的问题。

当高度关注离群值、并且希望努力将离群值预测正确时，选择平方误差

这在工业中是大部分的情况。在实际进行预测时，离群值往往比较难以预测，因此离群样本的预测值和真实值之间的差异一般会较大。MSE作为预测值和真实值差值的平方，会放大离群值的影响，会让算法更加向学习离群值的方向进化，这可以帮助算法更好地预测离群值。
努力排除离群值的影响、更关注非离群值的时候，选择绝对误差

MAE对一切样本都一视同仁，对所有的差异都只求绝对值，因此会保留样本差异最原始的状态。相比其MSE，MAE对离群值完全不敏感，这可以有效地降低GBDT在离群值上的注意力。
试图平衡离群值与非离群值、没有偏好时，选择Huber或者Quantileloss

Huberloss损失结合了MSE与MAE，在Huber的公式中，当预测值与真实值的差异大于阈值时，则取绝对值，小于阈值时，则取平方。在真实数据中，部分离群值的差异会大于阈值，部分离群值的差异会小于阈值，因此比起全部取绝对值的MAE，Huberloss会将部分离群值的真实预测差异求平方，相当于放大了离群值的影响（但这种影响又不像在MSE那样大）。因此HuberLoss是位于MSE和MAE之间的、对离群值相对不敏感的损失。
属性loss_

reg = GBR(n_estimators=10,random_state=1412).fit(X,y)
reg.loss_ #返回具体的损失函数对象，而不会返回公式
#

总结一下，在整个迭代过程中，我们涉及到了如下参数及属性：

2 弱评估器结构

在讲解决策树时，我们已经系统地讲解过弱评估器相关的一系列减枝参数，而在讲解随机森林时，我们又明确了这些减枝参数如何影响集成算法。因此我们对于Boosting算法中控制弱评估器的参数可谓非常熟悉：

这些参数在随机森林中的用法与默认值与决策树类DecisionTreeRegressor中完全一致，专门用于对决策树进行剪枝、控制单个弱评估器的结构，考虑到大家在决策树中已经充分掌握这些参数，我们不再对这些参数一一进行详细说明了。在这里，需要重点说明的有两部分内容，一部分梯度提升树中默认的弱评估器复杂度所带来的问题，另一部分则是梯度提升树独有的不纯度衡量指标。

2.1 梯度提升树中的弱评估器复杂度

max_depth

虽然我们非常熟悉控制弱评估器结构的各个参数，但在实际应用任意Boosting算法时，我们还需进一步了解算法在这些参数上的默认值，以了解该算法留给我们的调参余地是否较大。

在随机森林中我们讲到，森林中任意控制过拟合的参数基本都处于“关闭状态”，例如max_depth的默认值为None，表示不限深度，min_samples_splits的默认值为2，等同于不限制分枝，因此随机森林中长出的树都是剪枝前的树，也因此当随机森林算法处于过拟合状态时，我们可以使用粗或精的方法对弱评估器进行大刀阔斧的剪枝，当随机森林中的树被剪掉之后，可以很好的限制过拟合。然而这种情况并不适用于任何集成算法，尤其是以AdaBoost为基础的Boosting算法一族。

在原始AdaBoost理论中，AdaBoost中使用的弱分类器都是最大深度为1的树桩或最大深度为3的小树苗，因此基于AdaBoost改进的其他Boosting算法也有该限制，即默认弱评估器的最大深度一般是一个较小的数字。对GBDT来说，无论是分类器还是回归器，默认的弱评估器最大深度都为3，因此GBDT默认就对弱评估器有强力的剪枝机制。

当随机森林处于过拟合状态时，还可通过降低弱评估器复杂度的手段控制过拟合，但GBDT等Boosting算法处于过拟合状态时，便只能从数据上下手控制过拟合了（例如，使用参数max_features，在GBDT中其默认值为None），毕竟当max_depth已经非常小时，其他精剪枝的参数如min_impurity_decrease一般发挥不了太大的作用。

也因此，通常认为Boosting算法比Bagging算法更不容易过拟合，一般在相似的数据上，Boosting算法表现出的过拟合程度会较轻。

2.2 弗里德曼均方误差

不纯度衡量指标criterion

criterion是树分枝时所使用的不纯度衡量指标。在sklearn当中，GBDT中的弱学习器 $f$ 是CART树，因此每棵树在建立时都依赖于CART树分枝的规则进行建立。CART树每次在分枝时都只会分为两个叶子节点（二叉树），它们被称为左节点(left)和右节点(right)。在CART树中进行分枝时，我们需要找到令左右节点的不纯度之和最小的分枝方式。通常来说，我们求解父节点的不纯度与左右节点不纯度之和之间的差值，这个差值被称为不纯度下降量(impurity decrease)。不纯度的下降量越大，该分枝对于降低不纯度的贡献越大。

对GBDT来说，不纯度的衡量指标有2个：弗里德曼均方误差friedman_mse与平方误差squared_error。其中平方误差我们非常熟悉，弗里德曼均方误差是由Friedman在论文《贪婪函数估计：一种梯度提升机器》（GREEDY FUNCTION APPROXIMATION:
A GRADIENT BOOSTING MACHINE）中提出的全新的误差计算方式。遗憾的是，在论文当中，Friedman并没有提供弗里德曼均方误差的公式本身，而只提供了使用弗里德曼均方误差之后推导出的不纯度下降量的公式。该公式如下：

基于弗里德曼均方误差的不纯度下降量

$\frac{w_lw_r}{w_l \space + \space w_r} * \left( \frac{\sum_l{(r_i - \hat{y_i})^2}}{w_l} - \frac{\sum_r{(r_i - \hat{y_i})^2}}{w_r}\right)^2$

其中 $w$ 是左右叶子节点上的样本量，当我们对样本有权重调整时， $w$ 则是叶子节点上的样本权重。 $r_i$ 大多数时候是样本i上的残差（父节点中样本i的预测结果与样本i的真实标签之差），也可能是其他衡量预测与真实标签差异的指标， $\hat{y_i}$ 是样本i在当前子节点下的预测值。所以这个公式其实可以解读成：

左右叶子节点上样本量的调和平均 * (左叶子节点上均方误差 - 右叶子节点上的均方误差)^2

根据论文中的描述，弗里德曼均方误差使用调和平均数（分子上相乘分母上相加）来控制左右叶子节点上的样本数量，相比普通地求均值，调和平均必须在左右叶子节点上的样本量/样本权重相差不大的情况下才能取得较大的值（F1 score也是用同样的方式来调节Precision和recall）。这种方式可以令不纯度的下降得更快，让整体分枝的效率更高。

20
(10，10)
(5,5)(5,5)
(2,3)(3,2)(2,3)(3,2)

20
(2,18)
   (2,16)
      (2,14)
         (2,12)
           ...

同时，在决策树进行分枝时，一般不太可能直接将所有样本分成两个不纯度非常低的子集（分别位于两片叶子上），相对的，树会偏向于建立一个不纯度非常非常低的子集，然后将剩下无法归入这个低不纯度子集的样本全部打包成另外一个子集。因此直接使用两个子集之间的MSE差距来衡量不纯度的下降量非常聪明，如果两个子集之间的MSE差异很大，则说明其中一个子集的MSE一定很小，对整体分枝来说是更有利的。同样非常遗憾的是，Friedman并没有在为我们提供完整数学证明，以佐证刚才所说的观点。

MSE - 不纯度衡量指标
20 - 父节点不纯度100
(10，10)- 不纯度50 - (0，50)
     (5，5) - 不纯度25 - (0，25)
请问有多少个样本被分到了纯度为0的叶子节点上呢？ 15

20 - 父节点不纯度100
(10，10)- 不纯度50 - (25，25)
(5，5)(5，5) - 不纯度25 - (6.25，6.25)(6.25，6.25)
请问有多少个样本被分到了纯度为0的叶子节点上呢？ 0

除了Friedman_mse之外，我们也可以使用普通的平方误差作为不纯度的衡量。使用普通平方误差时，我们可以直接计算父节点的平方误差与子节点平方误差的加权求和之间的差异。

平方误差的不纯度下降量

$\frac{\sum_p{(r_i - \hat{y_i})^2}}{w_l + w_r} - (\frac{w_l}{w_l+w_r} * \sum_l{(r_i - \hat{y_i})^2} + \frac{w_r}{w_l+w_r} * \sum_r{(r_i - \hat{y_i})^2})$

大部分时候，使用弗里德曼均方误差可以让梯度提升树得到很好的结果，因此GBDT的默认参数就是Friedman_mse。不过许多时候，我们会发现基于平方误差的分割与基于弗里德曼均方误差的分割会得到相同的结果。

3 梯度提升树的提前停止

在学习机器学习理论与方法时，我们极少提及迭代的提前停止问题。在机器学习中，依赖于迭代进行工作的算法并不算多，同时课程中的数据量往往也比较小，因此难以预见需要提前停止迭代以节省计算资源或时间的情况。但对于工业界使用最广泛的GBDT而言，提前停止是需要考虑的关键问题。

对于任意需要迭代的算法，迭代的背后往往是损失函数的最优化问题。例如在逻辑回归中，我们在进行梯度下降的迭代时，是希望找到交叉熵损失函数的最小值；而在梯度提升树中，我们在一轮轮建立弱评估器过程中，也是希望找到对应损失函数的最小值。理想状态下，无论使用什么算法，只要我们能够找到损失函数上真正的最小值，那模型就达到“收敛”状态，迭代就应该被停止。

然而遗憾的是，我们和算法都不知道损失函数真正的最小值是多少，而算法更不会在达到收敛状态时就自然停止。在机器学习训练流程中，我们往往是通过给出一个极限资源来控制算法的停止，比如，我们通过超参数设置允许某个算法迭代的最大次数，或者允许建立的弱评估器的个数。因此无论算法是否在很短时间内就锁定了足够接近理论最小值的次小值、或者算法早已陷入了过拟合状态、甚至学习率太低导致算法无法收敛，大多数算法都会持续（且无效地）迭代下去，直到我们给与的极限资源全部被耗尽。对于复杂度较高、数据量较大的Boosting集成算法来说，无效的迭代常常发生，因此作为众多Boosting算法的根基算法，梯度提升树自带了提前停止的相关超参数。另外，逻辑回归看起来会自然停止，是因为逻辑回归内置提前停止机制。

我们根据以下原则来帮助梯度提升树实现提前停止：

当GBDT已经达到了足够好的效果（非常接近收敛状态），持续迭代下去不会有助于提升算法表现
GBDT还没有达到足够好的效果（没有接近收敛），但迭代过程中呈现出越迭代算法表现越糟糕的情况
虽然GBDT还没有达到足够好的效果，但是训练时间太长/速度太慢，我们需要重新调整训练

第三种情况可以通过参数verbose打印结果来观察，如果GBDT的训练时间超过半个小时，建树平均时长超出1分钟，我们就可以打断训练考虑重调参数。前两种情况则比较复杂，我们首先必须理解什么叫做“足够好的效果”。在GBDT迭代过程中，只要损失函数的值持续减小、或验证集上的分数持续上升，我们就可以认为GBDT的效果还有提升空间。在实际训练过程中，刚开始训练时，测试集和训练集上的损失一般都很高（有时，训练集上的损失甚至比测试集上的损失还高，这说明模型严重欠训练），但随着训练次数的增多，两种损失都会开始快速下降，一般训练集下降得更快，测试集下降得缓慢。直到某一次迭代时，无论我们如何训练，测试集上的损失都不再下降，甚至开始升高，此时我们就需要让迭代停下。

如下图所示，下图中横坐标为迭代次数，纵坐标为损失函数的值。当测试集上的损失不再下降、持续保持平稳时，满足条件1，继续训练会浪费训练资源，迭代下去模型也会停滞不前，因此需要停止（左图）。当测试集上的损失开始升高时，往往训练集上的损失还是在稳步下降，继续迭代下去就会造成训练集损失比测试集损失小很多的情况，也就是过拟合（右侧），此时满足条件2，也需要提前停止。在过拟合之前及时停止，能够防止模型被迭代到过拟合状况下。

在实际数据训练时，我们往往不能动用真正的测试集进行提前停止的验证，因此我们需要从训练集中划分出一小部分数据，专用于验证是否应该提前停止。那我们如何找到这个验证集损失不再下降、准确率不再上升的“某一时间点”呢？此时，我们可以规定一个阈值，例如，当连续n_iter_no_change次迭代中，验证集上损失函数的减小值都低于阈值tol，或者验证集的分数提升值都低于阈值tol的时候，我们就令迭代停止。此时，即便我们规定的n_estimators或者max_iter中的数量还没有被用完，我们也可以认为算法已经非常接近“收敛”而将训练停下。这种机制就是提前停止机制Early Stopping。这种机制中，需要设置阈值tol，用于不断检验损失函数下降量的验证集，以及损失函数连续停止下降的迭代轮数n_iter_no_change。在GBDT当中，这个流程刚好由以下三个参数控制：

validation_fraction：从训练集中提取出、用于提前停止的验证数据占比，值域为[0,1]。
n_iter_no_change：当验证集上的损失函数值连续n_iter_no_change次没有下降或下降量不达阈值时，则触发提前停止。平时则设置为None，表示不进行提前停止。
tol：损失函数下降的阈值，默认值为1e-4，也可调整为其他浮点数来观察提前停止的情况。

reg1 = GBR(n_estimators=100
          ,validation_fraction=0.1,n_iter_no_change=3,tol=0.01
          ,random_state=1412).fit(X,y)
reg2 = GBR(n_estimators=100,random_state=1412).fit(X,y)

reg1.n_estimators_ #打开提前停止
#63
reg2.n_estimators_ #关闭提前停止
#100

提前停止pk不提前停止

import time
from sklearn.model_selection import train_test_split

Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.3,random_state=1412)

start = time.time()
reg1 = GBR(n_estimators=1000
          ,validation_fraction=0.2,n_iter_no_change=10,tol=0.001
          ,random_state=1412).fit(Xtrain,Ytrain)
print(time.time()-start)
#0.369081974029541

start = time.time()
reg2 = GBR(n_estimators=1000,random_state=1412).fit(Xtrain,Ytrain)
print(time.time()-start)
#3.9668924808502197

reg1.n_estimators_ #打开提前停止
#109
reg2.n_estimators_ #关闭提前停止
#1000
reg1.score(Xtest,Ytest) #R2
#0.897711170231429
reg2.score(Xtest,Ytest)
#0.89927123751538

什么时候使用提前停止呢？一般有以下几种场景：

当数据量非常大，肉眼可见训练速度会非常缓慢的时候，开启提前停止以节约运算时间
n_estimators参数范围极广、可能涉及到需要500~1000棵树时，开启提前停止来寻找可能的更小的n_estimators取值
当数据量非常小，模型很可能快速陷入过拟合状况时，开启提前停止来防止过拟合

总结：

类型	参数
提前停止	validation_fraction：从训练集中提取出、用于提前停止的验证数据占比 n_iter_no_change：当验证集上的损失函数值连续n_iter_no_change次没有下降或下降量不达阈值时，则触发提前停止 tol：损失函数下降量的最小阈值

4 梯度提升树的袋外数据

在讲解梯度提升树的基本原理时，我们提到梯度提升树结合了Boosting和Bagging中的重要思想。受到随机森林的启发，梯度提升树在每次建树之前，也允许模型对于数据和特征进行随机有放回抽样，构建与原始数据集相同数据量的自助集。在梯度提升树的原理当中，当每次建树之前进行随机抽样时，这种梯度提升树叫做随机提升树（Stochastic Gradient Boosting）。相比起传统的梯度提升树，随机提升树输出的结果往往方差更低，但偏差略高。如果我们发现GBDT的结果高度不稳定，则可以尝试使用随机提升树。

在GBDT当中，对数据的随机有放回抽样比例由参数subsample确定，当该参数被设置为1时，则不进行抽样，直接使用全部数据集进行训练。当该参数被设置为(0,1)之间的数字时，则使用随机提升树，在每轮建树之前对样本进行抽样。对特征的有放回抽样比例由参数max_features确定，随机模式则由参数random_state确定，这两个参数在GBDT当中的使用规则都与随机森林中完全一致。

需要注意的是，如果subsample<1，即存在有放回随机抽样时，当数据量足够大、抽样次数足够多时，大约会有37%的数据被遗漏在“袋外”（out of bag）没有参与训练。在随机森林课程当中，我们详细地证明了37%的由来，并且使用这37%的袋外数据作为验证数据，对随机森林的结果进行验证。在GBDT当中，当有放回随机抽样发生时，自然也存在部分袋外数据没有参与训练。这部分数据在GBDT中被用于对每一个弱评估器的建立结果进行验证。

具体地来说，每建立一棵树，GBDT就会使用当前树的袋外数据对建立新树后的模型进行验证，以此来对比新建弱评估器后模型整体的水平是否提高，并保留提升或下降的结果（损失函数）。这个过程相当于在GBDT迭代时，不断检验损失函数的值并捕捉其变化的趋势。在GBDT当中，这些袋外分数的变化值被储存在属性oob_improvement_中，同时，GBDT还会在每棵树的训练数据上保留袋内分数（in-bag）的变化，且储存在属性train_score_当中。也就是说，即便在不做交叉验证的情况下，我们也可以简单地通过属性oob_improvement与属性train_score_来观察GBDT迭代的结果。我们来看具体的例子：

reg = GBR(n_estimators=500,learning_rate=0.1
          ,subsample=0.3 #每次建树只抽取30%的数据进行训练
          ,random_state=1412).fit(X,y)

reg.oob_improvement_.shape #袋外数据上的损失函数变化量
#(500,)
reg.train_score_.shape #训练集上的损失函数变化量
#(500,)

plt.plot(range(500),reg.oob_improvement_,color="red",label="Validation")
plt.plot(range(500),reg.train_score_,color="k",label="Train")
plt.title("Decrease in MSE")
plt.legend();

不难发现，随着迭代次数的增加，训练集上的损失函数一直有下降量，虽然下降量在逐渐变小，但是损失函数的确是在持续减下降的，相对的，验证集上的结果则在少有波动之后就维持在0附近不动了，也就是说模型的泛化能力在很早的时候就预见了瓶颈。如果我们开启提前停止，恐怕实际的迭代次数会远远少于我们给与的500次：

reg = GBR(n_estimators=500,learning_rate=0.1
          ,tol=1e-6 #非常非常低的阈值
          ,n_iter_no_change=5
          ,validation_fraction = 0.3
          ,subsample=0.3
          ,random_state=1412).fit(X,y)

reg.oob_improvement_.shape #实际我只迭代了69次
#(69,)

plt.plot(range(69),reg.oob_improvement_,color="red",label="Validation")
plt.plot(range(69),reg.train_score_,color="k",label="Train")
plt.title("Decrease in MSE with early stopping")
plt.legend();

不难发现，袋外数据的设置可以帮助我们快速把握模型的迭代情况，在当前数据集上，设置大约50以下的迭代次数，就足够使用了。因此在我们对GBDT进行超参数调优时，我们也有了天然的n_estimators的范围设置。当然，当我们调整其他参数（如learning_rate或者max_depth）之后，n_estimators的范围可能受到影响，但我们已经有了50这个可以参考的点。

奇怪的是，袋外数据是天然的验证数据，而提前停止时需要使用验证集的功能，但sklearn中并未配置直接使用袋外数据来进行提前停止的功能。如果能够使用袋外数据进行提前停止，则可以使用更多数据进行训练，这将会更加有利于模型的学习。

总结一下，与弱评估器训练数据相关的参数有：

类型	参数
弱评估器的训练数据	参数： subsample：每次建树之前，从全数据集中进行有放回随机抽样的比例 max_features：每次建树之前，从全特征中随机抽样特征进行分枝的比例 random_state：随机数种子，控制整体随机模式属性： oob_improvement：每次建树之后相对于上一次袋外分数的增减 train_score_：每次建树之后相对于上一次验证时袋内分数的增减

类型

参数

弱评估器的训练数据

参数：

subsample：每次建树之前，从全数据集中进行有放回随机抽样的比例

max_features：每次建树之前，从全特征中随机抽样特征进行分枝的比例

random_state：随机数种子，控制整体随机模式

属性：

oob_improvement：每次建树之后相对于上一次袋外分数的增减

train_score_：每次建树之后相对于上一次验证时袋内分数的增减

5 缺失的class_weight与n_jobs

类型	参数/属性
迭代过程	参数：n_estimators, learning_rate, loss, alpha, init 属性：loss_, init_, estimators_
弱评估器结构	criterion, max_depth, min_samples_split, min_samples_leaf, min_weight_fraction_leaf, max_leaf_nodes, min_impurity_decrease
提前停止	参数：validation_fraction, n_iter_no_change, tol 属性：n_estimators_
弱评估器的训练数据	参数：subsample, max_features, random_state 属性：oob_improvement, train_score_
其他	ccp_alpha, warm_start

到这里，我们已经讲解完毕了梯度提升回归树以及梯度提升分类树中的所有参数。需要注意的是，作为最常用的集成算法之一，sklearn中的GBDT分类器并没有提供调节样本不均衡问题的参数class_weights，也不存在并行参数n_jobs。

不在样本不均衡问题上做文章，或许跟GBDT的弱评估器都是回归器有关，又或许是因为GBDT拥有非常强的学习能力，因此不会轻易被样本不均衡问题左右，也可能是因为sklearn在配置GBDT时存在一些失误。但务必要注意，如果样本存在严重不均衡的状况，那我们可能会考虑不使用梯度提升树，或者先对数据进行样本均衡的预处理后，再使用梯度提升树。

GBDT中的树必须一棵棵建立、且后面建立的树还必须依赖于之前建树的结果，因此GBDT很难在某种程度上实现并行，因此sklearn并没有提供n_jobs参数给Boosting算法使用。更加先进的Boosting算法们已经实现了分枝并行，但sklearn还无法实现这个功能，因此GBDT的计算速度难以得到加速，这是sklearn实现GBDT无法跨越的一个缺陷。

你可能感兴趣的:(机器学习,算法,机器学习,python,gbdt)

Python 训练营打卡 Day 50 2401_86382089 Python打卡 python
预训练模型CBAM注意力现在我们思考下，是否可以对于预训练模型增加模块来优化其效果，这里我们会遇到一个问题：预训练模型的结构和权重是固定的，如果修改其中的模型结构，是否会大幅影响其性能。其次是训练的时候如何训练才可以更好的避免破坏原有的特征提取器的参数。所以今天的内容，我们需要回答2个问题。resnet18中如何插入cbam模块？采用什么样的预训练策略，能够更好的提高效率？可以很明显的想到，如果是
Python训练营打卡 Day50
预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调预训练模型+CBAM模块知识点回顾ResNet结构解析残差块：ResNet的核心是残差块，它通过残差连接解决了深层网络的梯度消失问题。残差块允许梯度直接传播到后面的层，从而使得网络能够训练得更深。网络结构：ResNet由多个残差块组成，每个残差块包含两个或三个卷积层，以及一个
快速排序算法追烽少年x 数据结构数据结构
快速排序算法快速排序是一种高效的排序算法，其核心思想是通过分治法将数组分成两部分，一部分小于某个基准值，另一部分大于基准值，然后递归地对这两部分进行排序。以下是快速排序算法的C++实现：快速排序的C++实现代码：#include#includeusingnamespacestd;voidSwap(int&a,int&b){intnTemp=a;a=b;b=nTemp;}intPartition(v
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
Python爬虫实战：研究chardet库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 chardet
1.引言1.1研究背景与意义在互联网信息爆炸的时代，网络数据采集技术已成为信息获取、数据分析和知识发现的重要手段。Python作为一种高效的编程语言，凭借其丰富的第三方库和简洁的语法，成为爬虫开发的首选语言之一。然而，在网络数据采集中，文本编码的多样性和不确定性一直是困扰开发者的主要问题之一。不同网站可能采用不同的编码方式（如UTF-8、GBK、GB2312等），甚至同一网站的不同页面也可能使用不
区块链技术核心组件及应用架构的全面解析
区块链技术是一套融合密码学、分布式系统与经济激励的复合型技术体系，以下是其核心组件及应用架构的全面解析：一、区块链核心技术栈1.分布式账本技术（DLT）核心原理：多节点共同维护不可篡改的数据链数据结构：哈希指针哈希指针区块N区块N+1区块N+2关键创新：默克尔树（MerkleTree）实现高效数据验证2.密码学保障技术算法示例应用场景非对称加密ECC/secp256k1,RSA数字签名（设备身份认
03每日简报20250705 Alvin_YD 每日简报人工智能娱乐社交电子媒体传媒
每日简报新闻简报：AI行业信任危机浮现标题：知名科技作者AlbertoRomero发文《我对AI行业正在失去所有信任》来源：TheAlgorithmicBridge（算法之桥）核心内容：作者立场：长期支持AI技术的作者AlbertoRomero公开表达对行业信任的崩塌，称"作为一个支持者，我本不愿有这种感受"。行业痛点：未具体说明的行业乱象导致公众信任度下降暗示AI发展过程中存在伦理或透明度问题传
Kafka-python 核心 API 深度解析：BrokerConnection 与 ClusterMetadata 的全方位指南佑瞻 python工程化 kafka python 分布式
在Kafka应用开发中，我们时常会面临连接管理混乱、元数据获取不及时等问题，这些问题的根源往往在于对底层API的理解不够深入。今天我们将聚焦kafka-python客户端中两个核心类——BrokerConnection和ClusterMetadata，通过剖析其核心功能与应用场景，帮助大家建立系统化的Kafka连接与元数据管理知识体系。BrokerConnection：Kafka连接管理的中枢神经
KafkaAdminClient 技术详解：Python 操作 Kafka 集群的管理接口佑瞻 python工程化 python kafka
一、KafkaAdminClient基础概念KafkaAdminClient是kafka-python客户端提供的集群管理类，用于通过编程方式管理Kafka集群资源。其核心定位是为开发者提供一套标准化接口，实现对主题、分区、ACL、消费者组等资源的全生命周期管理。核心特性说明：接口定位：专门用于集群资源管理，区别于KafkaConsumer/KafkaProducer的数据读写功能版本要求：要求B
Python日志模块
Python日志模块学习教程：b站王铭东老师Python中logging模块能够完成相关信息的记录，在debug时使用它事半功倍一、模块介绍日志级别DEBUG、INFO、WARNING、ERROR、CRITICAL默认是WARNING，当在WARNING或其之上时才被跟踪日志格式logging.basicConfig函数中，可以指定日志的输出格式format，这个参数可以输出很多有用的信息一般使用
正则表达式咸鱼时日翻身正则表达式
是指定一组与之匹配的字符串，限定符号a*a出现0或者多次a+a出现1次或者多次a？a出现0次或者1次a{2,5}出现在2到5次之间或运算法（cat|dog）匹配cat或者dog字符类[abz]+表示匹配的字符只能是中括号中的字母如果使用了^则为取反符号元字符、/d代表数字字符/w代表英文字符数字加上下划线/s代表tab和换行符其中/加大写的DWS则表示取反符号.表示任意字符不包括换行符号^a匹配行
Python爬虫笔记汇总大厂_jvS python 爬虫笔记
except:print(“爬取失败”)4.网络图片爬取及存储#实例4：爬取图片‘’‘r.content#表示返回内容的二进制格式’‘’importrequestsimportosroot=‘./Pic/’path=root+url.split(‘/’)[-1].split(‘@’)[0]url=‘http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AW
定位问题position
1.relative相对对位：占有原来的位置。以浏览器为准定位进行移动top/left/right/bottom2.absolute绝对定位：不占有原来的位置（脱标）如果没有祖先元素或者祖先元素没有定位，以浏览器为准定位；如果祖先元素有定位（相对、绝对、固定），则以最近一级的有定位祖先元素为参考点移动位置；加了绝对定位的盒子不能通过margin：0auto垂直水平居中，但可以通过算法居中left：
python-for-android 使用教程沈昊冕Nadine
python-for-android使用教程python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目介绍python-for-android（p4a）是一个开发工具，用于将Python应用打包成可以在Android设
【Python】邮件处理2 宅男很神经 python 开发语言
7.Pythonemail库深度解析：MIME邮件构建与解析的艺术在前面的章节中，我们深入探讨了电子邮件的底层协议（SMTP,POP3,IMAP）以及如何使用imaplib库从服务器接收和管理邮件。然而，邮件内容的实际格式和结构并非由这些传输协议定义，而是由MIME(MultipurposeInternetMailExtensions)标准规范。Python的email库是处理MIME格式邮件的强
【算法刷题记录（简单题）002】字符串字符匹配（java代码实现）挺菜的 java 算法开发语言
一、题目描述对于给定的字符串s和t，检查s中的所有字符是否都在t中出现。（一）输入描述第一行输入一个长度为1≤len(s)≤200、仅由小写字母组成的字符串s。第二行输入一个长度为1≤len(t)≤200、仅由小写字母组成的字符串t。（二）输出描述如果s中的所有字符都在t中出现，则输出true，否则输出false。（三）示例输入：bcabc输出：true二、题目解答（一）解题思路1.使用HashM
C语言数据结构与算法专栏目录 CodeAllen嵌入式嵌入式 C语言数据结构算法
后序会开一个《嵌入式数据结构专栏》主要为了学习嵌入式的同学，软件能力提升和大厂面试能力，感谢大家关注！直达专栏：https://blog.csdn.net/super828/category_11083370.html《C语言数据结构与算法》专栏已经更新完毕，共计72篇分享，后期会逐渐修改错误并添加内容0数据之间的关系有哪些？1如何度量一个算法的好坏？2常见的时间复杂度实例
分布式系统核心基石：CAP定理、BASE理论与一致性算法深度解析 Eqwaak00 分布式系统设计实战算法 python java
一、CAP定理：分布式系统的设计边界1.1核心定义与经典三角CAP定理（Brewer'sTheorem）指出，在分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（PartitionTolerance）三者不可兼得。（注：若需实际配图，可替换为Mermaid流程图或专业示意图）三大特性详解：一致性（C）：所有节点在同一时间看到的数据完全相同（强一致性）。
LintCode算法刷题记录（入门 + 简单部分）隔壁敲代码的小王算法刷题笔记算法 LintCode
由于是初学者，实现的方法都很简单，暂时不考虑效率，之后（可能）会更新1.A+B问题给出两个整数aa和bb,求他们的和。样例如果a=1并且b=2，返回3。挑战显然你可以直接returna+b，但是你是否可以挑战一下不这样做？（不使用++等算数运算符）说明a和b都是32位整数么？是的我可以使用位运算符么？当然可以注意事项你不需要从输入流读入数据，只需要根据aplusb的两个参数a和b，计算他们的和并返
Python多线程vs多进程：一场关于效率的“宫斗戏“，谁才是你的真命天子？
清晨的咖啡还冒着热气，你盯着监控面板上飙升的CPU使用率，键盘敲出的代码在"多线程"和"多进程"之间反复横跳——这可能是每个Python开发者都会经历的"效率抉择时刻"。当项目从"能跑就行"进化到"必须快跑"，多线程与多进程这对"欢喜冤家"就会跳出来，用各自的"十八般武艺"让你挑花眼。今天咱们就来扒开表象，从底层机制到实战案例，彻底搞懂这对CP的爱恨纠葛。一、GIL：多线程头顶的"紧箍咒"要聊多线
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
C++17 并行算法：std::execution::par
在多核处理器普及的今天，如何高效利用硬件资源成为提升软件性能的关键。C++17引入的并行算法库（ParallelAlgorithms）为开发者提供了一套标准化的并行编程接口，通过简单的策略切换即可将顺序算法转换为并行执行。本文将深入探讨C++17并行算法中最核心的执行策略std::execution::par，从基础概念到高级应用，全面解析其原理、用法及最佳实践。一、C++17并行算法概述1.1并
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
数据存储：使用Python存储数据到redis详解数据知道爬虫和逆向教程 python redis 数据库非关系型数据库
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一.安装相关库和进行连接二、存储数据到Redis2.1存储字符串2.2存储列表2.3存储集合2.4有序集合类型2.5存储哈希三、数据的持久化与过期设置3.1持久化3.2过期设置四、其它操作4.1删除操作4.2关闭连接4.3使用连接池4.4处理异常五、总结在Python中，我们可以使用redis-py库来与Redis数据库进行交互。以下是如何将数据
Python 中的循环小羊苏八 python 开发语言
目录前言一.for循环二.while循环三.break与continue四.循环与else总结前言Python中的循环：for、while、break、continue与循环中的else。在Python中，循环是控制程序流程的重要结构之一。它允许我们重复执行一段代码，直到满足特定条件为止。Python提供了两种主要的循环结构：for循环和while循环。此外，break和continue语句可以用
Python——pyautogui打地鼠游戏自动化脚本（基于图片定位）
以4399小游戏为例：4399游戏网importpyautoguiimportkeyboardimporttimeimportrandomimportloggingfromPILimportImageGrabimportos#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname)s-%(message)
求平方根：牛顿迭代法 mjfztms leetcode 算法
应用牛顿迭代法求解方程近似解，收敛速度很快牛顿迭代法求解平方根给你一个非负整数x，计算并返回x的算术平方根n，结果只保留整数部分。算法流程图由题意得，n2=xn^2=xn2=x，即为对f(n)=n2−xf(n)=n^2-xf(n)=n2−x求解。第一步：易得：x2−x1=0−f(x1)f′(x1)x_2-x_1=\frac{0-f(x_1)}{f'(x_1)}x2−x1=f′(x1)0−f(x1)
【秋招算法】2025 届搜广推方向求职历程（SSP、头部计划）秋冬无暖阳° 搜广推等—算法面经面试职场和发展算法
【秋招算法】2025届搜广推方向求职历程（SSP、头部计划）文章目录【秋招算法】2025届搜广推方向求职历程（SSP、头部计划）1.背景2.日常实习3.暑期实习3.1暑期BG3.2暑期记录4.秋招4.1秋招BG4.2转正4.3头部4.4提前批4.5正式批5.面试记录5.1Coding5.2其他高频编程题5.3常见八股、面经6.关于搜广推1.背景关于日常实习、暑期实习、提前批，秋招、春招、补招何为大
最小二乘法(OLS)python 实践
参考链接：1，基本原理：https://zhuanlan.zhihu.com/p/1492809412，python实现：https://zhuanlan.zhihu.com/p/22692029实现结果线性回归：#--coding:utf-8--#简单线性回归demoimportnumpyasnpimportmatplotlib.pyplotaspltimportstatsmodels.apia
推荐算法（推广搜）——广告和推荐有什么不同？
导语近几年新兴起一个行业：推广搜。即推荐、广告、搜索算法的简称。各大厂都隐隐将其作为公司核心技术来发展。此文将带领大家探秘广告和推荐有什么区别以及其相似处。再此强调一下，广告算法里面的推荐广告和自然推荐结果里的推荐系统进行对比，但因为广告算法里面还有“搜索广告”，搜索广告和推荐系统差异性就太大了，这里不做讨论。一、不同点1.1本质不同推荐广告和自然推荐本质中要处理的群体和衡量的利益完全不一样。（图
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {