Juicy B

【集成学习系列教程3】GBDT分类算法原理及sklearn应用

文章目录

- 5 GBDT二分类算法
- - 5.1 概述
  - 5.2 算法详解
  - - 5.2.1 逻辑回归预测函数
    - 5.2.2 最大似然估计
    - 5.2.3 逻辑回归损失函数
    - 5.2.4 算法的具体步骤
  - 5.3 sklearn中的GradientBoosting分类算法
  - - 5.3.1 原型
    - 5.3.2 常用参数
    - 5.3.3 常用属性
    - 5.3.4 常用方法
  - 5.4 实例4：GBDT二分类问题的调参与优化
  - - 5.4.1 数据集的创建与可视化
    - 5.4.2 训练集和测试集的分割
    - 5.4.3 调参的思路
    - 5.4.4 不同参数取值下模型在测试集上的逻辑回归损失曲线的绘制
    - 5.4.5 网格搜索
    - 5.4.6 绘制最佳分类器的训练准确率和验证准确率曲线
    - 5.6.7 损失函数的选择对模型预测结果的影响

5 GBDT二分类算法

5.1 概述

前面我们介绍了AdaBoost的基本原理，并举了几个实例对AdaBoost的使用做了一些演示。简单来说，AdaBoost的大体思想就是：根据每个弱学习器的预测误差为每个弱学习器赋予不同的权重，并以上一个弱学习器的权重为依据更新数据集样本分布的权重（尤其是不断加大上一轮弱学习器预测错误的样本的权重），通过不断循环这一过程，最终得到一个在所有样本上均有较高预测准确率的强学习器，实现了串行提升整体拟合效果的目的。而Boosting系列算法中还有另一个非常具有代表性的算法，叫做GBDT(Gradient Boosting Decision Tree，梯度提升树）。下面就让我们来看一下GBDT算法的基本原理。先从二分类开始。

5.2 算法详解

在介绍GBDT二分类算法之前，首先要先对下面的几个数学知识做了解，才能够更好地理解整个算法的流程。

5.2.1 逻辑回归预测函数

在逻辑回归预测函数，先提出如下问题：这个函数有什么作用呢？我们为什么要用到这个函数？带着问题，我们开始下面的介绍。

先假设经过一定迭代次数的训练之后得到的GBDT分类器的表达式为 $F(\boldsymbol x)$ 。

逻辑回归预测函数的表达式为：
$h_\theta(\boldsymbol x)=\frac{1}{1+e^{-\theta^\mathsf T\boldsymbol x}}$
其中， $\theta$ 为 $F (x)$ 学习到的参数， $\theta^\mathtt T\boldsymbol x$ 为 $F (x)$ 对样本 $\boldsymbol x$ 的预测结果。通过上式就可以将 $F(\boldsymbol x)$ 对样本 $\boldsymbol x$ 的预测结果转化成逻辑回归值的形式。为什么要转化成这种形式呢？这是因为 $h_\theta(x)$ 实际上就是 $F(\boldsymbol x)$ 预测出样本 $\boldsymbol x$ 属于类别1的概率，通过这个值的大小就可以衡量 $F(\boldsymbol x)$ 对类别为1的样本分类效果的好坏。这样就可以得到如下的公式：
$P(Y=1|\boldsymbol x;\theta)=h_\theta(\boldsymbol x)$
其中 $P(Y=1|\boldsymbol x;\theta)$ 表示在给定当前分类器 $F (x)$ 的参数$\theta $的前提下样本$ \boldsymbol x $属于类别 1 的概率，也就是数据集中类别为 1 的样本所占的比例。由此可以得到样本$ \boldsymbol x$属于类别0的概率为：
$P(Y=0|\boldsymbol x;\theta)=1-h_\theta(\boldsymbol x)$
将上面两个的式子结合起来，可得到如下公式：
$P(Y=y|\boldsymbol x;\theta)=\bold(h_\theta(\boldsymbol x) \bold)^y\bold(1-h_\theta(\boldsymbol x) \bold)^{1-y}$
其中， $y\in\{0,1\}$ $，P(Y=y|\boldsymbol x;\theta)$ 表示 $F(\boldsymbol x)$ 将样本 $\boldsymbol x$ 预测正确的概率。我们可以用上面这个公式表示将样本的类别为0和样本的类别为1这两种情况给结合起来。也就是说，若样本 $\boldsymbol x$ 的类别标签为0，则上式就表示预测出 $\boldsymbol x$ 属于类别0的概率；若样本 $\boldsymbol x$ 的类别为1，则上式就表示预测出 $\boldsymbol x$ 属于类别1的概率。

5.2.2 最大似然估计

判断分类器 $F(\boldsymbol x)$ 够不够好的指标之一，就是看它能不能尽可能将所有的样本都分对，也就是说，它能够尽量将所有真实标签为1的样本预测为1，尽量将所有真实标签为0的样本预测为0。从概率的角度来说，就是使得所有真实标签为1的样本被预测为1的概率的乘积尽可能大，同时也使得所有真实标签为0的样本被预测为0的概率的乘积也尽可能大。结合上面的公式，我们可以推断出 $F(\boldsymbol x)$ 的优化目标就是找到合适的参数 $\theta$ ，使得下面的函数最大化：
$l(\theta)=\prod_{i=1}^NP(Y=y_i|\boldsymbol x_i;\theta)=\prod_{i=1}^N\bold(h_\theta(\boldsymbol x) \bold)^y_i\bold(1-h_\theta(\boldsymbol x) \bold)^{1-y_i}$
其中 $N$ 表示数据集中总的样本数。我们把这个函数的求解过程称为最大似然估计，这个值越大，就表示 $F(\boldsymbol x)$ 对数据集总体的分类效果越好。由于这个函数的表达式为指数形式，不好求解，所以将其转化为对数的形式：
$l(\theta)=\sum_{i=1}^N\bold[y_ilog\,h_\theta(\boldsymbol x_i) +(1-y_i)log\,\bold(1-h_\theta(\boldsymbol x_i) \bold)^{}\bold]$

分类器 $F(\boldsymbol x)$ 的任务就是找到一组合适的参数 $\theta$ ，使得 $l(\theta)$ 能最大化。

5.2.3 逻辑回归损失函数

求解 $l(\theta)$ 函数的过程用的是梯度下降法。利用梯度下降法可求得上式的损失函数为：
$J(\theta)=-\frac{1}{N}\sum_{i=1}^N[y_ilog\,h_\theta(\boldsymbol x_i) +(1-y_i)log\,\bold(1-h_\theta(\boldsymbol x_i) \bold)^{}\bold]$
由此可得到对于数据集中的单个样本 $\boldsymbol x_i$ 的损失函数为：
$L(\theta)=-y_ilog\,h_\theta(\boldsymbol x_i) -(1-y_i)log\,\bold(1-h_\theta(\boldsymbol x_i) \bold)$
其中 $h_\theta(\boldsymbol x_i)$ 表示分类器 $F(\boldsymbol x)$ 对样本 $\boldsymbol x_i$ 的逻辑回归预测结果，表达式为：
$h_\theta(\boldsymbol x_i)=\frac{1}{1+e^{-\theta^\mathsf T\boldsymbol x_i}}$
令 $F(\boldsymbol x_i)=\theta^ T\boldsymbol x_i$ ，表示分类器 $F(\boldsymbol x)$ 对样本 $\boldsymbol x_i$ 的预测结果，则可以得到：
$L(y_i, F(\boldsymbol x_i))=y_ilog\bold({1+e^{-F(\boldsymbol x_i)}\bold)}+(1-y_i)\bold [log\,\bold({1+e^{-F(\boldsymbol x_i)}\bold)}+F(\boldsymbol x_i) \bold]$
假设在 $F(\boldsymbol x)$ 之前经过了 $m$ 轮（ $m$ 棵树）的提升，则可以求出第 $m$ 棵树对第 $i$ 个样本的损失函数的负梯度为：
$r_{m,i}=-|\frac{\partial L(y_i, F_{m-1}(\boldsymbol x_i))}{\partial F_{m-1}(\boldsymbol x_i)}|=y_i-\frac{1}{1+e^{-F(\boldsymbol x_i)}}$
求解出来的结果称为伪残差，表示样本 $\boldsymbol x_i$ 的真实标签与第 $m$ 个分类器 $F_m(\boldsymbol x)$ 对其逻辑回归预测结果的差值，通过这个值我们就可以较好地衡量 $F_m(\boldsymbol x)$ 的分类误差，进而对 $F_m(\boldsymbol x)$ 的分类准确率有一个理性的认识。

在了解了上面的几点数学知识后，下面就开始正式介绍GBDT二分类算法的具体步骤。

5.2.4 算法的具体步骤

在介绍算法的具体步骤之前，我们先看一下下面这个示意图，使得对GBDT算法的目标和过程有一个更加直观的认识：

图1.5.1: GBDT算法流程

可以看到，GBDT算法的过程实际上就是：在初始化分类器 $F_0(\boldsymbol x)$ 的基础上，训练出 $M$ 棵树，并不断地、串行地进行叠加，最后得到一个强学习器 $F_M(\boldsymbol x)$ ，这个 $F_M(\boldsymbol x)$ 经过 $M$ 棵树的提升之后，会取得比之前的所有分类器都更好的效果。这个示意图对于下一节要讲到的GBDT回归算法也同样适用。接下来我们就来看看这个示意图里的算法具体是怎么实现的。

GBDT二分类算法的具体步骤如下：

初始化第一个弱分类器 $F_0(\boldsymbol x)$ ，在这里， $F_0(\boldsymbol x)$ 是一棵分类回归树，
$F_0(\boldsymbol x)=log\,\frac{P(Y=1 | \boldsymbol x)}{1-P(Y=1 | \boldsymbol x)}$
由之前的推导可以知道， $F_0(\boldsymbol x)$ 的初始化值为数据集中类别1的样本出现的概率与类别0的样本出现的概率的比值的对数值。
初始化完成后，下面要建立起 $M$ 棵分类回归树，设每一棵树的编号为 $m$ $(m = 1, 2, ..., M)$ ，求出各棵树对各个样本 $\boldsymbol x_i$ 的伪残差。前面我们已经推导出了第 $m$ 棵树对第 $i$ 个样本的伪残差 $r_{m,i}$ ，这里我们将其实例化，求出第1棵树对第 $i$ 个样本的伪残差为：
$r_{1,i}=y_1-\frac{1}{1+e^{-F_0(\boldsymbol x_i)}}$
这个伪残差实际上就是第 $i$ 个样本的标签与分类器 $F_0(\boldsymbol x)$ 对样本 $\boldsymbol x_i$ 的逻辑回归预测值的差值，通过这个差值可以较好地衡量当前分类器的分类误差。
根据上面求得的伪残差 $r_{1,i}$ ，就可以用下面的公式计算出第1棵树对其第 $j$ 个叶子节点的最佳拟合值为：
$c_{1,j}=\frac{\sum_{\boldsymbol x_i\in{R_{1,j}}}r_{1,i}}{\sum_{\boldsymbol x_i\in{R_{1,j}}}(y_i-r_{1,i})(1-y_i+r_{1,i})}$
其中 $R_{1,j}$ 表示第1棵树的第 $j$ 个叶子节点区域。
在上面求得的最佳拟合值 $c_{1,j}$ 的基础上，就可以用下面的公式求出初始分类器 $F_0(\boldsymbol x)$ 经过第1棵树提升后的新的分类器 $F_1(\boldsymbol x)$ 的表达式：
$F_1(\boldsymbol x)=F_0(\boldsymbol x)+\sum_{j=1}^{J_1}c_{1,j}I(x\in R_{1,j})$
其中：
$I(x\in R_{1,j})=\left\{ \begin{aligned}1,\quad 如果样本\boldsymbol x在第1棵树的第j个叶子节点里 \\ 0,\quad 如果样本\boldsymbol x不在第1棵树的第j个叶子节点里 \end{aligned} \right.$
2，3，4步骤的求解过程有点抽象，下面将通过一个简单示意图的形式加深读者对上述步骤的理解。假设第1棵回归决策树要对数据集 $X=\{\boldsymbol x_1,\boldsymbol x_2,\boldsymbol x_3,\boldsymbol x_4,\boldsymbol x_5\}$ 进行分类，且这5个样本的标签分别为 $y_1,y_2,y_3, y_4,y_5=0,0,1,1,1$ ，分类的效果如下：

图1.5.2: 伪残差的求解

首先，我们分别用步骤3中的公式计算出上图6个叶子节点所对应的伪残差 $c_{1,1},c_{1,2},c_{1,3},_{1,4},c_{1,5},c_{1,6}$ ，然后用这个6个数对 $F_0(\boldsymbol x)$ 进行提升，求得经过提升之后的分类器为：
$F_1(\boldsymbol x)=F_0(\boldsymbol x)+c_{1,1}+c_{1,2}+c_{1,3}+c_{1,4}+c_{1,5}+c_{1,6}$

可以看到，从初始化分类器 $F_0(\boldsymbol x)$ 经过第1棵树提升到 $F_1(\boldsymbol x)$ 的过程，实际上就是一个先求出第1棵树在其各个叶子节点的最佳拟合值，再将这些最佳拟合值叠加到 $F_0(\boldsymbol x)$ 上的过程。

$F_2(\boldsymbol x),F_3(\boldsymbol x),...,F_{M}(\boldsymbol x)$ 的求解方法也类似。
用上面的方法经过 $M$ 次提升后，得到最终强学习器的表达式如下：
$F_{M}(\boldsymbol x)=F_{0}(\boldsymbol x)+\sum_{m=1}^M\sum_{j=1}^{J_m}c_{m,j}I(x\in R_{m,j})$
其中 $\sum_{m=1}^M$ 表示对所有 $M$ 棵提升树求累加， $\sum_{j=1}^{J_m}c_{m,j}$ 表示对每棵提升树的所有叶子节点的最佳拟合值求累加。意思就是说，以初始分类器 $F_{0}(\boldsymbol x)$ 为起点，不断将所有 $M$ 棵树的所有叶子节点的最佳拟合值加起来，最终就得到了强学习器 $F_{M}(\boldsymbol x)$ 。这里需要注意：为了控制每一棵提升树的对分类器的提升程度，会引入一个叫做学习率 $\eta$ 的参数：

$F_{M}(\boldsymbol x)=F_{0}(\boldsymbol x)+\sum_{m=1}^M\sum_{j=1}^{J_m}\eta\, c_{m,j}I(x\in R_{m,j})$

学习率 $\eta$ 对GBDT分类效果的影响至关重要，是实际使用中的重点调参对象。

最后再将 $F_{M}(\boldsymbol x)$ 的输出结果转换为逻辑回归预测值的形式，也就是 $F_{M}(\boldsymbol x)$ 将样本 $\boldsymbol x$ 预测为类别0的概率：
$P(Y=1|\boldsymbol x)=\frac{1}{1+e^{-F_{M}(\boldsymbol x)}}$

经过上面的六个步骤，就完成了GBDT二分类算法的流程。

5.3 sklearn中的GradientBoosting分类算法

sklearn中的GradientBoostingClassifier类对GradientBoosting分类算法进行了实现。

5.3.1 原型

class sklearn.ensemble.GradientBoostingClassifier(*, loss='deviance', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, min_impurity_split=None, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, presort='deprecated', validation_fraction=0.1, n_iter_no_change=None, tol=0.0001, ccp_alpha=0.0)

GradientBoostingClassifier类的参数多达22个，比AdaBoost多了很多。下面我们挑出其中一些常用的参数做介绍。

5.3.2 常用参数

loss：默认为’deviance’
表示训练过程中所使用的损失函数，可用选项为{‘deviance’, ‘exponential’}：
- deviance表示逻辑回归损失函数
- exponential表示指数损失函数
learning_rate：浮点型，默认为0.1

表示学习率，对GBDT分类效果的影响较大，是调参的重点对象。
n_estimators：整型，默认值为100
基学习器的最大迭代次数（即最大的基学习器个数）n_estimator太小，基学习器数量太少，容易造成欠拟合；n_estimators太大，基学习器数量太多，容易造成过拟合。在实际使用中，n_estimators的值不宜过大，也不能太小，需要通过调参找到一个合适的取值，所以这个参数也是调参的重点对象。
subsample：浮点型，默认为1.0

表示子采样的比例，取值为(0, 1]。注意这里是不放回抽样。默认取值为1.0表示全部样本都用来拟合GBDT的基学习器，等于没有使用子采样方法。如果取值小于1，则表示只有一部分样本会用来拟合GBDT的基学习器。subsample设置为小于1的合适的值可以减少方差，缓解过拟合，但是会增加样本拟合的偏差，因此在实际使用中该参数也是重点调参对象。

实际上，GBDT的参数可分为两类：一类是过程影响类参数，一类是子模型（也就是我们前面一直说的基学习器）影响类参数。上面的四个参数都属于过程影响类参数，我们可以通过改变这些参数，对整个训练过程产生较大的改变，从而在较大幅度上对模型的整体性能产生影响，属于“宏观”上的提升，因此，过程影响类参数是重点的调参对象。而子模型影响类参数就是我们下面要介绍到的参数，它们的作用范围是在单个基学习器上，通过改变这些参数，同样也能对模型的性能产生影响，属于“微观”上的提升。GBDT中比较常用的子模型影响类参数有如下几个：

max_depth：整型，默认值为3

表示基学习器的最大深度，通过设置该值可以控制基学习器的节点数量，从而对GBDT学习器总体的分类效果产生影响。
max_features：整型或浮点型，默认值为None

表示基学习器划分时考虑的最大特征数，使用默认值None时，max_features=n_features，即最大特征数等于总特征数。当特征数较多时，可以通过设置该参数来控制划分时考虑的最大特征数，进而控制决策树的生成时间。指定为整数时表示绝对数量，指定为0到1之间的浮点数时表示占总特征数的比例。其他可用的选项有：
- “auto”：max_features=n_features；
- “sqrt”：max_features=sqrt(n_features)
- “log2”：max_features=log2(n_features)
min_samples_split：整型或浮点型，默认值为2

表示内部节点再划分所需要的最小样本数，通过设置该参数可以限制子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。指定为整数时表示绝对数量，指定为0到1之间的浮点数时表示占总样本数的比例。
min_samples_leaf：整型或浮点型，默认值为None

表示基学习器每个叶子节点所需要的最少样本数，如果某叶子节点的样本数小于总样本数，则该节点会和其兄弟节点一起被剪枝。指定为整数时表示绝对数量，指定为0到1之间的浮点数时表示占总样本数的比例。
min_weight_fraction_leaf：浮点数，默认值为0.0

表示叶子节点最小的样本权重和，这个值限制了叶子节点所有样本权重之和的最小值，如果小于这个值，则该节点会和其兄弟节点一起被剪枝。
min_impurity_decrease：浮点数，默认值为None

表示节点纯度的阈值，默认值None表示不设置阈值。如果节点的纯度下降幅度大于该阈值，则对该节点进行分裂。

这些参数的使用将会在下一章《决策树》中通过实例进行详细介绍和补充。

5.3.3 常用属性

base_estimator_：返回基学习器（包括种类、详细参数等信息）。
feature_importances_：返回数据集中每个特征的权重的组成的列表。
train_score_：返回所有迭代的损失函数值，可用train_score_[i]提取第 $i$ 轮中的损失函数值。
loss_：返回损失函数值。这个属性的用法比较特殊，在用的时候还需要传入两个参数：所有样本的实际标签和模型对所有样本的预测标签，然后计算损失值。计算的方法由参数loss所传入的损失函数类型决定。
init_：返回整个GBDT分类算法中用于的初始化基学习器。
n_features_：数据集的特征数。
classes_：所有类别的标签。
n_classes_：数据集的类别数。
max_features：最大特征的推断值。

5.3.4 常用方法

下面的介绍中多次提到一个“阶梯…”的概念，这个概念听起来很拗口，但在前面1.3.5.3小节中已做过详细解释，读者可以回顾一下。

decision_function(X)：得到分类器对数据集 $X$ 中各个样本的计算结果，分为如下两种情况：
- 若数据集只有两个类别，则返回的计算结果的尺寸为 $s ha p e = (样本数, 1)$ ；
- 若数据集有 $k (k > 2)$ 个类别，则返回的计算结果的尺寸为 $s ha p e = (样本数, k)$ 。
假设GBDT分类器abt对样本 $x$ 的计算结果gbt.decision_functiuon(x)=[-2.222] ，就表示分类器计算样本 $x$ 的损失值为-2.222。
fit(X,y,[,sample_weight]：拟合数据集。
get_params([deep])： $d ee p$ 参数指定为 $T r u e$ 时，返回集成分类器的各项参数值。
predict(X)：对数据集 $X$ 中各样本进行预测。
predict_proba(X)：计算出样本 $X$ 属于各个类别的概率。
predict_log_proba(X)：返回对数据集 $X$ 中各样本预测结果的自然对数值。
staged_decision_function(X)：计算每一轮迭代之后得到的阶梯损失值。
staged_predict(X)：返回对数据集 $X$ 中各样本的阶梯类别标签预测结果。
staged_predict_probe(X)：返回对数据集 $X$ 中各样本的阶梯概率预测结果。

5.4 实例4：GBDT二分类问题的调参与优化

上个实例中我们从简单直观的角度探索了基学习器（回归决策树）的深度对GBDT拟合效果的影响，并在对比了GDBT算法和AdaBoost算法在同一个数据集上的表现。而这个实例将做如下的探究：在不同学习率和子采样比例下，模型在测试集上的逻辑回归损失随迭代次数增加会的变化曲线，进而了解学习率和bagging采样比率这两个重要的超参数对模型性能的影响，并总结出一些调参的规律和经验。

5.4.1 数据集的创建与可视化

与AdaBoost部分里的实例类似，这里仍然选择采用make_gaussian_quantiles函数创建满足高斯分布的二分类数据集，因为这种分布的数据集非常适合用来测试Boosting模型的性能。创建数据集的代码如下：

# 第一组样本
X1, y1 = make_gaussian_quantiles(mean=(1, 1), cov=5,
                                 n_samples=4000, n_features=2,
                                 n_classes=2, random_state=1)
# 第二组样本
X2, y2 = make_gaussian_quantiles(mean=(4, 4), cov=2,
                                 n_samples=6000, n_features=2,
                                 n_classes=2, random_state=1)

#  将两组样本混在一起，组合成一个数据集
X = np.concatenate((X1, X2))
y = np.concatenate((y1, 1-y2))

可视化训练集的代码如下：

# 取出数据集X中第一个第一个特征，获取最大值和最小值确定第一个特征数值的范围
x1_min= X[:, 0].min() - 1
x1_max = X[:, 0].max() + 1

# 取出数据集X中第一个第二个特征，获取最大值和最小值确定第一个特征数值的范围
x2_min = X[:, 1].min() - 1
x2_max = X[:, 1].max() + 1

plt.figure(figsize=(8, 8))
# 获取标签为0的样本点的索引
index0 = np.where(y == 0)    
# X[index, 0]表示数据集中的所有样本的第一个特征的值
# X[index, 1]表示数据集中的所有样本的第二个特征的值
# 以第一个特征为横轴，第二个特征为纵轴，就可以在二维空间中画出数据集
plt.scatter(X[index0, 0], X[index0, 1], c='g', s=30, edgecolor='k', label="Class 1")    
    
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.legend(loc='upper right')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')

# 获取标签为1的样本点的索引
index1 = np.where(y == 1)    
# X[index, 0]表示数据集中的所有样本的第一个特征的值
# X[index, 1]表示数据集中的所有样本的第二个特征的值
# 以第一个特征为横轴，第二个特征为纵轴，就可以在二维空间中画出数据集
plt.scatter(X[index1, 0], X[index1, 1], c='r', s=30,edgecolor='k', label="Class 2")    
    
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.legend(loc='upper right')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Training Set')

输出结果如下：

图1.5.3: 数据集

5.4.2 训练集和测试集的分割

这里选择以8:2的比例划分出训练集与测试集。代码如下：

X_train, X_test = X[:8000], X[8000:]
y_train, y_test = y[:8000], y[8000:]

下面我们来看一下训练集和测试集样本不同类别下的分布情况：

print("Number of class 0 samples in training set: ", y_train[y_train==0].shape)
print("Number of class 1 samples in training set: ", y_train[y_train==1].shape)

输出结果如下：

Number of class 0 samples in training set: (3996,)
Number of class 1 samples in training set: (4004,)

print("Number of class 0 samples in test set: ", y_test[y_test==0].shape)
print("Number of class 1 samples in test set: ",y_test[y_test==1].shape)

输出结果如下：

Number of class 0 samples in test set: (1004,)
Number of class 1 samples in test set: (996,)

可以看到，训练集和测试集中不同类别样本的分布均比较均匀。

5.4.3 调参的思路

想要对一个没有接触过的数据集进行模型调参，若使用盲目搜索方法，简直就跟大海捞针一样困难，特别是对于GBDT这种需要调整的参数非常多的算法。幸运的是，GBDT算法模型有一个非常重要的指标————逻辑回归损失，它可以为调参提供一定的指引。逻辑回归损失的绝对值越大，表示模型的分类误差越大，拟合效果越差；逻辑回归损失的绝对值越小，表示模型的分类误差越小，拟合效果越好。因此，我们可以通过在一个较大的范围内以较大的步长设置一定数量的参数，绘制这些参数下模型拟合的逻辑回归损失曲线，观察总结出一定规律，从而减小调参的范围，减小调参的复杂性。基于以上思路，下面的调参过程将以如下的方式进行：

先固定其他参数，调整学习率，绘制不同学习率取值下GBDT模型在测试集上随迭代次数增加的逻辑回归损失函数曲线，对比不同曲线的收敛情况，进而大致确定对学习率的进行小步长精细调参的范围；
在上面取得了较好学习率的基础上，使用bagging方法，并对bagging方法中的采样比例subsample进行调整，再次观察逻辑回归损失曲线的收敛情况，找到较好的subsample值；
观察曲线随迭代次数增加的收敛和发散情况，使用提前停止方法，用较少的迭代次数实现较好的收敛情况。

这里选择对学习率learning_rate、子采样方法中的采样比例subsample和迭代次数n_estimators这三个参数进行调整，因为这三个参数对GBDT模型拟合效果的影响很大。当然GBDT还有很多其他参数对模型拟合效果的影响也很大，比如迭代过程中单棵回归决策树的最大深度max_depth、最大叶子结点数max_leaf_nodes等，关于这些参数的调参将放在《决策树》部分进行详细介绍。

5.4.4 不同参数取值下模型在测试集上的逻辑回归损失曲线的绘制

若训练好的模型在测试集上的逻辑回归损失曲线收敛到一个较低的水平，则可以判断该模型是一个拟合效果较好的模型。参考上面总结出来的思路，下面将进行如下的参数探索。

学习率的探索

# 由于所有的曲线都要测试500轮迭代的情况，并且为了保证多次运行时的情况相同，所以为每组模型均设置共同的n_estimators和random_state参数
# 其他参数则全部选用默认值
common_params = {'n_estimators': 500, 'random_state': 22}
plt.figure(figsize=(10,6))

# j是迭代次数的索引
j = 1
t1 = time.time()
# 由于要画的曲线过多，逐个定义会使得代码冗余，所以这里选择将各个模型对应的标题、曲线颜色和参数字典封装成元组，并用for循环逐个访问
for label, color, params in [
# 先固定subsample=1.0，表示不使用子采样方法，然后在此基础上调整学习率，观察逻辑回归损失函数曲线的走势
    							# model_1
                                ('learning_rate=1.0', 'blue',
                               {'learning_rate': 1.0, 'subsample': 1.0}),
    
    							# model_2
                              ('learning_rate=0.8', 'green',
                               {'learning_rate': 0.8, 'subsample': 1.0}),
    
    							# model_3
                                ('learning_rate=0.5', 'orange',
                               {'learning_rate': 0.5, 'subsample': 1.0}),
    
    							# model_4
                                ('learning_rate=0.2', 'red',
                               {'learning_rate': 0.2, 'subsample': 1.0}),
   
    							# model_5
                                 ('learning_rate=0.1', 'magenta',
                               {'learning_rate': 0.1, 'subsample': 1.0})]:
 
    # 所有模型的参数均初始化为共同参数
    visualize_params = dict(common_params)
    # 使用上面定义的5组参数更新所有模型的参数
    visualize_params.update(params)

    # 用更新好的参数定义新的GBDT模型
    gdt_classifier = GradientBoostingClassifier(**visualize_params)
    # 用模型对训练集进行拟合
    gdt_classifier.fit(X_train, y_train)

    # 定义数组，记录每一组参数所对应的模型在迭代过程中的逻辑回归测试损失
    test_logistic_loss = np.zeros((common_params['n_estimators']), dtype=np.float64)
    # 使用gdt_classifier.staged_decision_function(X_test)方法获取每轮迭代过程中在测试集上的逻辑回归损失
    for i, y_pred in enumerate(gdt_classifier.staged_decision_function(X_test)):
        # 记录每一轮的逻辑回归损失
        test_logistic_loss[i] = gdt_classifier.loss_(y_test, y_pred)
        if (i+1) % 500 == 0:
            print("500th iteration test loss of model_%.d: %.4f" % (j, test_logistic_loss[i]))
            j = j+1

    # 定义步长为2，即每两步绘制一次测试损失曲线
    plt.plot((np.arange(test_logistic_loss.shape[0]) + 1)[::2], test_logistic_loss[::2],
            '-', color=color, label=label)
       
# 定义图例、横纵坐标的标签、标题
plt.legend(loc='upper right')
plt.xlabel('GBDT Iterations')
plt.ylabel('Logistic Loss on X_test')
plt.title('Logistic Loss of Different learning_rate when subsample=1.0')
plt.show()

t2=time.time()
total_time = t2 - t1
print("Total Time: %.4fs" % total_time)

输出结果如下：

500th iteration test loss of model_1: 0.7333
500th iteration test loss of model_2: 0.4451
500th iteration test loss of model_3: 0.3976
500th iteration test loss of model_4: 0.2836
500th iteration test loss of model_5: 0.2862

图1.5.4: 不使用子采样方法时不同学习率下的损失曲线

Total Time: 33.1829s

在不使用子采样方法的情况下，在500轮迭代之内，学习率取值为0.1和0.2时曲线的均能收敛到较低的水准，且最终的收敛结果非常接近，这时可以初步确定0.1和0.2是较好的学习率取值，所以下面将分别固定学习率为0.1和0.2，并分别调整子采样比例，观察各自的收敛情况。

learning_rate=0.1，调整子采样比例

1. 不约束纵坐标范围，迭代次数为500：

代码如下：

common_params = {'n_estimators': 500,'random_state':22}
plt.figure(figsize=(10,6))

j = 1
t1 = time.time()

for label, color, params in [
# 固定learning=0.1，然后调整subsample参数（subsample小于1.0时表示使用了子采样方法），观察逻辑回归损失函数曲线的走势
    							# model_1
                                ('subsample=1.0', 'blue',
                               {'learning_rate': 0.1, 'subsample': 1.0}),
    
    						    # model_2
                              ('subsample=0.8', 'green',
                               {'learning_rate': 0.1, 'subsample': 0.8}),
    							
    							# model_3
                                ('subsample=0.5', 'orange',
                               {'learning_rate': 0.1, 'subsample': 0.5}),
    
    							# model_4
                                ('subsample=0.3', 'red',
                               {'learning_rate': 0.1, 'subsample': 0.3}),
    
    							# model_5
                                 ('subsample=0.2', 'magenta',
                               {'learning_rate': 0.1, 'subsample': 0.2})
							  ]:
 
    
    visualize_params = dict(common_params)
    visualize_params.update(params)

    gdt_classifier = GradientBoostingClassifier(**visualize_params)
    gdt_classifier.fit(X_train, y_train)

    # 计算每一组参数所对应的模型在测试集上的逻辑回归损失
    test_logistic_loss = np.zeros((common_params['n_estimators']), dtype=np.float64)

    for i, y_pred in enumerate(gdt_classifier.staged_decision_function(X_test)):
        test_logistic_loss[i] = gdt_classifier.loss_(y_test, y_pred)
        if (i+1) % 500 == 0:
            print("500th iteration test loss of model_%.d: %.4f" % (j, test_logistic_loss[i]))
            j = j+1

    plt.plot((np.arange(test_logistic_loss.shape[0]) + 1)[::2], test_logistic_loss[::2],
            '-', color=color, label=label)
 
plt.legend(loc='upper right')
plt.xlabel('GBDT Iterations')
plt.ylabel('Logistic Loss on X_test')
plt.title('Logistic Loss of Different subsample when learning_rate=0.1')
plt.show()

t2=time.time()
total_time = t2 - t1
print("Total Time: %.4fs" % total_time)

输出结果如下：

500th iteration test loss of model_1: 0.2862
500th iteration test loss of model_2: 0.2951
500th iteration test loss of model_3: 0.2833
500th iteration test loss of model_4: 0.7589
500th iteration test loss of model_5: 0.2932

图1.5.4: 学习率为0.1时不同子采样比例下的损失曲线

Total Time: 21.0707s

可以看到，在500轮迭代之内，不同subsample取值下曲线的收敛情况不同。

其中，当subsample=0.3时，曲线在第300轮迭代开始发散，无法正常收敛；subsample $\in\{1.0,0.8, 0.5,0.2\}$ 时，四条曲线的收敛趋势十分接近，在第500轮迭代时均收敛到了约0.29的水平，并且隐约可以看到，若继续增加迭代次数，曲线还有进一步收敛的趋势。除此之外，使用子采样方法减少了每一次迭代中训练样本的个数，从而减少了模型总体的拟合时间。为了更便于观察对比subsample $\in\{1.0, 0.5, 0.3, 0.2\}$ 时的情况，进一步缩小参数搜索的范围，下面选择将纵坐标范围缩小，同时大幅加大迭代次数，再绘制曲线进行观察。

2. 约束纵坐标范围，迭代次数加大到1500：

这部分的代码只在上一部分的基础上做了如下两点改动，其他均一致：

# 添加下面的语句，将纵坐标的范围缩小到0.25到0.50
plt.ylim(0.25, 0.50)
# 将迭代次数从500增加到1500
common_params = {'n_estimators': 1500,'random_state':22}

输出结果如下：

500th iteration test loss of model_1: 0.2862
1500th iteration test loss of model_1: 0.3062

500th iteration test loss of model_2: 0.2951
1500th iteration test loss of model_2: 0.2866

500th iteration test loss of model_3: 0.2833
1500th iteration test loss of model_3: 0.2771

500th iteration test loss of model_4: 0.7589
1500th iteration test loss of model_4: 7677.4923

500th iteration test loss of model_5: 0.2932
1500th iteration test loss of model_5: 6.3716

图1.5.5: 在减小纵坐标范围并增加迭代次数之后学习率为0.1时不同子采样比例下的损失曲线

Total Time: 63.7481s

将迭代次数扩大到1500次时，出现了如下的异常的情况：

500th iteration test loss of model_4: 0.7589
1500th iteration test loss of model_4: 7677.4923

500th iteration test loss of model_5: 0.2932
1500th iteration test loss of model_5: 6.3716

当subsample=0.3时，300轮迭代之后曲线开始发散，并且在第1500轮时达到了7677.49的水平，这说明随着迭代次数的增加，曲线的发散程度也越来越严重。而当subsample=0.2时，500轮迭代之内曲线尚能正常收敛，而当迭代次数增加到约第600次时，曲线也出现了发散的情况。这是因为子采样方法采用的是无放回的抽样方法，所以当子采样比例设置得过小时，随着迭代的进行，用于拟合基学习器的样本的数量也会减少得很快，导致在某一轮迭代时训练样本数量过少而突然出现严重的过拟合，进而导致发生损失突然增加的现象。因此，在实际使用中，subsample的值不宜设置得太小，参考本实例的选择并借鉴前人的的丰富经验，一般将subsample的值设置在0.5到0.8之间比较合适。

观察图1.5.5可以发现，learning_rate=0.1时，subsample取值为0.5比较合适，并且在大约第800轮左右曲线收敛到一个较稳定的水平，这时可以使用“提前停止”方法，初步将最大迭代次数设为800，防止迭代次数过多造成计算资源浪费。接下来我们再来看一下learning_rate=0.2时的情况。

learning_rate=0.2，调整子采样比例

1. 不约束纵坐标范围，迭代次数为500：

代码如下：

common_params = {'n_estimators': 500,'random_state':22}
plt.figure(figsize=(10,6))

j = 1
t1 = time.time()

for index, (label, color, params) in enumerate([
# 固定learning=0.1，然后调整subsample参数（subsample小于1.0时表示使用了bagging方法），观察逻辑回归损失函数曲线的走势
                                ('subsample=1.0', 'blue',
                               {'learning_rate': 0.2, 'subsample': 1.0}),
    
                              ('subsample=0.8', 'green',
                               {'learning_rate': 0.2, 'subsample': 0.8}),
    
                                ('subsample=0.5', 'orange',
                               {'learning_rate': 0.2, 'subsample': 0.5}),
    
                                 ('subsample=0.3', 'red',
                                {'learning_rate': 0.2, 'subsample': 0.3}),
    
                                 ('subsample=0.2', 'magenta',
                                {'learning_rate': 0.2, 'subsample': 0.2})]):
 
    
    visualize_params = dict(common_params)
    visualize_params.update(params)

    gdt_classifier = GradientBoostingClassifier(**visualize_params)
    gdt_classifier.fit(X_train, y_train)

    # 计算每一组参数所对应的模型在测试集上的逻辑回归损失
    test_logistic_loss = np.zeros((common_params['n_estimators']), dtype=np.float64)

    for i, y_pred in enumerate(gdt_classifier.staged_decision_function(X_test)):
        test_logistic_loss[i] = gdt_classifier.loss_(y_test, y_pred)
        if (i+1) % 500 == 0:
            print("500th iteration test loss of model_%.d: %.4f" % (j, test_logistic_loss[i]))
            j = j+1
    
    plt.plot((np.arange(test_logistic_loss.shape[0]) + 1)[::2], test_logistic_loss[::2],
            '-', color=color, label=label)
 
plt.legend(loc='upper right')
plt.ylim(0.2, 1.3)
plt.xlabel('GBDT Iterations')
plt.ylabel('Logistic Loss on X_test')
plt.title('Logistic Loss of Different subsample when learning_rate=0.2')
plt.show()

t2=time.time()
total_time = t2 - t1
print("Total Time: %.4fs" % total_time)

输出结果如下：

500th iteration test loss of model_1: 0.2836
500th iteration test loss of model_2: 0.3748
500th iteration test loss of model_3: 0.2849
500th iteration test loss of model_4: 21684708241879994243829902443183997462719460904319228536833907553161895218173291003904.0000
500th iteration test loss of model_5: 367821956517265302112681590784.0000

图1.5.6: 学习率为0.2时不同子采样比例下的损失曲线

Total Time: 20.8050s

同样可以看到，在500轮迭代之内，当固定learning_rate=0.2时，subsample取值为0.2或0.3时损失曲线同样出现了异常极端的发散现象。同时可以发现，当subsample取值为0.5或1.0时，曲线均收敛到了较低的水平。为了更便于观察对比subsample $\in\{1.0, 0.5 \}$ 时的情况，下面同样选择将纵坐标范围缩小，同时大幅加大迭代次数，再绘制曲线进行观察。

2. 约束纵坐标范围，迭代次数加大到1500：

这部分的代码只在上一部分的基础上做了如下三点改动，其他均一致：

# 1. 将纵坐标的范围缩小为0.25到0.50
plt.ylim(0.25, 0.50)
# 2. 将迭代次数从500增加到1500
common_params = {'n_estimators': 1500,'random_state':22}
# 3. 在画图代码前面加入约束条件index < 3，排除subsample=0.2和0.3这两个异常极端的现象
if index < 3:
	plt.plot((np.arange(test_logistic_loss

输出结果如下：

500th iteration test loss of model_1: 0.2836
1500th iteration test loss of model_1: 0.3239

500th iteration test loss of model_2: 0.3748
1500th iteration test loss of model_2: 0.4045

500th iteration test loss of model_3: 0.2849
1500th iteration test loss of model_3: 0.3177

图1.5.7: 在减小纵坐标范围并增加迭代次数之后学习率为0.2时不同子采样比例下的损失曲线

Total Time: 61.9590s

对比图1.5.5，可以发现，当learning_rate=0.2, subsample=0.5时曲线的收敛效果不如learning_rate=0.1, subsample=0.5时好。

因此，综上考虑：当learning_rate=0.1, subsample=0.5, n_estimators=800时，逻辑回归损失曲线的收敛情况较好。当然这只是粗略的估计，并不能确定在这一组参数下模型的拟合效果就最好，但是可以由此推测最佳参数组合就在这一组参数取值的附近。所以接下来，我们将以learning_rate=0.1, subsample=0.5为搜索区间的中心，并使用提前停止方法，将n_estimators=800设为搜索区间的右顶点，定义步长较小的网格搜索范围，对模型进行进一步的调参优化。

5.4.5 网格搜索

代码如下：

# 创建使用全部默认参数的GBDT分类模型
gdt = GradientBoostingClassifier()

# 定义三个参数的网格搜索范围
n_estimators_range = np.arange(300, 850, 50)
learning_rate_range = np.arange(0.05, 0.15, 0.02)
subsample_range = np.arange(0.4, 0.6, 0.02)
param_grid = dict (learning_rate = learning_rate_range, n_estimators = n_estimators_range, subsample=subsample_range)
# 定义交叉验证方法
cv = StratifiedShuffleSplit(n_splits=5, test_size=0.2, random_state=333)
grid = GridSearchCV(estimator=gdt, param_grid=param_grid,  cv = cv, n_jobs=-1)
t1 = time.time()
# 执行网格搜索
grid.fit(X_train, y_train)
t2 = time.time()
t = t2 - t1
# 打印出搜索的总时间
print("Total time: %.4fs" % t )
# 打印出最佳参数
print("Best parameters: ", grid.best_params_)
# 打印出最佳验证准确率
print("Best score:", grid.best_score_)
# 获取最佳模型
gdt_best = grid.best_estimator_

输出结果如下：

Total time: 1994.2339s
Best parameters: {‘learning_rate’: 0.07, ‘n_estimators’: 600, ‘subsample’: 0.58}
Best score: 0.9385

subsample, learning_rate, n_estimators的最佳搜索结果为分别为0.58、0.07和600，这与我们前面的推测比较接近。经过调参，该模型达到了93.85%的平均验证准确率。为了进一步验证模型的性能好坏，接下来将绘制出模型的训练准确率和测试准确率曲线。

5.4.6 绘制最佳分类器的训练准确率和验证准确率曲线

绘制最佳分类器的训练准确率和验证准确率曲线需要先获取最佳分类器的阶梯训练准确率和阶梯测试准确率。这里需要注意，GradientBoostClassifier类不像AdaBoostClassifier类一样有一个staged_score_属性来直接获取GBDT模型的阶梯训练准确率，我们可以借助staged_predict(X)的方法来获取阶梯训练准确率和阶梯测试准确率。代码如下：

# 定义记录阶梯训练准确率的数组
train_staged_accuracy = []
# 获取阶梯训练准确率
gbt_train_score = gdt_best.staged_predict(X_train)
# 将每一轮迭代的阶梯训练准确率放入数组中
for s in gbt_train_score:
    train_staged_accuracy.append(accuracy_score(s, y_train))

# 定义记录阶梯测试准确率的数组
test_staged_accuracy = []
# 获取阶梯测试准确率
gbt_test_score = gdt_best.staged_predict(X_test)
# 将每一轮迭代的阶梯测试准确率放入数组中
for s in gbt_test_score:
    test_staged_accuracy.append(accuracy_score(s, y_test))    
    
    
# 画出曲线图
plt.figure(figsize=(10,6))
plt.plot(train_staged_accuracy, color='orange', label="Train Accuracy", alpha=0.8)    
plt.plot(test_staged_accuracy, color='green', label="Test Accuracy",  alpha=0.8)    
plt.legend(loc='lower right')
plt.xlabel('GBDT Iterations')
plt.ylabel('Accuracy')
plt.title('Train and Test Accuracy Curve')
plt.show()

图1.5.8: 最佳模型的训练准确率曲线和测试准确率曲线

# 打印出最后一轮迭代之后的训练准确率和测试准确率
print("Final train accuracy:", train_staged_accuracy[len(train_staged_accuracy)-1])
print("Final test accuracy:", test_staged_accuracy[len(test_staged_accuracy)-1])

输出结果如下：

Final train accuracy: 0.965375
Final test accuracy: 0.95

从上图可以看出，在大约第300轮迭代的时候，模型的测试准确率和训练准确率重叠，并且随着迭代次数的进一步增加，训练准确率在不断上升，最终在第600轮迭代的时候达到了96.54%的训练准确率。而测试准确率在第300轮迭代之后则稳定在了约95%的水平，最终两者之间的差距为1.54%，这个数值说明模型在较高准确率和较低方差之间做出了平衡，结果还是比较理想的。能够达到这样的平衡，以下三点原因功不可没：

通过深入探索找到了较合适的learning_rate和subsample取值；
在搜索n_estimators时应用了提前停止的方法控制了迭代次数，使得模型在取得较高训练准确率和较高测试准确率的同时又限制住了两者之间的距离，相比使用更多次的迭代，此时模型的泛化性能更好，抗过拟合的能力也更强，训练的时间也比较少；
数据集的大小较为合适。笔者在得到本实例的结果之前，在与该例子同分布的1000样本数据集（其中800个训练样本，200个测试样本）上进行了GBDT分类模型的性能测试，最终得到的训练准确率和测试准确率曲线如下：

图1.5.9: 数据集样本数为1000时最佳模型的训练准确率和测试准确率曲线

观察黑色虚线右边的部分，可以看到，随着迭代次数的增加，训练准确率维持在了100%的最高水平不动，而测试准确率曲线虽然在两个区间内有过小幅度的波动，但是总体上中维持在了大约0.93的水平，两条曲线之间的距离间隔一直无法缩小，此时模型处于一个过拟合的状态，并且随着迭代次数的增加并没有缓和的迹象。这是因为GBDT中采用了无放回抽样的子采样方法，所以随着迭代次数的增加，用于拟合基学习器的训练样本数量会越来越少，甚至会导致后来的基学习器只能分配到1个训练样本，此时训练准确率稳定在100%也就不足为奇了。但正是因为大量的基学习器只能分配到极少数的训练样本，所以无法对整个模型起到明显的推升作用，最终就导致模型无法泛化到未知数据集上。因此，在评估GBDT分类模型的性能的时候，必须尽可能选择较大的数据集，如果无法获取较大型的数据集，就必须及时采用提前停止的方法严格控制迭代的次数，避免跟笔者走一样的弯路。

5.6.7 损失函数的选择对模型预测结果的影响

最后我们来看一下不同损失函数的选择对GBDT模型分类效果的影响。GradientBoostingClassifier类中指定损失函数的参数loss有两个可用选项，一个是默认的"deviance"，表示逻辑回归损失；一个是"exponential"，表示指数损失。上面的所有步骤全部都使用默认的逻辑回归损失函数。为什么不选指数损失函数呢？下面将绘制出在上面得到的最优参数的情况下选择两种不同损失函数模型在测试集上的损失曲线，直观对比两者的区别。代码如下：

# 选用默认损失函数：逻辑回归损失函数
gdt_logistic = GradientBoostingClassifier(learning_rate= 0.07, n_estimators=600, subsample=0.58)
# 选用指数损失函数
gdt_exp = GradientBoostingClassifier(loss='exponential', learning_rate= 0.07, n_estimators=600, subsample=0.58)

# 分别对上面两个模型进行拟合
gdt_logistic.fit(X_train, y_train)
gdt_exp.fit(X_train, y_train)

# 定义记录逻辑回归损失的数组
test_logistic_loss = []
# 定义记录指数损失的数组
test_exp_loss = []

test_logistic_loss = np.zeros(600, dtype=np.float64)
test_exp_loss = np.zeros(600, dtype=np.float64)

plt.figure(figsize=(10, 6))

# 计算模型在测试集上的逻辑回归损失，并绘制曲线
for i, y_pred in enumerate(gdt_logistic.staged_decision_function(X_test)):
    test_logistic_loss[i] = gdt_logistic.loss_(y_test, y_pred)
plt.plot((np.arange(test_logistic_loss.shape[0]) + 1)[::2], test_logistic_loss[::2], '-', color='orange', label='Logistic Loss')

# 计算模型在测试集上的指数损失，并绘制曲线
for i, y_pred in enumerate(gdt_exp.staged_decision_function(X_test)):
    test_exp_loss[i] = gdt_exp.loss_(y_test, y_pred)
plt.plot((np.arange(test_exp_loss.shape[0]) + 1)[::2], test_exp_loss[::2], '-', color='green', label='Exponential Loss')    

# 画图
plt.legend(loc='upper right')
plt.xlabel('GBDT Iterations')
plt.ylabel('Logistic Loss on X_test')
plt.title('Test Loss Curve of Different Loss Function')
plt.show()

输出结果如下：

图1.5.10: 使用不同损失函数时最佳模型的训练损失和测试损失曲线

单单从这个图来看，在所有600轮迭代之内，使用指数损失函数时在测试集上的损失都比使用逻辑回归损失函数要低，并且指数损失函数的收敛速度还更快一点点。那是不是说明使用指数损失函数实际上会更好呢？其实不然。出现上图的情况是由这两个函数本身的数学性质决定的，但不能断言说指数损失函数的收敛速度更快、收敛到更低的水平，那它就比逻辑回归损失函数更适用于GBDT模型。我们来看一下当选用指数损失函数、并且使用之前找到的最佳参数（learning_rate= 0.07, n_estimators=600, subsample=0.58）时模型的训练准确率和验证准确率曲线，并打印出最终的准确率数值：

图1.5.10: 使用不同损失函数时最佳模型的训练准确率和测试准确率曲线

Final train accuracy: 0.954375
Final test accuracy: 0.9475

对比图1.5.8使用逻辑回归损失函数时的曲线，可以发现，若使用指数损失函数，经过600轮迭代之后，无论是训练准确率还是测试准确率都不如使用逻辑回归损失函数时高，并且可以直观看到，在100轮迭代内，使用指数损失函数时的测试准确率曲线的波动范围很大，这是因为，若选用指数损失函数，则模型在迭代过程中会赋予分错样本更大的权重，更加关注分类错误的样本，这会导致当迭代次数较少的时候，模型更趋向于对噪声进行拟合，使得模型抗噪声的能力降低，测试准确率产生大的波动。而使用逻辑回归损失函数时，比如上图迭代次数少于100的部分，测试准确率曲线的走势相比使用指数损失函数时更加平稳，这时因为此时模型不会太过于关注分错的样本，从而使得整个GBDT分类模型在抗噪声的鲁棒性方面更好，进而使得模型能够更好地泛化到未知数据集当中。因此，sklearn选用逻辑回归损失函数作为默认损失函数。

你可能感兴趣的:(集成学习,sklearn,机器学习,集成学习,Boosting)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR