孙悟充

【机器学习笔记】——Bagging、Boosting、Stacking（RF / Adaboost / Boosting Tree / GBM / GBDT / XGBoost / LightGBM）

1 集成学习
- 1.1 概念
- 1.2 思维导图
2 Bagging算法
- 2.1 概念
- 2.2 编程（分类）
- 2.3 随机森林
  - 2.3.1 扩展
    - 2.3.1.1 Extremely randomized Trees
    - 2.3.1.2 *Totally Random Trees Embedding
    - 2.3.1.3 *Isolation Forest
  - 2.3.2 编程（分类）
- 2.4 为什么说Bagging通过减小方差来提升精度
3 Boosting
- 3.1 Adaboost
  - 3.1.1 实例
  - 3.1.2 模型推导
  - 3.1.3 为什么说Boosting通过减小偏差来提升精度
  - 3.1.4 *多分类任务
    - 3.1.4.1 adaboost M1方法
    - 3.1.4.2 adaboost MH方法
    - 3.1.4.3 对多分类输出进行二进制编码
  - 3.1.5 编程（分类）
  - 3.1.6 *训练误差分析
  - 3.1.7 *过拟合分析
  - 3.1.8 总结
- 3.2 提升树
  - 3.2.1 实例
- 3.3 梯度提升
  - 3.3.1 GBDT
  - 3.3.2 GBDT实例
  - 3.3.3 GBDT为什么要用负梯度来近似残差？
  - 3.3.4 GBDT编程（回归）
  - 3.3.5 梯度提升 Vs Adaboost
  - 3.3.6 XGboost
  - 3.3.7 XGboost编程
    - 3.3.7.1 数据接口
    - 3.3.7.2 设置参数
    - 3.3.7.3 训练模型
    - 3.3.7.4 提前结束
    - 3.3.7.5 预测
    - 3.3.7.6 可视化
    - 3.3.7.7 实例
  - 3.3.8 Light GBM
4 Stacking
- 4.1 编程（分类）
5 “好而不同”的个体学习器
- 5.1 误差—分歧分解
- 5.2 多样性增强
  - 5.2.1 数据样本扰动
  - 5.2.2 数据特征扰动
  - 5.2.3 *输出表示扰动
  - 5.2.4 算法参数扰动

集成学习

概念

首先，让我们先来了解一下，什么是集成学习（Ensemble Learning，写作银桑，读作昂桑）。集成学习由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行投票来进行分类，对每个个体学习器的预测进行（加权）平均来进行回归，有时也被称为多分类器系统、基于委员会的学习等。如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。严格来说，集成学习并不算是一种分类器，而是一种分类器结合的方法。

集成学习将多个分类方法聚集在一起，以提高分类的准确率。通常一个集成分类器的分类性能会好于单个分类器

对于二分类问题，假设基分类器的错误率为 $\epsilon$ ：
$P(h_i(\mathcal{x} \ne \mathcal{y})) = \epsilon$

通过投票我们得到集成学习的分类预测：
$H(\mathcal{x}) = sign\left(\sum_{i = 1}^{T} h_i(\mathcal{x})\right)$

假设分类器的错误率相互独立，则由Hoeffding不等式有：
$P(H(\mathcal{x} \ne \mathcal{y})) = \sum_{k = 0}^{\lfloor T/2 \rfloor} \dbinom{T}{k}(1 - \epsilon)^k \epsilon^{T - k} \le exp\left(-\frac{1}{2}T(1-2\epsilon)^2 \right)$

即随着集成中基分类器数目 $T$ 增大，集成的错误率会指数级下降，最终趋于0。当然实际中个体学习器错误率独立的假设是不成立的

集成学习的很多理论研究都是针对弱分类器（精度略高于50%）进行的，但在实践中往往会使用较强的分类器
个体学习器要有一定的“准确性”，并且要有“多样性”。一般的，准确性很高之后，要增加多样性就需牺牲准确性。如何产生并结合“好而不同”的个体学习器，恰是集成学习研究的核心

下面这个例子，图(a)中每个学习器只有67%的精度，但集成学习却达到了100%；图(b)中三个学习器完全一样，集成之后性能没有提高；图©中每个学习器只有33%的精度集成学习的效果更差。

思维导图

Bagging算法

概念

Bagging算法（Bootstrap AGGregatING）是一种并行式集成算法。它基于自助采样法（Bootstrap sampling）采样出T个含有m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。

算法的伪代码如下：

从偏差-方差分解的角度看，降低一个估计的方差的方式是把多个估计平均起来，所以Bagging主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。同时，Bagging并不能减小模型的偏差，所以应尽量选择偏差较小的基分类器，如未剪枝的决策树。

编程（分类）

参考：https://github.com/vsmolyakov/experiments_with_python/blob/master/chp01/ensemble_methods.ipynb

我们用iris数据集来看一下不同基分类器Bagging的效果

import itertools
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec

from sklearn import datasets

from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

from sklearn.ensemble import BaggingClassifier
from sklearn.model_selection import cross_val_score, train_test_split

from mlxtend.plotting import plot_learning_curves
from mlxtend.plotting import plot_decision_regions

np.random.seed(0)

导入数据

iris = datasets.load_iris()
X, y = iris.data[:, 0:2], iris.target

X.shape, y.shape

((150, 2), (150,))

设置基分类器和集成方法

# 配置基分类器的参数
clf1 = DecisionTreeClassifier(criterion='entropy', max_depth=1)    # 深度为1的决策树
clf2 = KNeighborsClassifier(n_neighbors=1)    # k=1的k近邻

# 每个Bagging有10个基分类器
bagging1 = BaggingClassifier(base_estimator=clf1, n_estimators=10, max_samples=0.8, max_features=0.8)
bagging2 = BaggingClassifier(base_estimator=clf2, n_estimators=10, max_samples=0.8, max_features=0.8)

查看单个学习器和Bagging后的效果

label = ['Decision Tree(depth = 1)', 'K-NN(k = 1)', 'Bagging Tree', 'Bagging K-NN']
clf_list = [clf1, clf2, bagging1, bagging2]

fig = plt.figure(figsize=(10, 8))
gs = gridspec.GridSpec(2, 2)    # 创建 2x2 的画布
grid = itertools.product([0,1],repeat=2)    # 返回参数的笛卡尔积的元组，每个元素可以用 2 次

for clf, label, grd in zip(clf_list, label, grid):        
    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')    # Array of scores of the estimator for each run of the cross validation.
    print("Accuracy: %.2f (+/- %.2f) [%s]" %(scores.mean(), scores.std(), label))
        
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf, legend=2)    # 绘制决策边界
    plt.title(label)

plt.show()

Accuracy: 0.63 (+/- 0.02) [Decision Tree(depth = 1)]
Accuracy: 0.70 (+/- 0.02) [K-NN(k = 1)]
Accuracy: 0.66 (+/- 0.02) [Bagging Tree]
Accuracy: 0.61 (+/- 0.02) [Bagging K-NN]

可以发现决策树的集成有一定效果，而k近邻的效果反而变差了。这是因为k近邻是稳定学习器，不易受样本扰动影响。

再来看看数据集的划分对训练结果的影响

#plot learning curves
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    
plt.figure()
plot_learning_curves(X_train, y_train, X_test, y_test, bagging1, print_model=False, style='ggplot')
plt.show()

虽然每次结果有较大的差异，但是我们还是能得到一些结论：对于给定的划分比例，模型在训练集上的错分率基本在30%上下，而在测试集上，当训练集较小时，模型在测试集上表现很差，当训练集比例逐渐增加时，模型在测试集上的表现慢慢变好，一般在训练集占到80%左右时，模型在训练集和测试集上都能取得较好的表现

接下来我们看一下学习器的个数对bagging效果的影响

#Ensemble Size
num_est = np.concatenate(([1],np.arange(5,105,5)))
bg_clf_cv_mean = []
bg_clf_cv_std = []

for n_est in num_est:    
    bg_clf = BaggingClassifier(base_estimator=clf1, n_estimators=n_est, max_samples=0.8, max_features=0.8)
    scores = cross_val_score(bg_clf, X, y, cv=3, scoring='accuracy')
    bg_clf_cv_mean.append(scores.mean())
    bg_clf_cv_std.append(scores.std())
    

plt.figure()
# 绘制误差棒图，横轴为num_est，纵轴为scores.mean()，误差为scores.std()
(_, caps, _) = plt.errorbar(num_est, bg_clf_cv_mean, yerr=bg_clf_cv_std, c='blue', fmt='-o', capsize=5)
for cap in caps:
    cap.set_markeredgewidth(1)                                                           
plt.ylabel('Accuracy'); plt.xlabel('Ensemble Size'); plt.title('Bagging Tree Ensemble');
plt.show()

基于交叉验证的结果，我们可以看到在基分类器数量达到20后，集成的效果不再有明显的提升

随机森林

随机森林（Random Forest, RF）可以看成是改进的Bagging算法，它可以更好地解决决策树的过拟合问题。随机森林以CART树作为基分类器，对比决策树的Bagging，它有一个明显的特点——随机选择特征，对于普通的决策树，我们会在每个节点在当前的所有特征（假设有n个）中寻找最优特征，而随机森林的决策树会在每个节点在随机选取的特征集合（推荐 $n_{rf} = \log_2 n$ ）中寻找最优特征。这样做的好处是如果训练集中的几个特征对输出的结果有很强的预测性，那么这些特征会被每个决策树所应用，这样会导致树之间具有相关性，这样并不会减小模型的方差，但同时随机森林会不可避免的增加偏差。

RF的主要优点有：

训练可以高度并行化，对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。
由于可以随机选择决策树节点划分特征，这样在样本特征维度很高的时候，仍然能高效的训练模型。
在训练后，可以给出各个特征对于输出的重要性
由于采用了随机采样，训练出的模型的方差小，泛化能力强。
相对于Boosting系列的Adaboost和GBDT， RF实现比较简单。
对部分特征缺失不敏感。

RF的主要缺点有：

在某些噪音比较大的样本集上，RF模型容易陷入过拟合。
取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。

扩展

RF还有很多变种，其目的都是为了进一步降低方差。

Extremely randomized Trees

Extremely randomized Trees（以下简称Extra Trees）放弃了Boostrap sampling的方式，而选择使用原始数据集，而且在特征选择时更加暴力的随机选择一个特征直接作为最优特征

*Totally Random Trees Embedding

参考：http://www.cnblogs.com/pinard/p/6156009.html

Totally Random Trees Embedding(以下简称 TRTE)是一种非监督学习的数据转化方法。它将低维的数据集映射到高维，从而让映射到高维的数据更好的运用于分类回归模型。我们知道，在支持向量机中运用了核方法来将低维的数据集映射到高维，此处TRTE提供了另外一种方法。

TRTE在数据转化的过程也使用了类似于RF的方法，建立T个决策树来拟合数据。当决策树建立完毕以后，数据集里的每个数据在T个决策树中叶子节点的位置也定下来了。比如我们有3颗决策树，每个决策树有5个叶子节点，某个数据特征xx划分到第一个决策树的第2个叶子节点，第二个决策树的第3个叶子节点，第三个决策树的第5个叶子节点。则x映射后的特征编码为(0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1), 有15维的高维特征。这里特征维度之间加上空格是为了强调三颗决策树各自的子编码。

映射到高维特征后，可以继续使用监督学习的各种分类回归算法了。

*Isolation Forest

Isolation Forest（以下简称IForest）是一种异常点检测的方法。它也使用了类似于RF的方法来检测异常点。

对于在T个决策树的样本集，IForest也会对训练集进行随机采样,但是采样个数不需要和RF一样，对于RF，需要采样到采样集样本个数等于训练集个数。但是IForest不需要采样这么多，一般来说，采样个数要远远小于训练集个数？为什么呢？因为我们的目的是异常点检测，只需要部分的样本我们一般就可以将异常点区别出来了。

对于每一个决策树的建立， IForest采用随机选择一个划分特征，对划分特征随机选择一个划分阈值。这点也和RF不同。

另外，IForest一般会选择一个比较小的最大决策树深度max_depth,原因同样本采集，用少量的异常点检测一般不需要这么大规模的决策树。

对于异常点的判断，则是将测试样本点 $x$ 拟合到 $T$ 颗决策树。计算在每颗决策树上该样本的叶子节点的深度 $h_t(x)$ ，从而可以计算出平均高度 $h (x)$ 。此时我们用下面的公式计算样本点xx的异常概率:

$s(x,m)=2^{−\frac{h(x)}{c(m)}}$

其中，m为样本个数。 $c (m)$ 的表达式为：

$c(m)=2\ln (m−1)+\xi−2\frac{m−1}{m}$

$\xi$ 为欧拉常数， $s (x, m)$ 的取值范围是 $[0, 1]$ ，取值越接近于1，则是异常点的概率也越大。

编程（分类）

import time

# DecisionTree
clf3 = DecisionTreeClassifier(criterion='entropy', max_depth=2)

# Tree Bagging
tree_bagging = BaggingClassifier(base_estimator=clf3, n_estimators=100)

# Random Forest
random_forest = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth = 2)

label = ['Decision Tree', 'Tree Bagging', 'Random Forest']
clf_list = [clf3, tree_bagging, random_forest]

fig = plt.figure(figsize=(15, 4))
gs = gridspec.GridSpec(1, 3)
grid = itertools.product([0], [0, 1, 2])

for clf, label, grd in zip(clf_list, label, grid):
    b = time.time()
    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')
    runtime = time.time() - b
    print("Accuracy: %.2f (+/- %.2f) [%s] Runtime: %.2f s" %(scores.mean(), scores.std(), label, runtime))
        
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf, legend=2)
    plt.title(label)

plt.show()

Accuracy: 0.63 (+/- 0.04) [Decision Tree] Runtime: 0.01 s
Accuracy: 0.77 (+/- 0.03) [Tree Bagging] Runtime: 0.40 s
Accuracy: 0.76 (+/- 0.04) [Random Forest] Runtime: 0.36 s

从结果可以看到随机森林的运行速度比Tree Bagging要快一点，这是因为在选择最优特征时，随机森林并没有从全部特征中进行选择

rf_label = ['DecisionTree','1 Trees','5 Trees','10 Trees','20 Trees','100 Trees']

random_forest1 = RandomForestClassifier(n_estimators=1, criterion='entropy', max_depth = 2)
random_forest5 = RandomForestClassifier(n_estimators=5, criterion='entropy', max_depth = 2)
random_forest10 = RandomForestClassifier(n_estimators=10, criterion='entropy', max_depth = 2)
random_forest20 = RandomForestClassifier(n_estimators=20, criterion='entropy', max_depth = 2)
random_forest100 = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth = 2)

clf_list = [clf3, random_forest1, random_forest5, random_forest10, random_forest20, random_forest100]

fig = plt.figure(figsize=(15, 8))
gs = gridspec.GridSpec(2, 3)
grid = itertools.product([0, 1], [0, 1, 2])

for clf, label, grd in zip(clf_list, rf_label, grid):
    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')
    print("Accuracy: %.2f (+/- %.2f) [%s]" %(scores.mean(), scores.std(), label))
        
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf, legend=2)
    plt.title(label)

plt.show()

Accuracy: 0.63 (+/- 0.04) [DecisionTree]
Accuracy: 0.59 (+/- 0.08) [1 Trees]
Accuracy: 0.69 (+/- 0.02) [5 Trees]
Accuracy: 0.71 (+/- 0.06) [10 Trees]
Accuracy: 0.74 (+/- 0.04) [20 Trees]
Accuracy: 0.79 (+/- 0.02) [100 Trees]

可以看到随着树的增加，随机森林的决策边界越来越光滑，精度越来越高。而且当树为1个时随机森林色精度是比决策树要差的，这很容易理解，有可能重要的特征被排除在外了，所以同样是一棵树，随机森林分类效果更差。我们再通过误差棒图看一下决策树数量对精度的影响

num_est = np.concatenate(([1],np.arange(5,105,5)))
rf_clf_cv_mean = []
rf_clf_cv_std = []

for n_est in num_est:    
    rf_clf = RandomForestClassifier(n_estimators=n_est, criterion='entropy', max_depth = 2)
    scores = cross_val_score(rf_clf, X, y, cv=3, scoring='accuracy')
    rf_clf_cv_mean.append(scores.mean())
    rf_clf_cv_std.append(scores.std())
    

plt.figure()
(_, caps, _) = plt.errorbar(num_est, rf_clf_cv_mean, yerr=rf_clf_cv_std, c='blue', fmt='-o', capsize=5)
for cap in caps:
    cap.set_markeredgewidth(1)                                                           
plt.ylabel('Accuracy')
plt.xlabel('Trees Number')
plt.show()

可以看到随着树的数量增加，随机森林一开始有明显的提升，但是当树到达10个后就基本趋于稳定了

下面我们比较一下随着学习器的增加，Tree Bagging和Random Forest的差异

num_est = np.concatenate(([1],np.arange(10,1005,10)))
bg_arr = []
rf_arr = []

for n_est in num_est:    
    rf_clf = RandomForestClassifier(n_estimators=n_est, criterion='entropy', max_depth = 2)
    rf_scores = cross_val_score(rf_clf, X, y, cv=3, scoring='accuracy')
    rf_arr.append(rf_scores.mean())
    
    bg_clf = BaggingClassifier(base_estimator=clf3, n_estimators=n_est, max_samples=0.8, max_features=0.8)
    bg_scores = cross_val_score(bg_clf, X, y, cv=3, scoring='accuracy')
    bg_arr.append(bg_scores.mean())
    

plt.figure()
plt.plot(num_est, bg_arr,  color='blue', label='Bagging')
plt.plot(num_est, rf_arr, color='red', label='Random Forest')
plt.legend()
plt.ylabel('Accuracy')
plt.xlabel('Learner Number')
plt.show()

可以看到Bagging和随机森林有相似的收敛性，但是随着个体学习器数量的增加，随机森林的泛化性能要更好。

为什么说Bagging通过减小方差来提升精度

因为Bagging是同质集成并且数据集也相同，因此各个学习器的偏差 $bias(h_t (x))$ 和方差 $Var(h_t (x))$ 近似相等，但是各个学习器并不是独立的，于是
$\left(\frac{1}{T}\sum_{t = 1}^{T} h_t (x)\right) = bias(h_t (x))$

$\left(\frac{1}{T}\sum_{t = 1}^{T} h_t (x)\right) = \frac{1}{T}Var(h_t (x))$

所以Bagging不能降低偏差，而是会降低方差（因为学习器之间的相关性，方差不会下降到 $\frac{1}{T}Var(h_t (x))$ ），如果各个学习器完全相同，即有 $\frac{1}{T}\sum_{t = 1}^{T} h_t (x) = h_t (x)$ ，那么方差也不会降低，这也就是为什么要求学习器之间要有“多样性”。随机森林通过随机选取特征的方式降低了各决策树的相关性，使得方差进一步降低。

Boosting

不同于bagging方法，boosting方法通过分步迭代（stage-wise）的方式来构建模型，在迭代的每一步构建的弱学习器都是为了弥补已有模型的不足。Boosting算法先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权。从偏差—方差分解的角度看，Boosting主要关注降低偏差，因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。下图以Adaboost分类为例简要说明了Boosting的机制

Adaboost

Boosting算法最著名的代表是Adaboost（Adaptive Boosting）算法。Adaboost不改变所给的训练数据，而不断改变训练数据的权值分布，使得训练数据在基本分类器的学习中起不同的作用，然后利用基本分类器的线性组合构建最终的分类器。Adaboost的二类分类算法的描述如下图所示，其中 $y_i\in\{-1,+1\}$ ， $i = 1, 2, . . ., m$ ， $f$ 是真实函数， $\mathcal{D}_t$ 是调整后用于进行第 $t$ 次训练的样本分布， $h_t$ 是基于分布 $\mathcal{D}_t$ 从数据集 $D$ 中训练出的分类器， $\epsilon_t$ 是 $h_t$ 误差的估计， $\alpha_t$ 是分类器 $h_t$ 的权重， $Z_t$ 是规范化因子，以确保 $\mathcal{D}_{t+1}$ 是一个分布， $t = 1, 2, . . ., T$ 。

Adaboost是一种比较有特点的算法，可以总结如下：

每次迭代改变的是样本的分布，而不是重复采样（re weight)。
样本分布的改变取决于样本是否被正确分类：总是分类正确的样本权值低，总是分类错误的样本权值高（通常是边界附近的样本）。
最终的结果是弱分类器的加权组合，权值表示该弱分类器的性能。

我们通过一个例子来感受一下Adaboost的机制

实例

我们有如下数据集，其中有红色圆形和绿色三角形共10个样本，希望建立一个分类器，能判断出任意位置样本属于哪一类，我们指定基学习器个数 $T$ 为3

我们初始化样本权值分布 $\mathcal{D}_1 = {0.1, 0.1, \cdots, 0.1}$ ，并基于该分布从训练集中训练出分类器 $h_1$ （理论上 $h_1$ 应使分类错误率达到最小，这里仅用一条线代表分类结果，并未给出这条线是怎么得到的，但是不代表这条线是随意做出的），之后估计 $h_1$ 的误差 $\epsilon_1$ ，确定 $h_1$ 的权重 $\alpha_1$ ，并更新样本的权值分布

重复上面操作依次训练出基学习器 $h_2$ 、 $h_3$ ，此时基学习器个数达到我们预先指定的值。可以按照基学习器的权重给出输出公式。并据此预测其他样本的分类

每个区域是属于哪个类别，由这个区域所在分类器的权值综合决定。比如左下角的区域的样本，属于绿色分类区的权重为 $h_1$ 中的0.42和 $h_2$ 中的0.65，其和为1.07；属于红色分类区域的权重为 $h_3$ 中的0.92；属于红色分类区的权重小于属于绿色分类区的权值，因此左下角属于绿

从结果中看，即使简单的分类器，组合起来也能获得很好的分类效果。

模型推导

Adaboost算法有多种推导方式，一种比较容易理解的是基于“加性模型”，即基学习器的线性组合

$\sum_{t = 1}^{T} \alpha_t h_t(x)$

来最小化指数损失函数

$\mathcal{D}) = \mathbb{E}_{\mathcal{D}}[e^{-yH(x)}] = e^{-H(x)}P(y = 1 | x) + e^{H(x)}P(y = -1 | x)$

●什么是前向分步算法（forward stagewise algorithm）？

前向分步算法是求解加法模型损失函数（ $\sum_{i = 1}^{N}Loss(y_i, \alpha h(x_i))$ ）最小化的一种算法，简单来说就是在每一次学习一个基学习器，然后逐步逼近目标函数：

$\begin{array}{lcl} f_0(x) & = & 0 \\ f_1(x) & = & f_0(x) + \alpha_1 h_1(x) & = & \alpha_1 h_1(x) \\ f_2(x) & = & f_1(x) + \alpha_2 h_2(x) & = & \alpha_1 h_1(x) + \alpha_2 h_2(x) \\ \cdots \\ f_M(x) & = & f_{M-1}(x) + \alpha_M h_M(x) & = & \sum_{m = 1}^{M}\alpha_m h_m(x) \end{array}$

●为什么是指数损失函数？

指数损失函数对 $H (x)$ 求偏导得

$\frac{\partial{Loss(H | \mathcal{D})}}{\partial{H(x)}} = -e^{-H(x)}P(y = 1 | x) + e^{H(x)}P(y = -1 | x)$

令偏导数为0有

$\frac{1}{2} \ln \frac{P(y = 1 |x)}{P(y = -1 |x)}$

于是有

$\begin{aligned} sign\left(H(x)\right) & = sign\left(\frac{1}{2} \ln \frac{P(y = 1 |x)}{P(y = -1 |x)}\right) \\ & = \begin{cases} 0& \text{if } P(y = 1 |x) \gt P(y = -1 |x)\\ 1& \text{if } P(y = 1 |x) \lt P(y = -1 |x) \end{cases} \\ & = \mathop{\arg\max}_{y \in \{+1,-1\}} P(y | x) \end{aligned}$

过程中忽略了 $P (y = 1 ∣ x) = P (y = - 1 ∣ x)$ 的情况，另外西瓜书中对于概率的写法是 $P (f (x) = y ∣ x)$ ，其中 $f$ 是真实函数。从结果可知， $sign\left(H(x)\right)$ 达到了贝叶斯最优错误率（ $P(\omega_1|x) \gt P(\omega_1|x),\; then\ x\in \omega_1,\;else\ x\in \omega_2$ ），即最小化指数损失函数等价于分类错误率最小化。因此我们可以用它替代0/1损失函数作为最优目标。有了以上结论，我们便可以进行算法的推导。

●推导过程

在算法的第 $t$ 次循环中，我们基于分布 $\mathcal{D}_t$ 产生了基分类器 $h_t(x)$ 和分类器权重 $\alpha_t$ ，那么它们应该使得 $H_t(x) = \sum_{k = 1}^{t}\alpha_k h_k(x)$ 最小化损失函数

$\begin{aligned} Loss(H_t(x) | \mathcal{D}_t) & = Loss(\sum_{k = 1}^{t}\alpha_k h_k(x) \ |\ \mathcal{D}_k) \\ & = Loss(H_{t-1}(x) \ +\ \alpha_t h_t(x)\ |\ \mathcal{D}_k) \\ & = \mathbb{E}_{\mathcal{D}_t} e^{-y (H_{t-1}(x) \ +\ \alpha_t h_t(x))} \\ & = \sum_{i = 1}^{N} e^{-y_i H_{t-1}(x_i)} e^{-y_i\alpha_t h_t(x_i)} \end{aligned}$

我们令 $w_{t,i} = e^{-y_i H_{t-1}(x_i)}$ ，显然， $w_{t,i}$ 与 $\alpha_t$ 和 $h_t$ 无关，所以与最小化损失也无关，于是有

$Loss(H_t(x) | \mathcal{D}_t) = \sum_{i = 1}^{N} w_{t,i} e^{-y_i\alpha_t h_t(x_i)}$

设 $h_t^*$ 和 $\alpha_t^*$ 是满足要求的分类器和分类器权重，即

$(h_t^*,\alpha_t^*) = \mathop{\arg \min}_{\alpha_t, h_t}Loss(H_t(x) | \mathcal{D}_t) = \mathop{\arg \min}_{\alpha_t, h_t}\sum_{i = 1}^{N} w_{t,i} e^{-y_i\alpha_t h_t(x_i)}$

对任意 $\alpha_t \gt 0$ ，考虑

$h_t^*(x) = \mathop{\arg \min}_{h_t} \sum_{i = 1}^{N}w_{t,i}I(h_t(x_i) \ne y_i)$

这意味着 $h_t^*(x)$ 是使第t轮加权训练数据分类误差最小的基本分类器，即为所求。再求 $\alpha_t^*$

$Loss(H_t(x) | \mathcal{D}_t) = \sum_{i = 1}^{N} w_{t,i} e^{-y_i\alpha_t h_t^*(x_i)} = \sum_{h_t^*(x_i) \ne y_i}w_{t,i}e^{\alpha_t}+\sum_{h_t^*(x_i) = y_i}w_{t,i}e^{-\alpha_t}$

损失函数对 $\alpha_t$ 求偏导得

$\frac{\partial{Loss(H_t(x) | \mathcal{D}_t)}}{\partial{\alpha_t}} = -\sum_{h_t^*(x_i) \ne y_i}w_{t,i}e^{\alpha_t}+\sum_{h_t^*(x_i) = y_i}w_{t,i}e^{-\alpha_t}$

令偏导数为0有

$\alpha_t^* = \frac{1}{2}\ln \frac{1-\sum_{h_t^*(x_i) \ne y_i}w_{t,i}}{\sum_{h_t^*(x_i) \ne y_i}w_{t,i}} = \frac{1}{2}\ln \frac{1-\epsilon_t}{\epsilon_t}$

再来看样本权值的更新， $H_t(x_i) = H_{t-1}(x_i) + \alpha_t h_t(x_i)$ 两边同时乘 $y_i$ 并进行指数运算得

$w_{t+1,i} = e^{-y_iH_t(x_i)} = e^{-y_iH_{t-1}(x_i)}e^{-y_i\alpha_t h_t(x_i)} = w_{t,i}e^{-y_i\alpha_t h_t(x_i)}$

之后为确保 $\mathcal{D}_{t+1}$ 是一个分布，再对权值进行规范化即可

为什么说Boosting通过减小偏差来提升精度

Boosting算法等价于用前向分步算法来最小化损失函数，以Adaboost为例，算法用这样的方式顺序地最小化指数损失函数 $Loss(y,H_t(x))$ ，偏差自然降低。但也正是因为这样造成了子模型之间的强相关性，因此不能显著降低方差。所以所Boosting主要通过降低偏差来提升精度

*多分类任务

参考：https://blog.51cto.com/baidutech/743809

目前比较常用的多分类方法有三种

adaboost M1方法

该方法的主要思路是利用多分类的基学习器，最终选择最有可能的分类结果

$\mathop{\arg \max}_{y \in \mathcal{Y}} \sum_{t:h_t(x) = y}\alpha_t$

adaboost MH方法

应用“one-vs-all”的原理重构样本空间，最终选择最有可能的结果

对多分类输出进行二进制编码

类似adaboost MH方法，不过不需要重构样本空间，而是把Label映射到 $K$ 位的二进制码上（ $K$ 位分类数），然后训练 $K$ 个二分类分类器，在解码时生成 $K$ 位的二进制数。从而对应到一个label上。

编程（分类）

仍然使用Iris数据集，决策树算法作为个体学习器算法

import itertools
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec

from sklearn import datasets

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import cross_val_score, train_test_split

from mlxtend.plotting import plot_learning_curves
from mlxtend.plotting import plot_decision_regions

iris = datasets.load_iris()
X, y = iris.data[:, 0:2], iris.target
    
clf = DecisionTreeClassifier(criterion='entropy', max_depth=2)

num_est = [1, 2, 3, 10]
label = ['AdaBoost (n_est=1)', 'AdaBoost (n_est=2)', 'AdaBoost (n_est=3)', 'AdaBoost (n_est=10)']

fig = plt.figure(figsize=(10, 8))
gs = gridspec.GridSpec(2, 2)
grid = itertools.product([0,1],repeat=2)

for n_est, label, grd in zip(num_est, label, grid):     
    boosting = AdaBoostClassifier(base_estimator=clf, n_estimators=n_est)  
    
    scores = cross_val_score(boosting, X, y, cv=3, scoring='accuracy')
    print("Accuracy: %.2f (+/- %.2f) [%s]" %(scores.mean(), scores.std(), label))
    
    boosting.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=boosting, legend=2)
    plt.title(label)

plt.show()

Accuracy: 0.63 (+/- 0.04) [AdaBoost (n_est=1)]
Accuracy: 0.56 (+/- 0.11) [AdaBoost (n_est=2)]
Accuracy: 0.73 (+/- 0.04) [AdaBoost (n_est=3)]
Accuracy: 0.71 (+/- 0.08) [AdaBoost (n_est=10)]

再来看看不同训练计划分下Adaboost的表现

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

boosting = AdaBoostClassifier(base_estimator=clf, n_estimators=10)
        
plt.figure()
plot_learning_curves(X_train, y_train, X_test, y_test, boosting, print_model=False, style='ggplot')
plt.show()

下面是不同基学习器个数下的Adaboost的精度

#Ensemble Size
num_est = np.concatenate(([1],np.arange(5,105,5)))
ada_clf_cv_mean = []
ada_clf_cv_std = []

for n_est in num_est:
    ada_clf = AdaBoostClassifier(base_estimator=clf, n_estimators=n_est)
    scores = cross_val_score(ada_clf, X, y, cv=3, scoring='accuracy')
    ada_clf_cv_mean.append(scores.mean())
    ada_clf_cv_std.append(scores.std())
    


plt.figure()
(_, caps, _) = plt.errorbar(num_est, ada_clf_cv_mean, yerr=ada_clf_cv_std, c='blue', fmt='-o', capsize=5)
for cap in caps:
    cap.set_markeredgewidth(1)                                                                        
plt.ylabel('Accuracy'); plt.xlabel('Ensemble Size'); plt.title('AdaBoost Ensemble');
plt.show()

运行过程中我们可以明显的发现其和Bagging与RF的不同，就是一旦参数确定了结果就是一定的，没有随机性。这是因为Bagging采样的随机性和RF特征选择的随机性。我们再来比较一下这三个模型的精度随着基学习数目增加精度的变化。

num_est = np.concatenate(([1],np.arange(10,100,10),np.arange(100,1001,50)))
bg_arr = []
rf_arr = []
ada_arr = []

for n_est in num_est:    
    rf_clf = RandomForestClassifier(n_estimators=n_est, criterion='entropy', max_depth = 2)
    rf_scores = cross_val_score(rf_clf, X, y, cv=3, scoring='accuracy')
    rf_arr.append(rf_scores.mean())
    
    bg_clf = BaggingClassifier(base_estimator=clf, n_estimators=n_est, max_samples=0.8, max_features=0.8)
    bg_scores = cross_val_score(bg_clf, X, y, cv=3, scoring='accuracy')
    bg_arr.append(bg_scores.mean())
    
    ada_clf = AdaBoostClassifier(base_estimator=clf, n_estimators=n_est)
    scores = cross_val_score(ada_clf, X, y, cv=3, scoring='accuracy')
    ada_arr.append(scores.mean())
    

plt.figure()
plt.plot(num_est, bg_arr,  color='blue', label='Bagging')
plt.plot(num_est, rf_arr, color='red', label='Random Forest')
plt.plot(num_est, ada_arr, color='green', label='Adaboost')
plt.legend()
plt.ylabel('Accuracy')
plt.xlabel('Learner Number')
plt.show()

可见以决策树为基学习器的Adaboost模型表现并不是很好

*训练误差分析

Adaboost最基本的性质是它能在学习过程中不断减少训练误差，下面我们来证明这一性质。我们先令 $\sum_{t = 1}{T} \alpha_t h_t(x)$ ，令 $w_{t,i}$ 表示第 $t$ 轮中样本 $i$ 的权值，显然有 $w_{1,i} = \frac{1}{N}$ ，则Adaboost最终分类器 $H (x)$ 的训练误差界为：

$\ =\ \frac{1}{N} \sum_{i = 1}^{N} I(H(x_i) \ne y_i) \ \le\ \frac{1}{N} \sum_{i = 1}^{N} e^{-y_i g(x_i)} \ =\ \prod_{t = 1}^{T} Z_t$

证明：

当 $H(x_i) \ne y_i$ 时， $y_i g(x_i) \lt 0$ ，所以 $e^{-y_i g(x_i)} \gt 1 = I(H(x_i) \ne y_i)$ ，于是不等式的前半部分得证，下面只需证明 $\frac{1}{N} \sum_{i = 1}^{N} e^{-y_i g(x_i)} \ =\ \prod_{t = 1}^{T} Z_t$ ：

$\begin{aligned} \frac{1}{N} \sum_{i = 1}^{N} e^{-y_i g(x_i)} & = \frac{1}{N} \sum_{i = 1}^{N} e^{-y_i \sum_{t = 1}^{T} \alpha_t h_t(x_i)} \\ & = w_{1,i} \sum_{i = 1}^{N} e^{-\sum_{t = 1}^{T} \alpha_t h_t(x_i)y_i } \\ & = \sum_{i = 1}^{N} w_{1,i} \prod_{t = 1}^{T} e^{- \alpha_t h_t(x_i)y_i } \\ & = Z_1 \sum_{i = 1}^{N} \frac{w_{1,i} \prod_{t = 1}^{T} e^{- \alpha_t h_t(x_i)y_i }}{Z_1} \\ & = Z_1 \sum_{i = 1}^{N} w_{2,i} \prod_{t = 2}^{T} e^{- \alpha_t h_t(x_i)y_i } \\ & = Z_1 Z_2 \sum_{i = 1}^{N} w_{3,i} \prod_{t = 3}^{T} e^{- \alpha_t h_t(x_i)y_i } \\ & = \cdots \\ & = Z_1 Z_2 \cdots Z_{t-1} \sum_{i = 1}^{N} w_{T,i} e^{- \alpha_T h_T(x_i)y_i } \\ & = \prod_{t = 1}^{T} Z_t \end{aligned}$

■

通过这个定理，我们可以在每一轮都适当修改 $H_t$ 使得 $Z_t$ 最小，从而使训练误差下降最快。特别的，对于二分类问题，我们有以下结论：

$\prod_{t =1}^{T} Z_t \ =\ \prod_{t = 1}^{T}[2\sqrt{\epsilon_t(1-\epsilon_t)} \ = \ \prod_{t = 1}^{T} \sqrt{(1 - 4\gamma_t^2)} \ \le \ exp\left(-2 \sum_{t = 1}^{T} \gamma_t^2 \right)$

其中， $\gamma_t = \frac{1}{2} - \epsilon_t \gt 0$

证明：

先证明等式的部分：

$\begin{aligned} Z_t & = \sum_{i=1}^{N} w_{t,i} exp(-\alpha_t y_i h_t(x_i)) \\ & = \sum_{y_i = h_t(x_i)}w_{t, i} e^{-\alpha_t} \ +\ \sum_{y_i \ne h_t(x_i)} w_{t, i} e^{\alpha_t} \\ & = e^{-\alpha_t}\sum_{y_i = h_t(x_i)}w_{t, i} \ +\ e^{\alpha_t}\sum_{y_i \ne h_t(x_i)} w_{t, i} \\ & = e^{-\alpha_t}(1 - \epsilon_t) \ +\ e^{\alpha_t}\epsilon_t \\ & = {\left(\frac{1-\epsilon_t}{\epsilon_t}\right)}^{-\frac{1}{2}}(1 - \epsilon_t) \ +\ {\left(\frac{1-\epsilon_t}{\epsilon_t}\right)}^{\frac{1}{2}}\epsilon_t \\ & = 2\sqrt{\epsilon_t(1-\epsilon_t)} \\ & = \prod_{t = 1}^{T} \sqrt{(1 - 4\gamma_t^2)} \end{aligned}$

不等式部分可由 $\sqrt{1-x}$ 和 $e^x$ 在 $x = 0$ 处的泰勒展开式推导得出

■

进一步，若存在 $\gamma \gt 0$ 使得对所有 $t$ 有 $\gamma_t \ge \gamma$ ，那么有：

$\le exp\left( -2T\gamma^2 \right)$

这表明Adaboost在这种条件下的训练误差是以指数速率下降的

*过拟合分析

这里仅给出结论——Adaboost不会发生过拟合，这是Adaboost的另一个性质。“margin theory”可以比较直观地解释这一性质。

总结

●优点

adaboost是一种有很高精度的分类器。
可以使用各种方法构建子分类器，adaboost算法提供的是框架。
当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单。
简单，不用做特征筛选。
不用担心overfitting！
随着迭代次数的增加，实际上错误率上界在下降。

●缺点

对异常值非常敏感
对损失函数形式有要求

●应用

用于二分类或多分类的应用场景
用于做分类任务的baseline
用于特征选择（feature selection)
用于修正badcase，

提升树

提升树（Boosting Tree）是以二叉分类树或二叉回归树为基本分类器的提升方法，采用加法模型（即基函数的线性组合）与前向分步算法。提升树有很多不同的算法，其主要区别在于使用的损失函数不同，包括用平方误差损失函数的回归问题，用指数函数损失的分类问题，以及用一般损失函数的一般决策问题。

提升树模型为：

$f_M(x) = \sum_{m = 1}^{M}T(x; \Theta_m)$

其中 $\Theta_m)$ 为决策树； $\Theta_m$ 为决策树的参数； $M$ 为树的个数。首先确定初始模型：

$f_0(x) = 0$

第 $m$ 步的模型是：

$f_m(x) = f_{m-1}(x) + T(x; \Theta_m),\quad m = 1, 2, \cdots, M$

通过最小化损失函数确定决策树 $\Theta_m)$ 的参数：

$\hat{\Theta}_m = \mathop{\arg \min}_{\Theta_m}Loss(y, f_m(x)) = \mathop{\arg \min}_{\Theta_m}Loss(y, f_{m-1}(x) + T(x; \Theta_m))$

以回归问题的提升树为例，其损失函数是平方误差损失

$\begin{aligned} Loss(y, f_m(x)) & = Loss(y, f_{m-1}(x) + T(x; \Theta_m)) \\ & = {(y - f_{m-1}(x) - T(x; \Theta_m))}^2 \\ & = {(r_m - T(x; \Theta_m))}^2 \end{aligned}$

其中， $r_m$ 是当前模型拟合数据的残差，因此我们只需根据 $x, r_m)$ 来学习一个回归树 $\Theta_m)$ ，进而确定 $f_m(x) = f_{m-1}(x) + T(x; \Theta_m)$ ，最终学得 $f_M(x) = \sum_{m = 1}^{M}T(x; \Theta_m)$

实例

考虑用如下数据集学习一个提升树模型（深度为1）

$x_i$	1	2	3	4	5	6	7
$y_i$	4.5	4.7	4.9	5.3	5.8	7.0	7.9

解第1步求 $f_1(x)$ 即回归树 $T(x;\Theta_1)$

根据已知的数据，我们可以考虑如下切分点：

$\;2.5, \;3.5, \;4.5, \;5.5, \;6.5$

回忆二叉回归树的解法，容易求出各切分点 $s$ 下

$\mathop{\min}_{c_1}\sum_{x\in R_1}{(y_i - c_1)}^2 + \mathop{\min}_{c_2}\sum_{x\in R_2}{(y_i - c_2)}^2$

其中 $R_1 = \{x \le s\}$ ， $R_2 = \{x \gt s\}$ ， $c_1$ 、 $c_2$ 易知为 $c_1 = \bar{y}I(x \in R_1)$ ， $c_2 = \bar{y}I(x \in R_2)$

当 $s = 1.5$ 时， $c_1 = 4.5$ ， $c_2 = (4.7+4.9+5.3+5.8+7+7.9)/6 = 5.93$ ， $g(s) = 0 + (4.7-5.93)^2+ (4.9-5.93)^2+ (5.3-5.93)^2+ (5.8-5.93)^2+ (7-5.93)^2+ (7.9-5.93)^2 = 8.0134$

当 $s = 2.5$ 时， $c_1 = (4.5+4.7)/2 = 4.6$ ， $c_2 = (4.9+5.3+5.8+7+7.9)/5 = 6.18$ ， $g(s) = (4.5-4.6)^2 + (4.7-4.6)^2+ (4.9-6.18)^2+ (5.3-6.18)^2+ (5.8-6.18)^2+ (7-6.18)^2+ (7.9-6.18)^2 = 6.208$

当 $s = 3.5$ 时， $c_1 = (4.5+4.7+4.9)/3 = 4.7$ ， $c_2 = (5.3+5.8+7+7.9)/4 = 6.5$ ， $g(s) = (4.5-4.7)^2 + (4.7-4.7)^2+ (4.9-4.7)^2+ (5.3-6.5)^2+ (5.8-6.5)^2+ (7-6.5)^2+ (7.9-6.5)^2 = 4.22$

当 $s = 4.5$ 时， $c_1 = (4.5+4.7+4.9+5.3)/4 = 4.85$ ， $c_2 = (5.8+7+7.9)/3 = 6.90$ ， $g(s) = (4.5-4.85)^2 + (4.7-4.85)^2+ (4.9-4.85)^2+ (5.3-4.85)^2+ (5.8-6.9)^2+ (7-6.9)^2+ (7.9-6.9)^2 = 2.57$

当 $s = 5.5$ 时， $c_1 = (4.5+4.7+4.9+5.3+5.8)/5 = 5.04$ ， $c_2 = (7+7.9)/2 = 7.45$ ， $g(s) = (4.5-5.04)^2 + (4.7-5.04)^2+ (4.9-5.04)^2+ (5.3-5.04)^2+ (5.8-5.04)^2+ (7-7.45)^2+ (7.9-7.45)^2 = 1.477$

当 $s = 6.5$ 时， $c_1 = (4.5+4.7+4.9+5.3+5.8+7)/6 = 5.37$ ， $c_2 = 7.9$ ， $g(s) = (4.5-5.37)^2 + (4.7-5.37)^2+ (4.9-5.37)^2+ (5.3-5.37)^2+ (5.8-5.37)^2+ (7-5.37)^2+ 0 = 4.2734$

$s$	1.5	2.5	3.5	4.5	5.5	6.5
$g (s)$	8.01	6.21	4.22	2.57	1.48	4.27

所以切分点 $s$ 应为5.5，即

$T_1(x) = \begin{cases} 5.04, & x \le 5.5 \\ 7.45, & x \gt 5.5 \end{cases}$

于是 $f_1(x) = T_1(x)$

用 $f_1(x)$ 拟合训练数据的平方损失为

$f_1(x)) = \sum_{i = 1}^{7}{(y_i - f_1(x_i))}^2 = 1.477$

下面用 $f_1(x)$ 拟合残差 $r_{2,i} = y_i - f_1(x_i)$ ：

$x_i$	1	2	3	4	5	6	7
$r_{2,i}$	-0.54	-0.34	-0.14	0.26	0.76	-0.45	0.45

接着求 $T_2(x)$ ，方法同求 $T_1(x)$ ，得

$s$	1.5	2.5	3.5	4.5	5.5	6.5
$g (s)$	1.14	0.92	0.87	1.14	1.48	1.24

所以切分点为3.5，即

$T_2(x) = \begin{cases} -0.34, & x \le 3.5 \\ 0.255, & x \gt 3.5 \end{cases}$

于是 $f_2(x) = f_1(x) + T_2(x)$ ，有

$f_2(x) = \begin{cases} 4.7, & x \le 3.5 \\ 5.295, & 3.5 \lt x \le 5.5 \\ 7.705, & x \gt 5.5 \end{cases}$

用 $f_2(x)$ 拟合训练数据的平方损失为

$f_2(x)) = \sum_{i = 1}^{7}{(y_i - f_2(x_i))}^2 = 0.870$

假设我们提前设定决策树的数量就是2，那么 $f_2(x)$ 即为所求，否则继续重复前面的运算直到决策树数量达到预先设定值 $M$ 或者 $f_m(x)$ 拟合训练数据的平方误差损失满足要求

梯度提升

梯度提升（Gradient boosting）是一种用于回归、分类和排序任务的机器学习技术，属于Boosting算法族的一部分。梯度提升通过集成多个弱学习器，通常是决策树，来构建最终的预测模型，在提升树的基础上，当损失函数不能使用便于计算的平方损失或者指数损失时，利用损失函数的负梯度

$-{\left[\frac{\partial{Loss(y, f(x_i))}}{\partial{f(x_i}}\right]}_{f(x) = f_{m-1}(x)}$

作为回归问题提升树算法中的残差的近似值，即

$r_{m,i} = -{\left[\frac{\partial{Loss(y, f(x_i))}}{\partial{f(x_i}}\right]}_{f(x) = f_{m-1}(x)}$

GBDT

参考：https://www.zybuluo.com/yxd/note/611571#gbdt算法

基于梯度提升算法的学习器叫做GBM(Gradient Boosting Machine)。理论上，GBM可以选择各种不同的学习算法作为基学习器。现实中，用得最多的基学习器是决策树。为什么梯度提升方法倾向于选择决策树（通常是CART树）作为基学习器呢？这与决策树算法自身的优点有很大的关系。决策树可以认为是if-then规则的集合，易于理解，可解释性强，预测速度快。同时，决策树算法相比于其他的算法需要更少的特征工程，比如可以不用做特征标准化，可以很好的处理字段缺失的数据，也可以不用关心特征间是否相互依赖等。决策树能够自动组合多个特征，学习特征之间更高级别的相互关系，它可以毫无压力地处理特征间的交互关系并且是非参数化的，因此你不必担心异常值或者数据是否线性可分（举个例子，决策树能轻松处理好类别A在某个特征维度x的末端，类别B在中间，然后类别A又出现在特征维度x前端的情况）。此外，模型很容易实现扩展。不过，单独使用决策树算法时，有容易过拟合缺点。所幸的是，通过各种方法，抑制决策树的复杂性，降低单颗决策树的拟合能力，再通过梯度提升的方法集成多个决策树，最终能够很好的解决过拟合的问题。由此可见，梯度提升方法和决策树学习算法可以互相取长补短，是一对完美的搭档。至于抑制单颗决策树的复杂度的方法有很多，比如限制树的最大深度、限制叶子节点的最少样本数量、限制节点分裂时的最少样本数量、吸收bagging的思想对训练样本采样（subsample），在学习单颗决策树时只使用一部分训练样本、借鉴随机森林的思路在学习单颗决策树时只采样一部分特征、在目标函数中添加正则项惩罚复杂的树结构（XGboost）等。现在主流的GBDT算法实现中这些方法基本上都有实现，因此GBDT算法的超参数还是比较多的，应用过程中需要精心调参，并用交叉验证的方法选择最佳参数。

具体的算法如下：

输入：训练数据集 $\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ， $x_i \in \mathcal{X}\subseteq \mathbb{R}^n$ ， $y_i \in \mathcal{Y}\subseteq \mathbb{R}$ ；损失函数 $L o s s (y, f (x))$ ；

输出：回归树 $\hat{f}(x)$

(1) 初始化

$f_0(x) = \mathop{\arg \min}_{c} \sum_{i = 1}^{N} Loss(y_i, c)$

(2) For $\cdots, M$ do:

(a) 计算

$r_{m,i} = -{\left[\frac{\partial{Loss(y, f(x_i))}}{\partial{f(x_i}}\right]}_{f(x) = f_{m-1}(x)}$

(b) 对(x_i, r_{m,i})拟合一个回归树，得到第m棵树的叶节点区域 $R_{m,j}$ ， $\cdots, J$

$c_{m,j} = \mathop{\arg\min}_{c} \sum_{x_i \in R_{m,j}}Loss(y_i, f_{m-1}+c)$

(d) 更新 $f_m(x) = f_{m-1}(x)+\sum_{j = 1}^{J}c_{m,j}I(x \in R_{m,j})$

(3) 得到回归树

$\hat{f}(x) = f_M(x) = \sum_{m = 1}^{M}\sum_{j = 1}^{J}c_{m,j}I(x \in R_{m,j})$

GBDT实例

我们仍以前面的例子为例，损失函数也仍然选择平方误差损失，我们看看结果是否会有不同

解第一步先初始化 $f_0(x)$ ，易知使平方误差损失达到最小的 $c$ 值为 $c_0 = \frac{1}{7}\sum_{i = 1}^{7}y_i = 5.73$ ，于是 $f_0(x) = c_0 = 5.73$

接着拟合第一轮的残差

$r_{1,i} = -{\left[\frac{\partial{Loss(y_i, f(x_i))}}{\partial{f(x_i)}}\right]}_{f_0(x)} = 2{[y_i-f(x_i)]}_{f_0(x)}$

于是有

$x_i$	1	2	3	4	5	6	7
$r_{1,i}$	-2.45	-2.06	-1.66	-0.86	0.14	2.54	4.34

对 $r_{1,i}$ 拟合回归树，易求得各切分点下的 $g (s)$ 为

$s$	1.5	2.5	3.5	4.5	5.5	6.5
$g (s)$	32.05	24.80	16.87	10.26	5.89	17.06

于是确定切分点 $s = 5.5$ ，叶节点区域 $R_{1,1} = \{x | x \le 5.5\}$ ， $R_{1,2} = \{x | x \gt 5.5\}$ ，有回归树

$T_1(x) = \begin{cases} -1.38, & x \le 5.5 \\ 3.44, & x \gt 5.5 \end{cases}$

进而有

$c_{1,1} = \frac{1}{5}\sum_{i = 1}^{5}[y_i - f_0(x_i)] = \frac{1}{5}\sum_{i = 1}^{5}y_i - f_0(x) = -0.69$

$c_{1,2} = \frac{1}{2}\sum_{i = 6,7}[y_i - f_0(x_i)] = \frac{1}{5}\sum_{i = 6,7}y_i - f_0(x) = 1.72$

最后学得

$f_1(x) = f_0(x) + \sum_{j = 1}^{2}c_{1,j}I(x \in R_{1,j}) = \begin{cases} 5.04, & x \le 5.5 \\ 7.45, & x \gt 5.5 \end{cases}$

用 $f_1(x)$ 拟合训练数据的平方损失误差：

$Loss(y,f_1(x)) = \sum_{i = 1}^{7}{[y_i-f_1(x_i)]}^2 = 1.477$

至此我们可以看到虽然学习过程不同，但是学得的 $f_1(x)$ 和提升树是相同的，那么继续下一轮的学习，计算

$r_{2,i} = -{\left[\frac{\partial{Loss(y_i, f(x_i))}}{\partial{f(x_i)}}\right]}_{f_1(x)} = 2{[y_i-f(x_i)]}_{f_1(x)}$

于是有

$x_i$	1	2	3	4	5	6	7
$r_{2,i}$	-1.08	-0.68	-0.28	0.52	1.52	-0.9	0.9

对 $r_{2,i}$ 拟合回归树，易求得各切分点下的 $g (s)$ 为

$s$	1.5	2.5	3.5	4.5	5.5	6.5
$g (s)$	4.55	3.74	3.48	4.56	5.89	4.96

于是确定切分点 $s = 3.5$ ，叶节点区域 $R_{2,1} = \{x | x \le 3.5\}$ ， $R_{2,2} = \{x | x \gt 3.5\}$ ，有回归树

$T_1(x) = \begin{cases} -0.68, & x \le 3.5 \\ 0.51, & x \gt 3.5 \end{cases}$

进而有

$c_{2,1} = \frac{1}{3}\sum_{i = 1}^{3}[y_i - f_1(x_i)] = \frac{1}{3}\sum_{i = 1}^{3}y_i - f_1(x) = -0.34$

$c_{2,2} = \frac{1}{4}\sum_{i = 4}^{7}[y_i - f_1(x_i)] = \frac{1}{4}\left[ \sum_{i = 4}^{7}y_i - \sum_{i = 4}^{7}f_1(x_i) \right] = 0.255$

你可能感兴趣的:(python,机器学习)

python实战项目34：基于flask的天气数据可视化系统1.0 wp_tao Python副业接单实战项目 flask 信息可视化 python
基于flask的天气数据可视化系统1.0一、效果展示二、flask简介三、图表绘制四、前端页面编写五、完整代码一、效果展示该flask项目相对简单入门，使用了flask框架、bootstrap前端技术，数据使用的是上一篇scrapy爬取城市天气数据中爬取到的数据。二、flask简介Flask是一个基于Python的Web开发框架，它以灵活、微框架著称，基于werkzeug的轻量级web框架，可提高
Jira用例自动去除summary重复用例吾爱乐享 w w w w .f e n
title:Jira用例自动去除summary重复用例tags:-jira-pythoncategories:-python一、背景与需求二、解决方案思路三、实施步骤本文永久更新地址:在使用Jira进行项目管理时，测试用例的维护至关重要。随着项目推进，用例数量增多，可能会出现summary重复的情况，手动排查费时费力，因此实现自动去除重复用例功能意义重大。一、背景与需求项目团队在Jira中积累了大
RPA与Python 空着
部分朋友可能是了解Python的。Python这两年，火的两点，就是聚焦于两个场景：数据抓取和办公自动化。那么Python算RPA吗？RPA是一种概念，依托于这个概念诞生了很多产品。而Python是一种计算机语言，Python不仅仅可以做RPA概念范围内的东西，还可以做其他东西。但是，Python做数据抓取也好，做办公自动化也好，他都是聚焦于具体的场景本身。而并非聚焦于RPA概念上的。所以，很少见
Python爬虫技术第12节设置headers和cookies hummhumm python 爬虫开发语言 django flask java spring
在使用Python进行网络爬虫开发时，经常需要模拟浏览器行为，这包括设置请求头（headers）和处理cookies。下面我将详细介绍如何在Python中使用requests库来设置headers和处理cookies。设置HeadersHeaders包含了客户端发送给服务器的信息，比如用户代理（User-Agent）、接受的内容类型（Accept）、语言偏好（Accept-Language）等。设
Python爬虫技术第16节 XPath hummhumm python 爬虫开发语言 flask java maven java-ee
XPath是一种在XML文档中查找信息的语言，尽管XML和HTML在语法上有区别，但XPath同样适用于HTML文档的解析，尤其是在使用如lxml这样的库时。XPath提供了一种强大的方法来定位和提取XML/HTML文档中的元素和属性。XPath基础XPath表达式由路径表达式组成，它们指定了文档中的位置。下面是一些基本的XPath语法：根节点：/表示绝对路径的开始，指向文档的根节点。//表示从当
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
【实践】Python实现气象数据分析与可视化大数据张老师 Python程序设计信息可视化 python 数据分析可视化
一、项目需求在本节中，我们将明确“气象数据分析与可视化”项目的需求，定义项目的功能和目标，为后续的实现奠定基础。通过本项目，读者将学习如何使用Python的各种数据处理和可视化工具来分析和展示气象数据，从而掌握数据处理与可视化的核心技能。1.项目目标“气象数据分析与可视化”项目的目标是通过对历史气象数据的处理和分析，生成直观的图表和统计结果，帮助用户理解气象趋势并预测未来变化。项目的主要功能如下：
证券量化交易选择合适的编程语言 jcsx 量化 numpy pandas pyqt servlet javascript
在证券量化交易中，选择合适的编程语言至关重要，因为它直接影响到开发效率、运行速度和策略的灵活性。常用的编程语言有几个，它们各自有不同的优势和应用场景。以下是一些在量化交易中常用的编程语言：PythonPython是目前量化交易中最流行的编程语言之一，特别是在金融数据分析和模型开发中，广泛被使用。Python的流行主要有以下原因：数据处理能力：Python有非常强大的数据处理库，如pandas（数据
基于 Jenkins 的测试报告获取与处理并写入 Jira Wiki 的技术总结吾爱乐享 w w w w .f e n
title:基于Jenkins的测试报告获取与处理并写入JiraWiki的技术总结tags:-jenkins-pythoncategories:-jenkins在软件开发的持续集成与持续交付（CI/CD）流程里，及时、准确地获取并分析测试报告对保障软件质量至关重要。本文将详细阐述如何借助Jenkins搭建自动化系统，实现批量触发测试任务、获取测试报告关键信息并写入JiraWiki的全流程自动化，为
已解决python 的SyntaxError ：invalid syntax异常正确解决办法，亲测有效，嘿嘿嘿代码无疆 Python python 开发语言
文章目录问题分析报错原因解决思路解决方法示例1：拼写错误示例2：缺少符号示例3：错误的缩进示例4：错误的语句结构SyntaxError:invalidsyntax异常是Python中最常见的错误之一，它表示代码中存在语法错误。这种错误通常发生在Python解释器无法理解你的代码时，比如因为拼写错误、缺少符号、错误的缩进、不正确的语句结构等。问题分析当Python解释器报告SyntaxError:i
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
Python设计模式 - 抽象工厂模式 mofei12138 设计模式 python python 设计模式抽象工厂模式
定义抽象工厂模式是一种创建型设计模式，它提供了一种创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。产品等级结构与产品族为了更好地理解抽象工厂模式，先引入两个概念：产品等级结构：就是产品的继承结构。例如电视机抽象类有A品牌电视机子类和B品牌电视机子类，那么抽象电视机和具体品牌的电视机就构成了一个产品等级结构。产品族：同一个工厂生产的，位于不同产品等级结构中的一组产品。例如海尔工厂生产的海
【Python设计模式07】工厂方法模式一碗姜汤设计模式 python 设计模式工厂方法模式
工厂方法模式（FactoryMethodPattern）是一种创建型设计模式，它定义了一个用于创建对象的接口，让子类决定实例化哪一个类。工厂方法使得一个类的实例化延迟到其子类。通过使用工厂方法模式，可以将对象的创建过程与使用过程分离，从而提高代码的灵活性和可扩展性。工厂方法模式的结构工厂方法模式主要包括以下几个角色：抽象产品（Product）：定义产品的接口。具体产品（ConcreteProduc
分形、大自然的分形几何、数据可视化、Python绘图 timedot-hj python绘图指南 -分形与数据可视化可视化 python 几何学算法
分形、大自然的分形几何、数据可视化、Python绘图中国传统中的『分形』大自然的分形几何数据可视化本系列采用turtle、matplotlib、numpy这三个Python工具，以分形与计算机图像处理的经典算法为实例，通过程序和图像，来帮助读者一步步掌握Python绘图和数据可视化的方法和技巧，并且让读者感受到“龙枝屈曲竞分形，瑰丽绮错千万状”的分形魅力。本系列共有八章，分别为海岸线有多长，基因与
python用电预测_用Python实时追踪你家的电量使用情况 weixin_39626745 python用电预测
现在的电表(附在你家房子外面的玩意)在每瓦时电量被使用后就会发出一下红外闪光，穿过电表顶部的端口。事实证明，你可以很容易地监测这一闪光，把它解码变成“实时的”电量使用情况，然后做成像这样酷的图表：Y轴表示实时功率，单位是KW，X轴表示时间。这闪光灯，好像有很高的瞬间准确度，至少我家的是这样，这意味着当1瓦时电量被使用时，它会很精确地闪了。这实在太棒了，因为它使得显示精确、实时的电量使用情况可以实现
Python Web开发 twc829 Python
Web开发介绍一、Web开发概述1C/S结构和B/S结构C/S—Client/Server，即客户机/服务器结构B/S—Browse/Server，即浏览器/服务器结构2B/S结构的优势2.1不用通知客户端安装某个软件2.2不用通知客户端升级2.3可轻松地实现跨平台3访问网站过程用户向服务器发起请求，服务器将HTML文件返回给用户，浏览器将HTML文件渲染成用户看到的网站；4分类4.1静态网站用户
如何优化Python开发：PIP和Anaconda的作用及国内源设置指南 Chaiio Dain python python pip 开发语言 conda
前言在现代数据科学和软件开发的世界中，Python已经成为了最受欢迎的编程语言之一。其强大的生态系统和丰富的第三方库使得开发者可以快速构建各种应用程序和解决方案。然而，随着项目规模的扩大和复杂性的增加，管理Python包和依赖项变得尤为重要。PIP（Python包管理工具）和Anaconda（一个开源的Python发行版）就是在这种背景下应运而生的重要工具。PIP和Anaconda不仅简化了包的安
配置pip安装源勤劳的搬砖工。 pip python linux
在Linux下配置pip的安装源折磨人的下载速度用过pip的人都知道，pip的下载速度简直令人窒息，有时候好有时候坏，简直全靠运气，甚至施加魔法也不行，所以选择配置一个下载源，从国内下载python包就显得很快，说实话百度网盘都比pip快。Linux下配置python2的安装源总所周知，python2和python3不一样，所以他们pip也不一样，配置也不一样修改工作目录下的.pip/pip.co
FastAPI介绍 -zZR fastapi python
1.fastapi介绍一个用于构建API的现代、快速（高性能）的web框架。特点快速：可与NodeJS和Go并肩的极高性能（归功于Starlette和Pydantic）。最快的Pythonweb框架之一。高效编码：提高功能开发速度约200％至300％。更少bug：减少约40％的人为（开发者）导致错误。智能：极佳的编辑器支持。处处皆可自动补全，减少调试时间。简单：设计的易于使用和学习，阅读文档的时
Python 潮流周刊#87：媲美 OpenAI-o1 的开源模型（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。本期分享了12篇文章，12个开源项目。下周因春节假期停更一周，提前恭祝大家蛇年吉祥，万事顺意！（PS.我在Python猫公众号给大家准备了一些红包封面，免费领取哟～）以下是本期摘要：文章&教程①优
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
一、新手学习爬虫第一课对网站发起请求（基于python语言） [木子加贝] python自学爬虫学习爬虫 python 开发语言后端
目录前言一、安装并引用请求模块requests1.安装请求模块2.引用requests请求模块3.引用requests请求模块并使用别名二、发起请求1.对网站发起get请求（最常用的请求）：（1）第一种方法（字符串）（2）第二种方法（变量）（3）第三种方法（关键字传参）2.对网站发起带参数的get请求：3.对网站发起post请求：4.对网站发JSON数据的post请求：4.注意事项总结前言爬虫的本
【Python Web开发】Python Web开发知识全解析萧鼎 python基础到进阶教程 python 前端开发语言
PythonWeb开发知识全解析Python是一种强大的编程语言，以其简洁和高效而闻名，尤其在Web开发领域，它有着广泛的应用。Python提供了许多功能强大且灵活的Web框架，如Flask、Django、FastAPI等，使得构建现代Web应用变得简单而高效。本文将从PythonWeb开发的基本知识入手，逐步介绍开发流程、核心技术以及如何使用Python框架构建高效、可扩展的Web应用。1.什么
【Pip】配置和优化 `pip` 安装源：提升 Python 包管理体验的全面指南丶2136 #pip pip python 开发语言
目录引言一、什么是`pip`配置文件？1.1配置文件的类型与位置二、配置文件的结构与配置项2.1中英文注释配置文件示例三、详细解析配置项3.1镜像源设置（`index-url`和`extra-index-url`）3.2代理设置（`proxy`）3.3安装选项（`no-deps`和`user`）3.4缓存控制（`no-cache-dir`和`cache-dir`）3.5日志和调试（`verbose
奥比中光Geminipro相机使用一傲 python 开发语言
相机使用入门，使用python获取深度图和颜色图并显示。#安装依赖importcv2importnumpyasnpfrommatplotlibimportpyplotasplt#奥比中光OrbbecPythonSDKfromObTypesimport*fromPropertyimport*importPipelineimportStreamProfilefromErrorimportObExcep
2021 年 GitHub 上十大最火 Python 项目，看完之后我裂开了酔清风 python github python 开发语言
GitHub作为程序员每天必逛的网站之一，上面有着太多优秀的开源项目，今天派森酱就带大家来梳理下在过去的一年里，GitHub上最火的Python项目Top10。数据获取如果你留心看过GitHub的文档的话，你就会知道关于GitHub上的大部分数据，GitHub官方都是提供了接口了的。比如我们今天要获取的数据就可以从下面这个接口拿到。https://api.github.com/search/rep
一、PyCharm(Professional)搭建Django环境郝家伙~ pycharm ide python django
目录一、创建项目1.左侧选择Django框架2.点击create开始创建项目3.下载Django失败，使用默认源下载可能失败，需要指定其他源，这里使用阿里源4.手动创建项目django-adminstartproject项目名称5.进入当前项目创建应用python3manage.pystartappsign6.点击运行按钮或终端运行项目python3manage.pyrunserverip:端口，
django项目部署ubuntu服务器,Ubuntu部署Django项目方法详解 weixin_39965075
教程使用的软件版本：Ubuntu18.04.1LTS，django2.0，Python3.6.5、nginx-1.13.7、uWSGI(2.0.17.1)，Ubuntu是纯净的，全新的。下面我们开始来部署。如果觉得看文字没意思，想看视频教程的，请点击这里：Django项目部署视频教程一、更新操作系统和安装依赖包#更新操作系统软件库sudoapt-getupdatesudoapt-getupgrad
python模块os和 importlib实战指南 ivwdcwso 开发运维 python 服务器运维开发 devops
os和importlib是Python中两个非常强大的模块，分别用于与操作系统交互和动态导入模块。本文将通过实际代码示例，展示如何在实际项目中使用这两个模块，帮助你更好地理解它们的用途和应用场景。©ivwdcwso(ID:u012172506)1.os模块实战os模块主要用于与操作系统交互，例如读取环境变量、操作文件路径、执行系统命令等。以下是os模块的常见实战场景。1.1读取环境变量在开发中，我
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

【机器学习笔记】——Bagging、Boosting、Stacking（RF / Adaboost / Boosting Tree / GBM / GBDT / XGBoost / LightGBM）

目 录

集成学习

概念

思维导图

Bagging算法

概念

编程（分类）

随机森林

扩展

Extremely randomized Trees

*Totally Random Trees Embedding

*Isolation Forest

编程（分类）

为什么说Bagging通过减小方差来提升精度

Boosting

Adaboost

实例

模型推导

为什么说Boosting通过减小偏差来提升精度

*多分类任务

adaboost M1方法

adaboost MH方法

对多分类输出进行二进制编码

编程（分类）

*训练误差分析

*过拟合分析

总结

提升树

实例

梯度提升

GBDT

GBDT实例

你可能感兴趣的:(python,机器学习)

目录