机器学习 | 集成学习

集成学习

集成学习的思想是将若干个学习器（分类器&回归器）组合之后产生一个新学习器

Why need Ensemble Learning?

弱分类器间存在一定的差异性，这会导致分类的边界不同，也就是说可能存在错误。那么将多个弱分类器合并后，就可以得到更加合理的边界，减少整体的错误率，实现更好的效果；
对于数据集过大或者过小，可以分别进行划分和有放回的操作产生不同的数据子集，然后使用数据子集训练不同的分类器，最终再合并成为一个大的分类器；
如果数据的划分边界过于复杂，使用线性模型很难描述情况，那么可以训练多个模型，然后再进行模型的融合；
对于多个异构的特征集的时候，很难进行融合，那么可以考虑每个数据集构建一个分类模型，然后将多个模型融合。

常见的集成学习思想有：

Bagging
Boosting
Stacking

Bagging

Bagging方法又叫做自举汇聚法（Bootstrap Aggregating），思想是：在原始数据集上通过有放回的抽样的方式，重新选择出S个新数据集来分别训练S个分类器的集成技术。也就是说这些模型的训练数据中允许存在重复数据。

Bagging方法训练出来的模型在预测新样本分类的时候，会使用多数投票或者求均值的方式来统计最终的分类结果。

随机森林（Random Forest）

在Bagging策略的基础上进行修改后的一种算法

从样本集中用Bootstrap采样选出n个样本；
从所有属性中随机选择K个属性，选择出最佳分割属性作为节点创建决策树；
重复以上两步m次，即建立m棵决策树；
这m个决策树形成随机森林，通过投票表决结果决定数据属于那一类

RF的主要优点：

训练可以并行化，对于大规模样本的训练具有速度的优势；
由于进行随机选择决策树划分特征列表，这样在样本维度比较高的时候，仍然具有比较高的训练性能；
可以给出各个特征的重要性列表；
由于存在随机抽样，训练出来的模型方差小，泛化能力强；
RF实现简单；
对于部分特征的缺失不敏感。

RF的主要缺点：

在某些噪音比较大的特征上，RF模型容易陷入过拟合；
取值比较多的划分特征对RF的决策会产生更大的影响，从而有可能影响模型的效果。

常见的RF变种算法如下：

Extra Tree
Totally Random Trees Embedding（TRTE）
Isolation Forest

Extra Tree

Extra Tree是RF的一个变种，原理基本和RF一样，区别如下：

RF会随机采样来作为子决策树的训练集，而Extra Tree每个子决策树采用原始数据集训练；
RF在选择划分特征点的时候会和传统决策树一样，会基于信息增益、信息增益率、基尼系数、均方差等原则来选择最优特征值；而Extra Tree会随机的选择一个特征值来划分决策树。

TRTE

TRTE是一种非监督的数据转化方式，将低维的数据集映射到高维，从而让映射到高维的数据更好的应用于分类回归模型。

Isolation Forest（IForest）

IForest是一种异常点检测算法，使用类似RF的方式来检测异常点；IForest算法和RF算法的区别在于：

在随机采样的过程中，一般只需要少量数据即可；
在进行决策树构建过程中，IForest算法会随机选择一个划分特征，并对划分特征随机选择一个划分阈值；
IForest算法构建的决策树一般深度max_depth是比较小的。

对于异常点的判断，则是将测试样本x拟合到T棵决策树上。计算在每棵树上该样本的叶子节点的深度h_t(x)，从而计算出平均深度h(x)；然后就可以使用下列公式计算样本点x的异常概率值，p(s,m)的取值范围为[0,1]，越接近于1，则是异常点的概率越大。

p(x,m) = 2^-h(x)/c(m)
c(m) = 2ln(m - 1) + ξ -2(m - 1)/m; m为样本个数, ξ为欧拉常数

Boosting

提升学习（Boosting）是一种机器学习技术，可以用于回归和分类的问题，它每一步产生弱预测模型（如决策树），并加权累加到总模型中；如果每一步的弱预测模型的生成都是依据损失函数的梯度方式的，那么就称为梯度提升（Gradient boosting）

常见的模型有：

Adaboost
Gradient Boosting（GBT/GBDT/GBRT）

Adaboost

Adaptive Boosting是一种迭代算法。每轮迭代中会在训练集上产生一个新的学习器，然后使用该学习器对所有样本进行预测，以评估每个样本的重要性（Informative）。
算法会为每个样本赋予一个权重，每次用训练好的学习器标注/预测各个样本，如果某个样本点被预测的越正确，则将其权重降低；否则提高样本的权重。权重越高的样本在下一个迭代训练中所占的比重就越大，也就是说越难区分的样本在训练过程中会变得越重要；

AdaBoost的缺点如下：
对异常样本敏感，异常样本可能会在迭代过程中获得较高的权重值，最终影响模型效果。

Stacking

Stacking是指训练一个模型用于组合其它模型（基模型/基学习器）的技术。即首先训练出多个不同的模型，然后再以之前训练的各个模型的输出作为输入来新训练一个新的模型，从而得到一个最终的模型。
一般情况下使用单层的Logistic回归作为组合模型。