集成学习-机器学习

集成学习:

集成学习就是对多个弱监督学习模型进行组合来生成一个更好更全面的强监督模型,集成学习的思想在于;即便其中一个弱分类器分类错误了,其他模型也会将错误进行纠正。

集成学习就是将多个模型进行组合,生成一个预测模型的算法,已达到减小方差,偏差或者是改进预测的效果。

数据及大:集成学习会将数据进行划分。将大数据化划分成多个小数据。

对于数据小:可以使用BoostStrap方法进行抽样,得道多个数据集,分别训练多个模型在进行组合。

基础学习方法的分类:分为:

序列集成学习方法:通过采用一定的顺序来进行模型的组合。参与模型组合的基分类器是按照一定的顺序来进行生成的。主要是基于基础学习器之间的依赖关系,对于之前错误分类较高的样本赋予较高的权重,提高模型的总体分类效果。

并行集成学习方法:参与学习的模型是并行生成的,分类器之间是独立的。这里主要就是利用及基分类器之间的独立性,通过平均的方法来提高模型的总体效果。

基础学习的特点:
将多个分类器进行组合来提高模型总体的分类效果。(这些算法可以是相同的算法,也可以是不同的算法,)

通过训练数据构建一组基分类器,然后通过对各种基分类器的分类效果进行投票评分来进行分类。

集成学习不是一种分类器,是一种将分类器进行结合的方法。
一般情况下,多种分类器的效果会高于一种分类器的效果。

集成学习就是:相当于就是利用多个决策者来进行决策的过程,进行一项决策的过程。

基础学习的方法:一般来说有三种:
bagging boosting stracking

bagging:

bagging的方法需要将算法是分为三个步骤:
1:将训练数据进行多轮随机抽取。
每轮都从原原始数据中利用boostingstroing来随机抽取,是一种有放回的抽样,进行k轮抽样,得到k个数据集,其中k个数据及之间是相互独立的,在进行数据抽取的过程中,可能一些数据一直都会被抽到,有一下数据可能会被多次抽到。
2、每一类数据进行训练得到一个基分类器,k个数据得到k个基分类器。
3、分类。将多个基分类器通过投票的方式进行分类,得到分类结果,然后欧计算多个基分类器的结果的平均值作为最后的结果。(在这里所以基分类器的重要性都是一样的。)

集成学习-机器学习_第1张图片

bagging方法的特点:
bagging方法是通过降低及分类器的方差,来提高模型的泛化能力。
bagging方法:对于基分类器不稳定的情况,bagging方法可以有效降低数据的随机波动所带来误差;如果基分类器是稳定,模型型的误差主要就是由于及分类器的偏倚所引起的。

bagging在进行数据抽样时们对于每个样本的抽取的概率都是相同的,没有存在偏差。

同时,在进行评分计算时,模型对于内个基分类器的重要性都是样的,并没有权重的偏倚。

boosting

主要思想就是将多个弱分类器进行集成一个强分类器。

两个关键问题:
1;如何赋予不同的分类样本不同的权重?
在对数据进行分类之后,对于上一次分类效果差的训练样本,会赋予更高的权重,会更加关注学习错误的样本,在之后的训练过程中么会更加关注之前学习错误的样本,然后会得到多个不同的预测函数,通过拟合残差的方式来逐步减小残差,将每一步训练的模型进行叠加得到最后的分类模型。

2、通过什么样的方式来进行模型的组合?
通过加法来家昂多个弱分类器进行线性组合。
比如:
adaboost:
刚开始时。对于每个训练样例都赋予相同的权重,然后利用该算法进行迭代计算,每次训练都将训练失败的样例赋予较高的权重,得到多个预测函数,然后通过拟合残差的方式来降低残差,然后将每一步迭代计算的模型进行叠加作为最后的模型。

GBDT:每一次的计算都是将为了减小上一次训练的残差,模型在残差减小的方向上建立了一个新的模型。
集成学习-机器学习_第2张图片

stracking

思想就是训练一个模型来组合多个模型。将多模型的输出作为输入来训练一个模型,将模型输出作为最终的输出。

模型首先通过booststrap方法进行抽样得到多个训练数据集。,得到一系列的分类模型,然后将输出作为模型的输入训练第二层分类器。

集成学习-机器学习_第3张图片

二、Bagging,Boosting二者之间的区别

1、Bagging和Boosting的区别:

1)样本选择上:

Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。

Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2)样例权重:

Bagging:使用均匀取样,每个样例的权重相等

Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。

3)预测函数:

Bagging:所有预测函数的权重相等。

Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。

4)并行计算:

Bagging:各个预测函数可以并行生成

Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。

2、决策树与这些算法框架进行结合所得到的新的算法:

1)Bagging + 决策树 = 随机森林

2)AdaBoost + 决策树 = 提升树

3)Gradient Boosting + 决策树 = GBDT

你可能感兴趣的:(集成学习)