深度学习理论——简述Bagging & Stacking

大家好,这次来简单记录一下剩下这几种集成学习的概念,就不推公式了,比较简单。

1.Bagging

Bagging是并行式学习的典型代表,各种基学习器并行对对应的子数据集进行学习后,将学习结果进行汇总得出最后的结论。为了增加数据集的多样性,我们让每个基学习器学习数据集的一个子集,但是害怕子集选取的类型不完备,可能每个检测器检测出来的结果会大相径庭,所以我们采取又放回的抽样,在数据集中抽取数据后再放回供下一次抽取。这样得到m个子数据集,初始训练集中有的样本在采样集中多次出现有的从未出现,初始训练集的样本出现在采样集中的概率为63.2%。剩下的未出现的36.8%的数据我们还可以作为验证集。

Boosting注重关注减小偏差,而bagging注重关注减小方差。

2.随机森林(RF)

随机森林是以决策树为基学习器的Bagging集成学习的基础上,进一步在决策树的学习过程中引入随机属性选择。在决定每个基决策树每个结点选择什么属性时,普通的决策树选择最优属性,而RF首先从属性集中随机选取一个属性子集,从属性子集中选择最优属性。

3.Stacking

得到许多并行基学习器的学习结果之后,有许多中汇总方法,例如加权平均或加权投票等方法,而Stacking使用的是学习法。即使用一个次级学习器来学习基学习器的学习结果得出最终结论。

4.多样性增强

为了防止过拟合,增强学习能力,我们要不遗余力地增强学习器的多样性。方法主要分为四个方面:

(1)数据样本扰动

例如Bagging的自助采样和Boosting的序列采样等,这些方法对不稳定的基学习器非常有效,对支持向量机,朴素贝叶斯等对数据扰动不敏感的稳定的基学习器不太有效。

(2)输入属性扰动

对属性取子集再从中进行学习或去掉冗余属性。

(3)输出表示扰动

对训练样本的输出标记进行扰动。

(4)算法参数扰动

强制训练网络使用不同的参数再进行训练。

 

希望对理解深度学习有帮助吧,我们下期见!

你可能感兴趣的:(深度学习)