Bagging(并行式集成学习方法代表)和随机森林(Bagging的一个扩展变体)

一、Bagging

(1)基本思想

初始训练集包含m个样本,自助采样法采用有放回抽样,合理性保证:

  ,即至少有近三分之一的初始训练样本不出现在训练样本子集中。

 

通过自助采样法采样出T个含m个样本的训练子集,然后在T个训练子集上训练T个基学习器,在组合这些基学习器,称为Bagging

(2)预测输出

分类—投票法,若遇到同票情形,随机选取或进一步考察学习器投票置信度来决定分类;

回归—平均法

注:Bagging主要关注降低方差;可用于多分类、回归等任务。

二、随机森林(RF)

(1)基本思想

决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入随机属性选择。具体来说,RF中,对基决策树的每个节点,先从该节点的属性集合中随机选取k个属性作为一个子集,然后再从子集中选择一个最优属性用于划分。参数k控制随机性的引入程度,一般取,d指所有的属性。

三、二者对比

(1)Bagging中基学习器的“多样性”仅来自于样本扰动(自助采样),随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,使得最终集成的学习器的泛化性能进一步提升。

(2)随机森林的起始性能相对较差,但随个体学习器数目增加,RF会收敛到更低的泛化误差。RF的训练效率常优于Bagging。

 

你可能感兴趣的:(算法)