机器学习算法总结10:Bagging及随机森林

Bagging是并行式集成学习方法最著名的代表,可以用于分类任务,也可以用于回归任务,被誉为“代表集成学习技术水平的方法”。不同于Boosting方法对训练数据集赋予不同的权重训练基学习器,Bagging采用“重采样法”,将训练数据集进行采样,进而产生若干个不同的子集,再从每个数据子集中训练出一个基学习器,然后使用结合策略得到强学习器。
为得到不同的采样集,使用自助采样法进行采样:给定包含m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始训练集,使得下次采样时该样本仍有可能被选中,这样,经过m次随机采样,得到含m个样本的采样集,初始训练集中有的样本在采样集里出现多次,有的则从未出现。
Bagging通常对分类任务使用简单投票法,对回归任务使用简单平均法。
Bagging算法如下:
机器学习算法总结10:Bagging及随机森林_第1张图片
其中,Dbs是自助采样产生的样本分布。
从偏差-方差分解的角度看,Bagging主要关注降低方差。
随机森林(Random Forest,RF) 是Bagging的一个拓展变体。
RF在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择
随机属性选择:
传统决策树在选择划分属性时在当前结点的属性集合(假定有d个属性)中选择一个最优属性;而在RF中,对基决策树的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。
在这里插入图片描述
随机森林的优点
随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛化能力可通过个体学习器之间的差异度的增加而进一步提升。

你可能感兴趣的:(机器学习)