提升方法(集成学习)

集成学习总结:
思想:
由多个分类器组合成一个性能更好的分类器。每个分类器应该好而不同,即本身准确率要足够高,并且之间要有多样性。
集成学习研究的核心:如何产生好而不同的分类器?既满足准确性又满足多样性
分类:
1)序列化方法:
个体之间存在强依赖关系,必须串行生成。boosting,是利用不同模型的相加,构成一个更好的模型,求取模型一般都采用序列化方法,后面的模型依据前面的模型。
boosting——学习机制:
先学习一个基学习器,然后根据学习器的表现对训练样本的分布进行调整,使先前分类错误的样本在后续受到更多的关注
重复,直到产生预先设定的基学习器个数,最终将这些学习器进行加权组合
改变权重的方式:
1)重赋权法
2)重采样法
代表:
Adboost
提升树,
用树做基学习器——用残差不断拟合出新的树,加到树上
梯度提升树,与提升树的区别在于,残差的计算不同,普通的提升树的残差是真正的差,梯度提升树用当前模型的负梯度来拟合残差
2)并行化方法:不存在依赖关系,可同时生成。bagging,是对训练样本随机抽样,训练处不同的模型,然后组合。
自助采样法(训练集中有放回的随机抽取m个样本)
构建T个采样集,训练T个分类器,然后结合(分类任务简单的投票,回归任务采用平均法)
代表:RF 随机森林
随机森林
,相对于普通的bagging,引入了随机属性,在每个节点选择属性时,引入随机性(先在所有属性中,选择k个属性,在这些属性中选最优)

你可能感兴趣的:(机器学习)