集成学习总结

近日在学习集成学习,在此总结一下集成学习的思路,本稿仍未完结,待补充。

  • 思想:Bootstraping
  • 应用:Bagging
  • 应用:Boosting
  • 应用:Random Forest

Bootstraping

名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:
  (1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。
  (2) 根据抽出的样本计算给定的统计量T。
  (3) 重复上述N次(一般大于1000),得到N个统计量T。
  (4) 计算上述N个统计量T的样本方差,得到统计量的方差。
  应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。
  Bootstrap是接下来介绍的bagging,boosting,random forest方法的思想核心。

Bagging可以考虑为对于n个待训练的分类器,从训练集中抽取n个子集进行训练,训练出来的n个分类器,以投票方式进行分类。

Boosting可以理解为对于n个待训练的分类器,先从训练集中抽取初始训练子集,并进行训练和测试,根据测试结果,在下一次抽取训练子集的时候,采用加权的方式,给以在上一个分类器中分类错误的样本更大的被选中的概率,从而生成第二个训练集并训练得到第二个分类器,以此类推。

Random Forest可以理解为对于每颗树,从特征集中选取子特征集,并且在训练集中选取子训练集,训练出n颗树,使用投票的方式进行分类。

你可能感兴趣的:(机器学习)