机器学习学习笔记 1 Bagging模型

Bagging模型

  • Bagging全称(bootstrap aggregation)并行训练一堆分类器的集成方法。
    • 每个基模型可以分别、独立、互不影响地生成
  • 最典型的代表就是随机森林
    • 随机:数据采样随机,特征选择随机
    • 森林:很多决策树并行放在一起
  • 由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样
  • 之所以随机选择,是要保证泛化能力,如果树都一样,那就失去参考价值
  • 随机森林(RF)的优势:
    • 它能够处理很高维度(Feature很多)的数据,并且不用做特征选择
    • 在训练完后,能够给出那些feature更重要
    • 容易做成并行化方法,速度比较快F
    • 可以进行可视化展示,便于分析
  • 理论上越多的树效果会越好,但实际上基本超过一定数量就差不多上下浮动
  • Bagging策略
    • 首先对训练数据进行多次随机采样,保证每次得到的是采样数据都是不同的
    • 分别训练多个模型,例如树模型(每次使用一份训练集训练一个模型,k 个训练集共得到 k 个基模型)
      • 注:这里没有具体的分类算法或回归方法,需要根据具体问题采用不同的分类或回归方法,如决策树、感知器等
    • 预测时需得到所有模型结果再进行集成(利用这k个基模型对测试集进行预测,将k个预测结果进行聚合)
      • 分类问题:将上步得到的k个模型采用投票的方式得到分类结果
      • 回归问题:计算上述模型的均值作为最后的结果,所有模型的重要性相同
  • 随机采样(bootstrap sample)从n个数据点中有放回地重复随机抽取一个样本(即同一个样本可被多次抽取),共抽取n次
  • OOB策略(袋外数据)
    • 就是bagging中每一棵树选择的数据中不在训练集中的
    • 可以直接用于进行验证模型
  • Bagging + 决策树 = 随机森林

你可能感兴趣的:(机器学习学习笔记,机器学习,笔记,决策树)