随机森林原理(接着上次的决策树)

随机森林(random forest)

  • Random Forest 流程:
    • bagging(bootstrap aggregation)
    • 生成决策树
    • 对每一个输入进行所有决策树的过滤
    • 使用mean-信息增益Gini生成评分
  • bagging:bootstrap aggregation,bootstrap表示有放回的取出样本(jack knife,每次移除一个样本).而bagging是指使用bootstrap取样,从m个中取n个样本,并取出k组,对每一组进行训练模型,形成f1...fn个模型,对于新的测试数据,通过这k个模型,最后回归使用求平均,而分类问题使用类别最多的结果.
  • 决策树群:根据决策树的算法,建立多个决策树,如bagging那样的原理
  • 评分:
  • 根据决策树的信息信息增益评分:通过每一棵决策树的信息增益结果,取得每棵树的平均得分作为得分
  • Gini评分:在Cart算法中,Gini评分会对每一个非叶节点形成评分,最后形成每个特征的评分
  • 流程:
  • 输入数据集
  • bagging选取k组n个样本集
  • 随机选择m个特征
  • 建立k个决策树,并得到m个特征的评分(如sk-learn中就是Gini评分)
  • 过滤测试样本,通过选取数量最多的为结果
  • genelization error:泛化误差,RF的泛化误差比较小

你可能感兴趣的:(随机森林原理(接着上次的决策树))