机器学习进阶第三节-决策树随机森林

决策树

ID3 使用信息增益/互信息进行特征选择

C4.5信息增益率

CART基尼系数

决策树不加限制增长往往会过拟合,泛化能力弱,通过剪枝和做随机森林来减少过拟合现象

随机森林 多棵树理论上抑制过拟合

bagging的策略  bootstrap aggregation

从样本集中重采样,选出N个样本

在所有属性上,对着N个样本建立分类器

重复以上两步m次,即获得了m个分类器,将数据放在这m个分类器上,最后根据这m个分类器的投票结果决定数据分为哪一类。

决策树是一种弱分类器  SVM 逻辑回归是强分类器

多个弱分类器的组合 可能比强分类器都强,强分类器合并并不常用

out of bag 没有被抽中的数据,可以被用于作为测试集,比率大概是1/e

样本和特征都做随机性

投票机制:一票否决、少数服从多数、阈值表决   贝叶斯投票

样本不均衡的常用处理方法: 假定样本数目A类比B类多且严重不平衡

A类欠采样 随即欠采样

B类过采样 避免欠采样造成信息丢失

B类数据合成 随机插值得到新样本

代价敏感学习 降低A类权值,提高B类权值

降采样是又放回的抽取

随机森林建立算计样本相似度,计算特征重要度、异常检测

pydotplus 

你可能感兴趣的:(决策树,sklearn,机器学习)