树模型几个知识点

ID3无法处理连续特征

C4.5可以处理连续特征,用信息增益率选择分裂特征,遇到连续特征的时候,依次二分样本,根据信息增益获得最佳分割点

ID3和C4.5都只能处理分类问题,CART既能处理分类问题,又能处理回归问题

CART分割点的选择粒度更细,根据GINI系数,选择某个特征的某个值作为分割点(分为等于该值和不等于该值的二叉树)

分类树的叶子节点类别是由数量最多的种类决定的;回归树的叶子结点值是由属于该节点的所有样本的平均label值决定的;

CART处理离散特征数量多于3个的属性时,需要人为的组合特征成为两类,因此CART不适用与离散特征太多的数据

关于特征复用:

1. 离散特征,如果是CART二叉树分类,那么特征会被复用;如果是多叉树分类,则不会被复用

2. 连续特征,会被复用

 

GBDT和XGBoost的区别:GBDT只支持CART回归树,XGBoost支持线性分类器;XGBoost引入了正则化;XGBoost支持并行化运算(特征并行而非树训练并行);XGBoost借鉴了随机森林的做法,支持样本抽样和特征抽样;对于有缺失值的case,XGBoost可以自动学习出分裂方向。

 

GBDT解决分类问题:也是要生成CART回归树,根据要分的类别K,生成K棵树,用softmax的思想,

第一颗树针对样本x的第一类,输入为(x,0)(x,0)。第二颗树输入针对 样本x 的第二类,输入为(x,1)(x,1)。第三颗树针对样本x 的第三类,输入为(x,0)。

 

 

 

树模型常用的调参方法:

1.学习率、迭代次数

2.树结构参数:树深、节点继续划分所需最小样本数、叶子结点最少样本数

3.最大特征数量

 

 

你可能感兴趣的:(树模型几个知识点)