决策树总结-1

网上关于ID3、C4.5、CART的讲解已极为丰富,本文只想聚焦决策树系算法中的变量划分,做一些总结。

1、决策树的核心


决策树总结-1_第1张图片
决策树的核心

2、from 自信息 to 信息熵 to 交叉熵 to KL散度


决策树总结-1_第2张图片
从自信息到信息熵、交叉熵、KL散度的推导

3、离散特征信息增益率计算


给定一个简单的数据集


决策树总结-1_第3张图片
计算过程

4、连续特征信息增益计算


决策树总结-1_第4张图片
给定一个简单的数据集

5、如果标记值为连续变量:CART


决策树总结-1_第5张图片
CART


决策树总结-1_第6张图片
对于有多个水平的属性A,分别计算每一种分界后因变量的方差和


决策树总结-1_第7张图片
选择方差和最小的分界策略作为属性A的最优二分方案


决策树总结-1_第8张图片
遍历所有属性,取方差和最小的属性作为分割属性

6、针对特征为离散和连续,标记为离散的过程总结

(1)、针对连续特征,按数值大小进行排序,并在标记发生改变的地方进行分裂,计算信息增益;依次针对每一种分裂情形,计算信息增益,最终选择信息增益最大的分裂情形作为这个特征的最佳分裂点;计算它的信息增益率;

(2)、针对离散特征,计算它的信息增益率;

(3)、在特征的信息增益率间进行横向比较,选择信息增益率最大的特征作为当下最优分裂属性,进行分裂,划分数据子集;

(4)、依次递归重复步骤(1)~(3),直到叶子节点只剩一个水平值(过拟合)或达到停止要求(最大深度阈值、叶子节点最小样本阈值等等,如果是 XGBoost 会有更多需要调参)

你可能感兴趣的:(决策树总结-1)