决策树算法梳理

  1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中,熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的另一个特征是样本的概率分布。

联合熵:联合熵就是度量一个联合分布的随机系统的不确定度。参考概率性里面的联合概率。

条件熵:在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。参考概率性里面的条件概率。

信息增益:信息增益代表使用属性a带来的纯度提升,信息增益越大,带来的纯度提升越大。计算公式就是父节点的信息熵减去所有子节点的信息熵。还是个条件概率的概念。

基尼不纯度:从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率。

2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景

决策树的基本步骤:特征选择,决策树生成,决策树剪枝。

决策树生成的过程就是将数据集不断划分成为纯度更高,不确定更小的子集的过程。

ID3算法:ID3的算法计算的是信息增益,缺点是喜欢选择选项多的特征

C4.5算法:在ID3的基础熵增加信息增益率,采用了悲观剪枝,采用了离散化处理连续属性,处理缺失值

CART:采用基尼系数划分数据,同时决定改特征的最优二值切分点,可针对离散和连续型,可以做分类和回归。

  1. 回归树原理

将数据和属性向纯度高的方向进行分类

  1. 决策树防止过拟合手段

剪枝

  1. 模型评估

回归参照线性回归评价指标,分类参照Logistic评价指标

你可能感兴趣的:(决策树算法梳理)