机器学习-周志华 决策树

决策树建立:当前节点选哪个特征,选择特征的哪个值作为分割点。

决策树建立的目标:结点的“纯度”越来越高。

决策树调参数、调过拟合:树的数目,深度,叶子节点上样本数目,剪枝。

代表样本纯度或者不纯度的指标: 样本的纯度,只关乎样本值为0 和为1 的个数

信息熵、信息增益率,理论上适用的是类别型的特征。

1)信息增益:信息熵代表了样本的混乱程度。信息熵越低,表示样本越纯。信息增益是前后加权信息熵的差,越大表示变的越纯,效果越好。不限定分了几个枝。

信息增益表示已知特征A后,使得数据D的不确定程度减小了多少。gain(D,A) = H(D) - H(D|A)

其中,条件熵  H(D|A)= H(D,A)- H(A)

信息增益准则偏好于取值数目较多的特征。(不是只分两个枝,只能处理标称数据。) 

2)增益率  信息增益/属性固有值。(特征取值越少,则固有值越小,则增益率越大,则偏向取值少的特征。)    g(D,A)/H(A)

3)基尼系数:叶子结点时,随机选取一个样本,随机预测其类别,预测错误的概率。 1- 求和(P的平方)

剪枝

1)预剪枝:生成树时,计算剪枝前后,精度(或其他指标?)是否提升,有则分裂,没有则停止。降低过拟合风险,减少训练时间,但是可能导致欠拟合。

2)后剪枝:自底而上,原理同上。

为了保证树模型不那么复杂(叶节点个数),在损失函数上可加正则项。选择剪枝后,损失函数变小越大越好。

信息增益、信息增益率、基尼系数优缺点:

你可能感兴趣的:(机器学习-周志华 决策树)