《集体智慧编程》第7章 决策树建模 个人笔记

第7章 决策树建模

7.1 属性划分

本章使用CART树(分类回归树)来做分类,找到最优拆分属性和最优拆分属性值后进行划分。如何选择划分分案,通过计算数据集合的混杂程度。对于混杂程度的测度,有多种方案,这里用以下两种:

  • 基尼不纯度:将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。即
    GiniImpurity=ijipipj=1ip2i
  • 熵:代表的是集合的无序程度,即
    Entropy=ipilogpi

    熵和基尼不纯度之间的主要区别在于,熵达到峰值的过程要相对慢一些。

7.2 决策树的剪枝

本章采用的是后剪枝策略,先创建一颗完整的决策树,考察某个节点,如果将其子节点合并熵的增加量小于某个指定的阈值,则合并其子节点。

这部分可参考李航老师的《统计学习方法》,利用决策树的损失函数来剪枝,损失函数加入了树叶子节点数作为正则项。

这章我觉得写得有点简略,ID3、C4.5、CART这三者都没有介绍清楚(熵增益比都没说=。=),这块还是建议看《统计学习方法》和西瓜书吧~~

你可能感兴趣的:(集体智慧编程)