决策树的剪枝和连续值,缺失值处理

剪枝 
    预剪枝:在使用训练集生成时,如果划分不能带来泛化性能的提升(验证集),就将其标注为叶结点。可能会导致欠拟合。
    后剪枝:从训练集生成完整的决策树后自底向上来看将子树变成叶结点会不会增加泛化能力。性能优,计算量大。

连续值
    二分法。用过的属性可以继续用。

缺失值
(1)如何划分?
    分析每一个属性的信息增益时,忽略对于这个属性的缺失部分,乘以系数ρ。(无缺失部分的权重占比)
(2)样本在划分属性上缺失?
    按照无缺失样本的取值比例分配权重,加到每个子结点上。

多变量决策树
    非叶结点上是对多个属性的线性组合的测试。

你可能感兴趣的:(数据科学笔记)