Sklearn中决策树DecisionTree的参数设定

criterion参数

数据划分标准,默认gini,数据量较少的时候可以指定为entropy

random_state参数

主要作用类似对数据测试集的划分、模型创建、生成随机数据集的时候指定一个特定的ID,用于在后续使用过程中数据集等能够固定下来,方便模型的调优。

splitter参数

加上random参数能够使生成树的过程更加随机,减少过拟合问题。

剪枝参数

避免训练集上表现好但测试集表现糟糕的情况。剪枝策略对决策树的影响巨大,正确的剪枝策略是优化
决策树算法的核心。

  • maxdepth
    用于限制树的最大深度。应用较为广泛,在高纬度低样本量时较为有效。建议从3开始测试,看拟合效果。
  • min_samples_leaf
    一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生用于可以使模型变得更加平滑。一般从5开始。
  • min_samples_spilit
    一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。

你可能感兴趣的:(Sklearn,sklearn)