决策树模型的参数

决策树模型的参数
1.criterion gini or entropy 基尼系数或者熵值
2.splitter best or random 前者是所有特征中最好找的切分点,后者是在部分特征中(数据量大的时候)
3.max_features None, log2,sqrt,N 特征小于50的时候一般使用所有的
4.max_depth数据少或者特征少的时候可以不用管这个只,如果模型样本量多,特征也多的情况下,可以尝试限制一下.深度通常需要遍历几个值。
5.min_samples_split如果节点的样本数量小于max_samples_split,则不会继续再尝试选择最优特征来进行划分,如果样本量不大,不需要管这个值,如果样本数量级非常大,则推荐增大这个值。
6.min_samples_leaf:这个值的限制了叶子节点最少的样本树,如果叶子节点数目小于样本数,则会和兄弟节点一起被剪枝,如果样本量不大,则不需要这个值。
7.min_weight_fraction_leaf 这个值限制了叶子节点所有样本权重和最小值,如果小于这个值,就会和兄弟节点一起被剪枝。
8.max_leaf_nodes通过限制最大叶子节点数,防止过拟合,默认为None,即不限制最大的叶子节点书,如果增加了限制,算法会建立在最大叶子节点数内最优的决策树
9.class_weight:指定样本类别的权重,主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别
10.min_impurity_split:这个值限制了决策树的生长,如果某个节点的不纯度,小于这个阈值则该节点不再生成子节点,即为叶子节点。
11.n_estimators:建立树的个数。

你可能感兴趣的:(决策树)