sklearn随机森林模型参数解释

n_estimators

​ 随机森林决策树的数目,n_estimators越大越好,但占用的内存与训练和预测的时间也会相应增长,且边际效益是递减的,所以要在可承受的内存/时间内选取尽可能大的n_estimators。而在sklearn中,n_estimators默认为10。

criterion

​ gini or entropy 属性划分计算方式,gini系数和信息熵;

splitter

best or random前者是在所有特征中找最好的切分点,后者是在部分特征中(数据量大的时候)

**max_features **

​ None(所有),log2,sqrt,N 特征小于50的时候一般使用所有的。

max_depth

​ 决策树最大深度,数据少或者特征少的时候可以不管这个值,如果模型样本量多,特征也多的情况下,可以尝试限制,我们希望得到又胖又矮的决策树。

min_samples_split

​ 如果某节点的样本数少于min_samples_split,则不会继续再次尝试选择最优特征来进行划分。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。

min_samples_leaf

​ 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝,如果样本量不大,不需要管这个值,大些如10W可以尝试设置为5。

min_weight_fraction_leaf

​ 这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被默认剪枝为0,就是不考虑权重问题。一般来说,如果我们有较多样本缺失值,或者分类树样本的分布类别不偏差很大,就会引入样本权重,这时我们就要注意这个值了。

max_leaf_nodes

​ 通过限制最大叶子节点数,可以防止过拟合,默认是“None”,即不限制最大的叶子节点数。如果加了限制,算法会建立在最大叶子节点数内最优的决策树。

​ 如果特征不多,可以不考虑这个值,但是如果特征成分多的话,可以加以限制,具体的值可以通过交叉验证得到。

class_weight

​ 指定样本各类别的权重,主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重。如果使用“balanced”,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。

你可能感兴趣的:(数据挖掘)