RandomForest(随机森林)

from sklearn.ensemble import RandomForestClassifier

随机森林的随机表示2重随机. 第一重是样本随机. 有放回的随机抽样, 所有的树,都抽取一样的样本数量. 第二重是特征随机. 有放回的随机抽样, 所有的树,都抽取一样的特征数量. 用随机取出来的样本数和特征数生成决策树 分类问题就是投票 回归问题就是求平均

作用:1、减少决策树带来的过拟合问题                                                2、可以判断特征的重要性.

n_estimators :是随机森林生成树的个数.默认是10棵.

RF的主要优点有:

    1、训练可以高度并行化,对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。

    2、由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。

    3、在训练后,可以给出各个特征对于输出的重要性

    4、由于采用了随机采样,训练出的模型的方差小,泛化能力强。

    5、 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。

    6、对部分特征缺失不敏感。

RF的主要缺点有:

    1、在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

    2、取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。

你可能感兴趣的:(RandomForest(随机森林))