sklearn 之 随机森林

随机森林

sklearn.ensemble.RandomForestClassifier

随机森林是集成算法的一种,它属于集成算法中的装袋法,根据袋子里面的基评估器来做出综合的判断,所以要求每个基评估器评估的结果准确率高于50%

基评估器重要参数(就是决策树)

criterion不纯度的衡量指标,有基尼系数和信息熵两种选择

max_depth树的最大深度,超过最大深度的树枝都会被剪掉

min_samples_leaf一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生

min_samples_split一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生

max_featuresmax_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃,默认值为总特征个数开平方取整

min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生

森林参数

n_estimators: 这是森林中树木的数量,即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的,n_estimators越大,模型的效果往往越好。(但是有边界,会趋于平稳)

random_state:

boostrap:控制抽样技术的参数,默认为True,代表一种特殊的又放回的抽样技术,在样本不够大,或者基决策器比较少时,作用就变小了。

oob_score_:查看我们的在袋外数据上测试的结果

重要属性

.estimators_

.oob_score_

.feature_importances_

重要接口

apply fit predict score

predict_proba

你可能感兴趣的:(sklearn调包侠,编辑器,机器学习,人工智能)