sklearn.ensemble
.RandomForestClassifierclass sklearn.ensemble.RandomForestClassifier(n_estimators ='warn',criterion =' gini ',max_depth = None,min_samples_split = 2,min_samples_leaf = 1,min_weight_fraction_leaf = 0.0,max_features ='auto',max_leaf_nodes = None,min_impurity_decrease = 0.0,min_impurity_split =None,bootstrap =True,oob_score = False,n_jobs = None,random_state = None,verbose = 0,warm_start = False,class_weight = None )
随机森林是一种元估计器,它适用于数据集的各个子样本上的多个决策树分类器,并使用平均来提高预测精度和控制过拟合。子样本大小始终与原始输入样本大小相同。
参数: | n_estimators : 整数,可选(默认= 10) 森林里的树木数量。 在版本0.20中更改:默认值 criterion : string,optional(default =“gini”) 衡量分裂质量的功能。支持的标准是基尼杂质的“gini”和信息增益的“熵”。注意:此参数是特定于树的。 max_depth : 整数或无,可选(默认=无) 树的最大深度。如果为None,则扩展节点直到所有叶子都是纯的或直到所有叶子包含少于min_samples_split样本。 min_samples_split : int,float,optional(default = 2) 拆分内部节点所需的最小样本数:
更改版本0.18:添加了分数的浮点值。 min_samples_leaf : int,float,optional(default = 1) 叶节点所需的最小样本数。只有
更改版本0.18:添加了分数的浮点值。 min_weight_fraction_leaf : float,optional(默认= 0。) 需要在叶节点处的权重总和(所有输入样本的总和)的最小加权分数。当未提供sample_weight时,样本具有相同的权重。 max_features : int,float,string或None,optional(default =“auto”) 寻找最佳分割时要考虑的功能数量:
注意:在找到节点样本的至少一个有效分区之前,搜索分割不会停止,即使它需要有效地检查多个 max_leaf_nodes : int或None,可选(默认=无)
min_impurity_decrease : float,optional(默认= 0。) 如果该分裂导致杂质的减少大于或等于该值,则将分裂节点。 加权杂质减少方程式如下: N_t / N * (杂质 - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity )
版本0.19中的新功能。 min_impurity_split : float,(默认值= 1e-7) 树木生长早期停止的门槛。如果节点的杂质高于阈值,节点将分裂,否则它是叶子。 从版本0.19 bootstrap : boolean,optional(default = True) 是否在构建树时使用bootstrap样本。如果为False,则使用整个数据集构建每个树。 oob_score : bool(默认= False) 是否使用袋外样品来估计泛化精度。 n_jobs : int或None,可选(默认=无) 就业人数在两个并行运行 random_state : int,RandomState实例或None,可选(默认=无) 如果是int,则random_state是随机数生成器使用的种子; 如果是RandomState实例,则random_state是随机数生成器; 如果为None,则随机数生成器是由其使用的RandomState实例 verbose : int,optional(默认值= 0) 在拟合和预测时控制详细程度。 warm_start : bool,optional(默认= False) 设置 class_weight : dict,dicts 列表,“balanced”,“balanced_subsample”或None,可选(默认=无) 与表单中的类相关联的权重。如果没有给出,所有课程都应该有一个重量。对于多输出问题,可以按与y列相同的顺序提供dicts列表。 请注意,对于多输出(包括多标记),应为其自己的dict中的每个列的每个类定义权重。例如,对于四类多标签分类权重应为[{0:1,1:1},{0:1,1:5},{0:1,1:1},{0:1,1: 1}]而不是[{1:1},{2:5},{3:1},{4:1}]。 “平衡”模式使用y的值自动调整与输入数据中的类频率成反比的权重 “balanced_subsample”模式与“balanced”相同,只是基于每个生长的树的bootstrap样本计算权重。 对于多输出,y的每列的权重将相乘。 请注意,如果指定了sample_weight,这些权重将与sample_weight(通过fit方法传递)相乘。 |
---|
sklearn.ensemble
.RandomForestRegressor随机森林回归
控制树的大小(例如max_depth
,min_samples_leaf
等)的参数的默认值导致完全生长和未修剪的树,这些树在某些数据集上可能非常大。为减少内存消耗,应通过设置这些参数值来控制树的复杂性和大小。
每次拆分时,这些功能总是随机置换。因此,即使使用相同的训练数据,最佳发现的分裂也可以变化,max_features=n_features
并且bootstrap=False
如果对于在搜索最佳分割期间列举的几个分裂,标准的改进是相同的。为了在拟合期间获得确定性行为,random_state
必须进行修复。
class sklearn.ensemble.RandomForestRegressor(n_estimators ='warn',criterion ='mse',max_depth = None,min_samples_split = 2,min_samples_leaf = 1,min_weight_fraction_leaf = 0.0,max_features ='auto',max_leaf_nodes = None,min_impurity_decrease = 0.0,min_impurity_split = None,bootstrap =True,oob_score = False,n_jobs = None,random_state = None,verbose = 0,warm_start = False )
参数: | n_estimators : 整数,可选(默认= 10) 森林里的树木数量。 在版本0.20中更改:默认值 criterion : string,optional(default =“mse”) 衡量分裂质量的功能。支持的标准是均方误差的“mse”,等于作为特征选择标准的方差减少,以及平均绝对误差的“mae”。 版本0.18中的新功能:平均绝对误差(MAE)标准。 max_depth : 整数或无,可选(默认=无) 树的最大深度。如果为None,则扩展节点直到所有叶子都是纯的或直到所有叶子包含少于min_samples_split样本。 min_samples_split : int,float,optional(default = 2) 拆分内部节点所需的最小样本数:
更改版本0.18:添加了分数的浮点值。 min_samples_leaf : int,float,optional(default = 1) 叶节点所需的最小样本数。只有
更改版本0.18:添加了分数的浮点值。 min_weight_fraction_leaf : float,optional(默认= 0。) 需要在叶节点处的权重总和(所有输入样本的总和)的最小加权分数。当未提供sample_weight时,样本具有相同的权重。 max_features : int,float,string或None,optional(default =“auto”) 寻找最佳分割时要考虑的功能数量:
注意:在找到节点样本的至少一个有效分区之前,搜索分割不会停止,即使它需要有效地检查多个 max_leaf_nodes : int或None,可选(默认=无)
min_impurity_decrease : float,optional(默认= 0。) 如果该分裂导致杂质的减少大于或等于该值,则将分裂节点。 加权杂质减少方程式如下: N_t / N * (杂质 - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity )
版本0.19中的新功能。 min_impurity_split : float,(默认值= 1e-7) 树木生长早期停止的门槛。如果节点的杂质高于阈值,节点将分裂,否则它是叶子。 从版本0.19 bootstrap : boolean,optional(default = True) 是否在构建树时使用bootstrap样本。如果为False,则使用整个数据集构建每个树。 oob_score : bool,optional(默认值= False) 是否使用袋外样本来估计看不见数据的R ^ 2。 n_jobs : int或None,可选(默认=无) 就业人数在两个并行运行 random_state : int,RandomState实例或None,可选(默认=无) 如果是int,则random_state是随机数生成器使用的种子; 如果是RandomState实例,则random_state是随机数生成器; 如果为None,则随机数生成器是由其使用的RandomState实例 verbose : int,optional(默认值= 0) 在拟合和预测时控制详细程度。 warm_start : bool,optional(默认= False) 设置 |
---|