随机森林算法

n_estimators:数值型取值
    含义:森林中决策树的个数,默认是10
    
criterion:字符型取值
    含义:采用何种方法度量分裂质量,信息熵或者基尼指数,默认是基尼指数

max_features:取值为int型, float型, string类型, or None(),默认"auto"
    含义:寻求最佳分割时的考虑的特征数量,即特征数达到多大时进行分割。
    int:max_features等于这个int值
    float:max_features是一个百分比,每(max_features * n_features)特征在每个分割出被考虑。
    "auto":max_features等于sqrt(n_features)
    "sqrt":同等于"auto"时
    "log2":max_features=log2(n_features)
    None:max_features = n_features

max_depth:int型取值或者None,默认为None
    含义:树的最大深度

min_samples_split:int型取值,float型取值,默认为2
    含义:分割内部节点所需的最少样本数量
    int:如果是int值,则就是这个int值
    float:如果是float值,则为min_samples_split * n_samples

min_samples_leaf:int取值,float取值,默认为1
    含义:叶子节点上包含的样本最小值
    int:就是这个int值
    float:min_samples_leaf * n_samples

min_weight_fraction_leaf : float,default=0.
    含义:能成为叶子节点的条件是:该节点对应的实例数和总样本数的比值,至少大于这个min_weight_fraction_leaf值

max_leaf_nodes:int类型,或者None(默认None)
    含义:最大叶子节点数,以最好的优先方式生成树,最好的节点被定义为杂质相对较少,即纯度较高的叶子节点

min_impurity_split:float取值 
    含义:树增长停止的阀值。一个节点将会分裂,如果他的杂质度比这个阀值;如果比这个值低,就会成为一个叶子节点。

min_impurity_decrease:float取值,默认0.
    含义:一个节点将会被分裂,如果分裂之后,杂质度的减少效果高于这个值。

bootstrap:boolean类型取值,默认True
    含义:是否采用有放回式的抽样方式

oob_score:boolean类型取值,默认False
    含义:是否使用袋外样本来估计该模型大概的准确率

n_jobs:int类型取值,默认1
    含义:拟合和预测过程中并行运用的作业数量。如果为-1,则作业数设置为处理器的core数。

class_weight:dict, list or dicts, "balanced"
    含义:如果没有给定这个值,那么所有类别都应该是权重1
    对于多分类问题,可以按照分类结果y的可能取值的顺序给出一个list或者dict值,用来指明各类的权重.
    "balanced"模式,使用y值自动调整权重,该模式类别权重与输入数据中的类别频率成反比,即n_samples / (n_classes * np.bincount(y)),分布为第n个类别对应的实例数。
    "balanced_subsample"模式和"balanced"模式类似,只是它计算使用的是有放回式的取样中取得样本数,而不是总样本数

 

你可能感兴趣的:(算法)