机器学习（九）随机森林

随机森林是在Bagging策略的基础上进行修改后的一种算法。

随机：数据采样随机，特征选择随机
森林：很多个决策树并行放在一起

9.1 算法的基本原理

采取有放回的抽样方式，构造子数据集，保证不同子数据集之间的数量集一样。
利用子数据集来构建子决策树，每个子决策树输出一个结果。
统计子决策树的投票结果，得到最终的分类，就是随机森林的输出结果。
具体的构建过程如下：

从样本中用 Bootstrap 采样选出n个样本
从所有属性中随机选择K个属性，选择出最佳分割属性作为节点创建决策树
重复以上两步m次
统计这m个子决策树得出的结果，通过投票表决结果决定数据属于哪一类。

9.2 随机森林的优劣势

优势：

它能够处理很高维度的数据，并且不用做特征选择
在训练完后，它能够给出哪些特征比较重要
并行化处理，速度较快
可以进行可视化展示，便于分析
由于存在随机抽样，训练出来的模型方差小，泛化能力强
由于进行随机选择决策树划分特征列表，在样本维度比较高时，依然具有比较高的性能
对部分特征的缺失不敏感
劣势：
在某些噪音比较比较大的特征上，RF模型容易陷入过拟；
取值比较多的划分特征对RF的决策会产生更大的影响，从而有可能影响模型的效果。

9.3 sklearn调用及参数解释

class sklearn.ensemble.RandomForestClassifier（
    n_estimators=10, criterion='gini', max_depth=None, 
    min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0,
    max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, 
    min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=1, 
    random_state=None, verbose=0, warm_start=False, class_weight=None)

因为随机森林是很多个决策树并行计算，所以随机森林的很多参数与决策树的类似。
（1）决策树参数：

criterion:"gini" or "entropy" (defaut = "gini")是计算属性的gini(基尼不纯度)还是entropy(信息增益)，来选择最合适的节点。
splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性，建议用默认。
max_features: 选择最适属性时划分的特征不能超过此值。
当为整数时，即最大特征数；当为小数时，训练集特征数*小数；
if “auto”, then max_features=sqrt(n_features).
If “sqrt”, thenmax_features=sqrt(n_features).
If “log2”, thenmax_features=log2(n_features).
If None, then max_features=n_features.
max_depth: (default=None)设置树的最大深度，默认为None，这样建树时，会使每一个叶节点只有一个类别，或是达到min_samples_split。
min_samples_split:根据属性划分节点时，每个划分最少的样本数。
min_samples_leaf:叶子节点最少的样本数。
max_leaf_nodes: (default=None)叶子树的最大样本数。
min_weight_fraction_leaf: (default=0) 叶子节点所需要的最小权值
verbose:(default=0) 是否显示任务进程
（2）随机森林特有的参数
n_estimators=10：决策树的个数，越多越好，但是性能就会越差，至少100左右（具体数字忘记从哪里来的了）可以达到可接受的性能和误差率。
bootstrap=True：是否有放回的采样。
oob_score=False：oob（out of band，带外）数据，即：在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练，我们知道可以用cross validation（cv）来进行，但是特别消耗时间，而且对于随机森林这种情况也没有大的必要，所以就用这个数据对决策树模型进行验证，算是一个简单的交叉验证。性能消耗小，但是效果不错。
n_jobs=1：并行job个数。这个在ensemble算法中非常重要，尤其是bagging（而非boosting，因为boosting的每次迭代之间有影响，所以很难进行并行化），因为可以并行从而提高性能。1=不并行；n：n个并行；-1：CPU有多少core，就启动多少job。
warm_start=False：热启动，决定是否使用上次调用该类的结果然后增加新的。
class_weight=None：各个label的权重。
参数解释来自sklearn中随机森林的参数

机器学习（九） 随机森林

9.1 算法的基本原理

9.2 随机森林的优劣势

9.3 sklearn调用及参数解释

你可能感兴趣的:(机器学习（九） 随机森林)

机器学习（九）随机森林

你可能感兴趣的:(机器学习（九）随机森林)