随机森林

什么是随机森林:是一种集成学习方法,可以用来做分类或者回归。他的基分类器一般是CART决策树,通过BootStrap的方法,又放回的抽取样本,然后训练每个基分类器,最终结合每个及分类器的结果,得到最终的结果
优点:
1. 随机性:一个是属性的随机性,一个是树个数的随机性
2. 并行化:每个基分类器的训练可以并行地完成
3. 能处理很高维的数据
4. 稀疏数据的处理
5. 自动地进行特征选择
缺点:
1. 实际证明当噪声较大时,随机森林会过拟合
2. 构建过程
3. 随机森林关注的是方差的减小

实际应用
sklearn中,RandomForest的 分类器是RandomForestClassifier, 回归器是RandomForestRegressor;
需要调参的 参数包括两部分,第一部分是 Bagging框架的参数,第二部分是 CART决策树的参数
Bagging参数:
1. n_estimators:基分类器的个数,默认为10,一般来说1-200都可,多的话不会差,但是一般情况下RF的基分类器个数较少,基分类器树高较深,所以获得的偏差较小,需要关注的是方差,而GBDT基分类器个数较多,基分类器树高较浅,关注的是偏差
2. bootstrap:是否放回 默认True
3. oob_score:是否用袋外样本评估  默认False  最好True  交叉验证比较麻烦
4. criterion:分类标准  基尼指数 信息熵增益等

CART决策树的参数
1. max_features: RF划分时考虑的最大特征数。
2. max_depth: 决策树最大深度。默认为"None",常用的可以取值10-100之间
3. min_samples_split: 内部节点再划分所需最小样本数,默认2
4. min_samples_leaf:叶子节点最少样本数

你可能感兴趣的:(机器学习方法)