RF随机森林

一.算法介绍

随机森林是一种比较新的机器学习模型。他实际上是将决策树组合成随机森林,即在特征(列)和数据(行)的使用上进行随机化,生成很多决策树,再汇总成分类树的结果。
它具有很多优点
1.由于随机性的引入,使得随机森林具有很好的抗噪声能力
2.能够处理高维度数据,不用做特征选择
3.训练速度快,比较容易实现并行计算
4.训练结束后,能够度量那些特征比较重要

二.算法实现

具体实现过程如下:
(1)有N个样本,有放回地随机选择N个样本(即每次随机选取一个),用选择好的N个样本来训练一个决策树。
(2)假设样本有M个特征,在决策树节点需要分类时,从M个特征中随机选取m个特征(满足条件 m<<M )然后按照某种策略(信息增益)来选择当前节点的特征
(3)在决策树形成过程中,按照(2)来进行分类,直到分裂结束
(4)按照(1)-(3)构建大量决策树,形成RF
(5)用随机森林分类器对新的数据进行判别和分类,分类结果按树的投票多少来决定。

三.参数选择

随机森林有两个重要参数:一是树节点预选变量个数(m),二是随机森林中树的个数(k)
一般建议k取很大,m的大小为M的均方根

四.算法不足

1.在噪声较大的分类或回归上会出现过拟合现象
2.对于不同级别属性的数据,级别划分较多的属性会对RF随机森林有影响,使得结果的可信度不高

你可能感兴趣的:(算法,机器学习,随机森林,决策树,并行计算,特征选择)