集成学习-Bagging-随机森林RF

bagging

bagging又名Bootstrap aggregating(自助聚合法,很扯的翻译)
Bootstrap 又名自助法,是统计学上的概念,核心思想是样本重采样(有放回)重采样来干啥,具体是每次重采样获取子数据集--一个估计;多次重采样得到多个估计,这就可以计算估计的方差等统计量。在这里我们无需在乎。
aggregating 聚合。即多模型聚合成一个模型。

大致流程
1,对样本集D有放回地随机重采样成m个子样本集D1,D2,...Dm
2,对于每个子样本集Di,训练一个弱学习器Mi
3,综合m个学习器,对于分类则投票,对于回归,则均值

随机森林 RF

bagging的一种算法。
1,弱学习器指定CART树
2,除了样本随机之外,特征也随机选取。

优点:
随机采样+随机特征+多模型平均 可以充分减小模型方差
可以并行运行
对于高纬度特征也可以快速计算

bagging 与 方差

直观讲,投票(分类)与平均(回归)本身就是一种相对稳定可以对抗高方差的方式。

具体来讲,bagging的做法,是随机重采样获取n个子样本集 在对每个子样本集训练模型(使用同一个算法训练) 则就会有相似的均值与方差
最终的到的模型

模型的期望

即bagging对bias的影响较小

模型的方差
对于方差有

X,Y相互独立时

1,当所有都相互独立时

2,当所有完全不独立,即所有模型相等时

而在bagging中,M介于上述两种情况之间即

所以bagging的最终模型方差会减小。

参考

bagging与方差
刘建平博客-bagging

你可能感兴趣的:(集成学习-Bagging-随机森林RF)