集成学习

集成学习:结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。

集成学习可包含同种类型的个体学习器,也可包含不同类型的个体学习器,要想获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,并要有“多样性”,即学习器间具有差异(两者存在冲突)。其结果通过投票法产生,即“少数服从多数”。

集成学习分两种:
Boosting(提升):个体学习器存在强依赖关系,必须串行生成的序列化方法,更多关注被错分的数据(前后权重不一样) ,调整分布训练下一个基学习器,如此重复进行,直到基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合 ——————更关注降低偏差

Boosting族算法最著名的代表是AdaBoost,只适用于二分类,算法有多种推导方式,容易理解的是基于“加性模型”,即基学习器的线性组合来最小化指数损失函数。Boosting算法在训练的每一轮都要检查当前基分类器是否比随机猜测好,一旦不满足,则当前基学习器即被抛弃。

Bagging(装袋)和随机森林(RF):个体学习器不存在强依赖关系,可同时生成并行化方法(分类器权值一样),可简单理解为:放回抽样,多次表决 ——————更关注降低方差

随机森林(RF):
1.随机的选择样本(放回抽样,约有63.2%样本)
2.随机选择特征
3.构建决策树

RF与Bagging对比:
1.RF起始性能较差,特别当只训练一个基学习器时,随着学习器数目增多,随机森林通常会收敛到更低的泛化误差,随机森林的训练效率也会高于Bagging
2.在单个决策树的构建中,Bagging使用的是“确定性”决策树,在选择特征划分点时,需对所有的特征进行考虑,随机森林使用的是“随机性”特征数,只考虑特征子集

随机森林优点:
1.在数据集上表现良好,训练速度,预测准确度较高
2.能够处理较高维数据,并且不用特征选择,训练完后给出特征重要性
3.容易做成并行化方法
缺点:
在噪声较大的分类或者回归问题上会过拟合

你可能感兴趣的:(集成学习)