R语言集成学习

说明
集成学习是指将多个分类器的预测结果进行组合得到最终决策来获得更好的分类与回归模型。单一的分类器只合适于某些特定的数据,很难保证分类性能始终最优,如果我们用不同的预测算法取平均,相比只使用一个分类器,可能会得到更好的分类模型。

Bagging 是投票式的算法,首先使用Bootstrap产生不同的训练集,然后再基于这些数据集得到多个基础分类器,最后通过基础分类器的分类结果得到一个相对更优的预测模型。

Boosting与bagging类似,主要差别在于在boosting算法中,基础分类器的学习是顺序进行的,后一轮分类器的学习与之前分类器的分类结果有关,既是在错分样本的基础上学习,boosting算法通过这样一种补尝学习的方式,达到了利用前一轮分类来调整后轮基础分类器的目的以获得更好的分类性能。

随机森林是一个包括多个决策树的分类器。通过投票来得到分类结果,算法田思想非常简单,对于每一个特征向量会产生一个分类决策树并得到一个分类结果,然而在随机森林中包括多个这样的分类树,相对于一个输入将产生多个分类结果,随机森林中这些分类结果中选择投票最高决策树完成数据分类,或者选择一个平均值作为回归处理的输出。

接下来我们使用bagging与boosting算法完成数据分类,并利用交叉验证技术来估计每个分类器的误差,以及说明通过边缘来检测模型的确定性。通过随机森林训练分类模型和使用边缘来评估分类器的确定性问题。
最后我们通过估计分类器的误差并使用误差来评测不同分类器的性能过程。

你可能感兴趣的:(R语言集成学习)