《机器学习》总复习(下)

第六章《随机森林》

6.1 随机森林
1.概念:
(1)集成学习:将多个弱分类器组合成一个强分类器,从而得到更合理的边界,减少分类错误,实现更好的分类效果。
①Bagging算法:是集成学习领域的一种基本算法。它从训练集进行子抽样从而组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。(但我们在训练过程中,应当重点去关注前面那些被分类错误的样本,而不是对所有的样本都同一看待,那些分类错误的样本也应当在抽样中抽到的概率更大。因此,基于对Bagging算法的改进,出现了Boosting算法和Adaboost算法。)
②Boosting算法:此算法更关注于被分类错误,首先给每一个训练样例赋予同样的权值,然后训练构造出第一个弱分类器,在这个弱分类器上进行测试,对于那些分类错误的测试样例提高权重,然后用调整过权值的训练集再去训练第二个弱分类器,重复执行以上过程直到最后得到一个足够好的分类器。
2.随机森林:
(1)概念:
随机森林中的每一棵分类树为决策树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分,在决策树中,根节点包含全部训练数据,按照节点纯度最小原则,选择该节点的划分属性,并对训练数据集同时进行划分,生成子节点,直到满足分支停止规则而停止生长。

(2)训练过程:
①原始训练集为D,应用Bootstrap法有放回地随机抽取k 个新的自助样本集,并由此构建k 棵决策树。
②每棵树最大限度地生长,不做任何修剪。
③将生成的多棵决策树组成随机森林,用随机森林分类器对新的数据进行判别与分类,森林中的每一棵树都对新的数据进行预测和投票,最终得票最多的分类项即为随机森林对该数据的预测结果。
(3)优劣处

你可能感兴趣的:(机器学习与模式识别,机器学习,神经网络,聚类算法)