九.随机森林

通过组合多个过拟合评估器来降低过拟合程度,实质上是一种集成学习方法,通常称为装袋算法。

虽然每个评估器都对数据过拟合,但是通过求取均值的方式,最终仍然可以获得很好的分类效果。

随机决策树的集成算法就是随机森林。

案例:用随机森林识别手写数字

九.随机森林_第1张图片

显示出一部分数据:

九.随机森林_第2张图片

使用随机森林对数据进行分类:

九.随机森林_第3张图片

这其中分类报告中涉及到了一些衡量指标,具体介绍查阅以下网址:

机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)

https://www.cnblogs.com/Zhi-Z/p/8728168.html

画出混淆矩阵:

九.随机森林_第4张图片

我们发现通过以上简单的,未调优的随机森林对手写数字进行分类,就可以取得不错的结果。

随机森林总结

集成评估器:随机森林

(1)原理简单,训练和预测速度很快,多任务可以并行计算,因为每棵树都是独立的;

(2)多棵树可以进行概率分类:多个评估器之间的多数投票可以给出概率的估计值(使用Scikit-Learn中的predict_proba()方法);

(3)无参数,模型灵活。

缺点:随机森林的结果不容易解释,难以解释分类模型的意义。

你可能感兴趣的:(九.随机森林)