一、练习目标
1、通过练习掌握随机森林分类的应用,分析参数调整对结果的影响。
2、区分随机森林分类与决策树分类的差别。建立最优的分类预测模型。
3、通过数据挖掘了解影响红酒标签(三分类)的关键特征。
二、重要结论
1、探索数据发现,在小提琴图中可直观看出①特征proline,当取值大于1000,基本可以判断样本属于标签0; ②特征od280/od315_of_diluted_wines,当取值小于1.5,基本可以判断样本属于标签3。
2、采用决策树算法,模型存在明显的过拟合问题。
3、采用随机森林分类算法,①纠正决策树天生过拟合的倾向,②提高模型预测的准确率。
4、采用决策树算法得到的关键特征,与采用随机森林分类算法得到的关键特征,明显不一样。这大概就是红酒的魅力!