Spark机器学习-决策树2案列07

决策树

决策树因其进行决策判断的结构与数据结构中的树相同,故而得名决策树算法既可以实现分类,也可以实现回归,一般用作分类的比较多。例如if-then就是一种简单的决策树心
决策树的解法有很多例如ID3,C4.5等,其使用了信息论中嫡的概念

优点

决策树原理简单,易于实现
决策树能够实现多分类
能够在较短的时间内对大型数据源作出预测,预测性能较好

缺点

对输入特征要求较高,很多情况下需要作预处理
识别类别过多时,发生错误的概率较大

实列

如图展示了一个能否批准贷款的决策树
Spark机器学习-决策树2案列07_第1张图片
输入变量的特征有很多,选择特征作为分类判断的依据之一便是能够具有很好的区分度那么也就是说,选择出的变量能够更具有代表性,以至于区分程度更高,作为决策树的判断节点信息增益
Spark机器学习-决策树2案列07_第2张图片

数据集

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,

你可能感兴趣的:(决策树,机器学习,算法)