机器学习算法--决策树

决策树的使用主要是用于分类。

年龄 收入 信用 是否学生 是否买电脑
年轻
中年
老年

对于一些适合分类的数据中,考虑各种因素对结果的影响大小进行决策,一般是先选取区分度较高的因素。

比如说,年龄大小这个因素在很大程度上影响我们的结果--是否买电脑。那么,年龄因素将作为第一个决策因素出现。

                                            年龄

大                                          小                                         中

 

影响因素的大小判断规则就是信息熵。

信息熵是一种不确定性的量度方法,不确定性越高,信息熵越大。H =  - (P1*logP1 + P2*logP2 + ....+)

信息熵的变化就是没有考虑该因素前的信息熵减去考虑了该因素的信息熵。

H△ = H - H'

使用信息熵是ID3算法,还有CART和C4.5需要进一步学习。

你可能感兴趣的:(Machine,Learing)