C5.0算法

C5.0算法是在C4.5算法的基础上提出的

C5.0和C4.5算法的对比:

1.都是通过计算信息增益率来划分结点,两者的共同

2.C5.0算法通过构造多个C4.5算法,是一种boosting算法。准确率更高

3.C5.0算法运行速度快,可以出来例如,C4.5需要9个小时找到森林的规则集,但C5.0在73秒完成了任务。

4.C5.0运行内存小。C4.5需要超过3 GB.(工作不会对早些时候完成32位系统),但C5.0需要少于200 mb。

5.C5.0算法,可以人为的加入客观规则

6.C5.0可以处理较大的数据集,特征可以是:数字,时间,日期,名义字段

7.C5.0可以加入惩罚项,(也就是第2条中boosting过程) 

你可能感兴趣的:(C5.0算法)