CART与ID3的区别&C4.5离散化的过程

一、CART与ID3的区别
通过之前的研究发现,CART与ID3算法都是基于信息论的决策树算法,CART算法是一种通过计算Diversity(整体)-diversity(左节点)-diversity(右节点)的值取最佳分割的算法。ID3和CART算法的区别主要集中在树的生成和树的修剪方面,但是ID3算法只能处理离散型的描述性属性。C4.5算法是ID3算法的后续算法,它能够处理连续型数据。
CART与ID3区别:
1、CART中用于选择变量的不纯性度量是Gini指数;
2、如果目标变量是标称的,并且是具有两个以上的类别,则CART可能考虑将目标类别合并成两个超类别(双化);

二、C4.5离散化的过程
C4.5算法是构造决策树分类器的一种算法。这种算法利用比较各个描述性属性的信息增益值(Information Gain)的大小,来选择Gain值最大的属性进行分类。如果存在连续型的描述性属性,那么首先要把这些连续型属性的值分成不同的区间,即“离散化”。把连续型属性值“离散化”的方法是:

1.寻找该连续型属性的最小值,并把它赋值给MIN,寻找该连续型属性的最大值,并把它赋值给MAX;

2.设置区间【MIN,MAX】中的N个等分断点Ai,它们分别是Ai=MIN+(MAX-MIN)/N*i,其中,i=1,2,……,N;

3.分别计算把【MIN,Ai】和(Ai,MAX】(i=1,2,……,N)作为区间值时的Gain值,并进行比较;

4.选取Gain值最大的Ak作为该连续型属性的断点,把属性值设置为【MIN,Ak】和(Ak,MAX】两个区间值。

你可能感兴趣的:(机器学习)