数据挖掘领域十大经典算法 --- 决策树算法 ID3/C4.5

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。

基本算法:

1.选择一个属性放置在根节点,为每个可能的属性值产生一个分支

2.将样本划分成多个子集,一个子集对应于一个分支

3.在每个分支上递归地重复这个过程,仅使用真正到达这个分支的样本

4.如果在一个节点上的所有样本拥有相同的类别,即停止该部分树的扩展

构造决策树(集合划分)时选择属性:

1.ID3: Information Gain

2.C4.5: Gain Ratio

3.CART: Gini Index

  ID3算法思想

(1) 初始化决策树T为只含一个树根(X,Q),其中X是全体样本集,Q为全体属性集。

(2) if(T中所有叶节点(X’,Q’)都满足X属于同一类或Q’为空)then 算法停止;

(3) else

    {任取一个不具有(2)中所述状态的叶节点(X’,Q’);

(4) for each Q’中的属性A do 计算信息增益gain(A,X’);

(5)     选择具有最高信息增益的属性B作为节点(X’,Q’)的测试属性;

(6) for each B的取值bi do

        {从该节点(X’, Q’)伸出分支,代表测试输出B=bi;

        求得X中B值等于bi的子集Xi,并生成相应的叶节点(Xi’,Q’-{B});}

(7) 转(2);}

ID3算法的问题:

    (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。

    (2)ID3是非递增算法。

    (3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次。

    (4)抗噪性差,训练例子中正例和反例的比例较难控制。

由于ID3算法在实际应用中存在一些问题,于是Quilan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。

    C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

    1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

    2) 在树构造过程中进行剪枝;

    3) 能够完成对连续属性的离散化处理;

    4) 能够对不完整数据进行处理。

C4.5算法优点:产生的分类规则易于理解,准确率较高。

缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

你可能感兴趣的:(算法,数据挖掘,测试,BI,扩展,each)