决策树算法

决策树算法

基本定义

决策树算法是一种逼近离散函数值的方法。

算法优点

  决策树算法的优点如下:

  (1分类精度高

  (2成的模式简单

  (3)对噪声数据有很好的健壮性

  因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。

基本原理

  决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理剪枝技术派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。

构造方法

  决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为aaj的逻辑判断,其中a是属性aj是该属性的所有取值:树的边是逻辑判断的分支结果。多叉树(ID3)内部结点属性是该属性的所有取值,有几个属性值就有几条边。树的叶子节点都是类别标记

  由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一棵最优决策树,主要应解决以下3个最优化问题:生成最少数目的叶子节点生成的每个叶子节点的深度最小生成的决策树叶子节点最少每个叶子节点的深度最小

你可能感兴趣的:(c,算法,优化,数据挖掘)