决策树ID3算法

 

决策树

 

决策树概念

决策树,一种基于规则的机器学习方法,主要用于分类和回归,常用作机器学习中的预测模型。树形结构图,树中每个节点表示某个对象,每个分叉路径代表的某个可能的属性值,每个叶结点对应从根节点到该叶节点所经历的路径所表示的对象的值。它通过递归地划分数据空间并在每个分区内拟合一个简单的预测模型来工作。选择分区是为了在每个细分中最大化目标变量的同质性。

 

决策树特点

1. 树形结构

决策树由根节点、内部节点、分支和叶节点组成,呈树形结构。代表了从特征到类别的分类规则。

2. 递归分割

通过递归的方式将训练数据分割成更小的子集,在子集上重复创建树形结构,直到满足停止条件。

3. 信息增益特征选择

使用信息增益、信息增益比等指标选择对类别区分作用最大的特征作为分割属性。

4. 高维空间划分

决策树通过递归二元切分,将高维特征空间切分为不同的区域,与目标类别对应。

5. 概率输出

叶节点存储类别分布概率信息,根据样本特征,给出目标类别概率。

6. 剪枝优化

使用预剪枝和后剪枝优化决策树,防止过拟合。

决策树学习简单高效,输出模型可解释性强。主要应用于分类与回归等任务,是基本的机器学习方法之一。常用算法包括 ID3、C4.5、CART 等。

 

决策树实现

这里给出一个简单的决策树分类代码示例(使用Python中的scikit-learn库):

sklearn是机器学习常用工具包,包括了一些已经实现好的简单模型和一些常用数据处理方法、评价指标等函数。

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data 
y = iris.target

# 建立决策树模型
clf = DecisionTreeClassifier()

# 训练模型
clf.fit(X, y)  

# 进行预测
y_pred = clf.predict(X)

# 模型评估
from sklearn.metrics import accuracy_score
print(accuracy_score(y, y_pred))

这个例子加载了著名的鸢尾花数据集,建立了一个决策树分类器,在训练数据上训练模型,并做出预测。然后计算预测准确率来评估模型效果。

决策树代码主要分为以下几步:

  1. 准备训练数据(特征矩阵X,目标向量y)
  2. 建立决策树模型对象
  3. 使用训练集训练模型
  4. 对测试集或新数据进行预测
  5. 使用评估指标评价模型效果

可以通过调节决策树的参数如最大深度、叶子节点最小样本数等来改进模型。这是一个简单的决策树分类的示例。

 

决策树的应用

决策树的应用如:

  1. 分类与回归。决策树可以用于解决分类问题,预测数据属于哪个类别。也可以用于回归,预测一个连续性数值。
  2. 分段函数逼近。决策树可以看作是对 piecewise constant function 的逼近,可以用来逼近复杂的非线性关系。
  3. 不需要进行变量选择。决策树可以自动进行特征选择,不需要人为进行特征筛选。
  4. 处理多种类型的数据。决策树可以同时处理离散型和连续型数据。
  5. 可解释性强。决策树结果比较直观,可以清楚地展示分类的决策路径,便于理解。
  6. 处理缺失值。决策树可以通过统计分枝中的样本数量,来处理含有缺失值的特征。
  7. 决策支持。决策树可以作为决策支持系统,帮助我们进行决策。
  8. 处理非线性数据。决策树可以模拟复杂的非线性关系。

主要应用包括信用评级、借贷决策、目标营销、医学诊断、质量控制、语音识别等领域。总体上,决策树适合解释性强且数据特征稳定的场景。

 

 

补充数据结构相关内容

包含叶节点(Leaf Node)、非叶节点(Non-leaf Node)、子节点(Child Node)、根节点(Root Node)、内部节点(Internal Node)、分支(Branch)。

决策树中的节点可以分为叶节点(leaf node)和非叶节点(non-leaf node),两者之间的主要区别是:

叶节点(Leaf Node):

  • 树的终端节点,不再有子节点。
  • 代表一个分类或预测。
  • 包含归属于该节点的样本数目及分类结果。

非叶节点(Non-leaf Node):

  • 也称为内部节点(Internal Node)。
  • 不是树的终端节点,至少有两个子节点。
  • 表示某个属性测试或者决策规则。
  • 根据测试的结果,将样本集合分割到子节点中。

子节点(Child Node):

  • 非叶节点的下级节点。
  • 继承自上级节点的样本,根据上级节点的测试将样本进一步分割。
  • 一个非叶节点可有多个子节点(通常是2个)。

因此:

  • 叶节点是终端节点,给出分类决策。
  • 非叶节点根据测试对数据进行分割。
  • 子节点继承自父节点的数据并进行进一步的分割。

所以它们之间是树结构的层级关系,通过递归地分割样本空间来学习决策规则。

 

根节点(Root Node):

  • 是树形结构的起点,位于决策树的顶端。
  • 根节点没有进入分支,包含了整个训练数据集。

内部节点(Internal Node):

  • 除根节点和叶节点以外的节点都是内部节点。
  • 代表了某个特征上的测试或者分割操作,一个内部节点可以分支成多个子节点。

根节点和内部节点主要有以下不同:

  • 根节点只有一个,位于树顶,而内部节点可以有多个。
  • 根节点包含全部训练数据,内部节点只包含部分训练数据。
  • 从根节点开始递归进行特征测试和数据分割,内部节点是分割后的子集。
  • 根节点没有分支条件,内部节点有针对某特征的具体分割条件。
  • 数据会从根节点 recurs 到内部节点,逐步减少,最后到达叶节点。

所以根节点是决策树的起点,内部节点代表了数据被递归分割的中间过程。它们共同定义了决策树的树形结构。

 

分支(Branch):

在树中,分支是父节点和子节点之间的连接。一个节点可以有多个分支,分支代表节点间的关系。

分支通常有以下几个关键特征:

  • 分支连接两个节点,代表节点间的逻辑关系。
  • 分支常有方向性,指明了从一个节点到达另一个节点的路径。
  • 分支可以带有权重信息,表示节点间连接的代价或距离。
  • 遍历分支可以访问树或图的所有节点。
  • 删去某些关键分支可以切断节点间的连通性。
  • 分支具有动态性,树和图结构可以通过添加和删除分支进行修改。

所以分支是组织节点关系,定义树形或图形数据结构拓扑结构的核心元素,它反映了数据之间的逻辑关联。

 

 

ID3算法

ID3概念

ID3(Iterative Dichotomiser 3)算法由Quinlan提出,是一种决策树学习算法,用于从训练数据集中构建决策树模型。它是基于信息增益准则来选择最佳属性进行分割的。

ID3算法的基本思想是通过在每个节点选择最佳属性来构建决策树。它使用信息增益作为属性选择的准则,信息增益表示在给定属性的条件下,类别的不确定性减少的程度。

具体步骤如下:

  1. 从根节点开始,选择最佳属性作为当前节点的判断条件,将训练样本划分为不同的子集。
  2. 对于每个子集,如果所有样本都属于同一类别,则将该子集标记为叶节点,并将该类别作为输出结果。
  3. 如果子集中的样本属于不同的类别,则递归地应用步骤1和步骤2,直到所有样本属于同一类别或者已经没有属性可用为止。

ID3算法的优点是简单易懂,计算效率高。然而,它也存在一些缺点,例如对于连续型属性处理不方便,容易产生过拟合等问题。针对这些问题,后续的C4.5、CART等算法对ID3进行了改进和扩展。

 

ID3算法原理

ID3算法的基本原理:

1. 计算当前数据集D的信息熵Ent(D),表示数据集的混乱程度。

2. 对每一个特征A,按其可能取值计算信息增益(IG):
Gain(A) = Ent(D) - ∑Values_v(A) * Ent(Dv) 

其中Dv表示在特征A取值为v的数据子集。熵越大,IG越大。

使训练样本被更完美地分类,当所有属性熵增为0或不再有明显变化时停止分裂节点。

3. 选择信息增益最大的特征作为节点的分割属性。

4. 用该特征的信息增益最大的取值,将D分割为若干非空子集{D1, D2,...}。

5. 递归地对每一个子集调用步骤1-3,构建决策树,直到满足停止条件。

6. 终止条件:数据集D的所有实例属于同一类C。则将节点标记为C类叶节点。

7.最佳属性节点:倾向于使用简洁的具有较少节点的树

8.归纳偏置:

  • 假设空间H是作用在样本集合X上的,没有对假设空间作限制。
  • 偏向于在靠近根节点处的属性具有更大信息增益的树。
    • 尝试找到最短的树。
    • 对假设具有一些偏好(描述偏置,preference),而不是对假设空间做限制(描述偏置,restrictions)。
  • 奥卡姆剃刀(Occam's Razor):偏向于符合数据的最短的假设。

 

算法伪代码:

ID3(D, A)
1. If all examples in D belong to the same class C, return leaf node labeled C
2. If A is empty, return leaf node with majority class in D
3. Choose attribute A with maximum information gain to split on
4. Split D into {D1, D2,...} on attribute values {v1, v2,...} of A
5. Return node with attribute A and branches ID3(D1, A), ID3(D2, A),...  

 

 

ID3算法特点

主要优点:

1. 简单易于理解

        ID3算法采用简单的信息增益准则选择特征,生成决策树的过程容易理解。

2. 不需要预处理数据

        ID3可以直接处理原始数据,不需要进行特征归一化、标准化等预处理。

3. 可以处理离散和连续数据

        ID3可以处理离散类别特征,也可对连续特征进行离散化后处理。

4. 对缺失值具有一定的容错性 

        ID3使用不同的分枝样本数量来处理缺失信息。

5. 对异常值具有一定的鲁棒性

        信息增益准则对异常值较为稳定,不易受其影响。

6. 可以排序重要特征

        根据信息增益大小可以得到特征重要性排序。

7. 没有参数需要选择和调整

        ID3自身没有参数需要人工设定,使用简单。

8. 计算效率高,分类速度快

        ID3决策树学习和预测的计算复杂度不高。

9. 输出模型简单易解释

        ID3决策树模型可以可视化,利于解释,这是其最大优点。

        总体来说,ID3算法简单、高效,输出模型可解释性强,适合作为入门算法学习。

 

主要缺点:

1. 只支持分类,不支持回归

        ID3只能生成分类决策树,不能处理回归问题。

2. 只支持离散属性,不能处理连续属性

        ID3算法在处理连续属性时需要进行离散化,信息损失影响效果。

3. 存在过拟合问题

        ID3倾向于生成过深过复杂的决策树,导致过拟合。

4. 对训练数据敏感

        训练数据集的细微变化可能导致完全不同的决策树。

5. 无剪枝处理

        ID3没有后剪枝或预剪枝来控制树的复杂度。

6. 对属性值缺失敏感

        ID3对缺失属性信息的处理比较简单,效果不佳。

7. 属性选取准则单一

        ID3只使用信息增益作为属性选择标准,容易偏向高基尼指数的属性。

8. 多值属性处理问题 

        ID3处理多值属性时分裂出的分支过多,信息增益低。

9. 只能处理分类标签完全互斥的问题

        ID3不能很好地处理类别标签互相重叠的问题。

        后继算法如C4.5对许多问题进行了改进,但基本思路类似,需要配合剪枝等方法来提高效果。

 

总体上,决策树更适用于类区分明显且特征稳定的数据集。

综上所述,决策树对于预测非常有用,同时也提供了复杂数据的可解释模型,有助于深入了解核心关系。它们的可解释性和速度使它们对各种各样的问题都非常有效。

 

你可能感兴趣的:(算法,决策树,机器学习,数据挖掘,sklearn)