【算法】一个简单的决策树(DT)原理

在这里插入图片描述

基本原理

决策树是由一系列树状的节点构成,每一个节点代表一个特征并具有相应的决策规则。所有样本从根节点不断划分到子节点,直到叶子节点结束流程,实现分类。

决策树的构建过程就是确定特征的顺序和对应的决策规则。

构建方法

交互式二分法(ID3),采用香农信息论中定义的熵作为度量,其反应该节点上的特征对样本分类的不纯度。假设采用特征A为根节点,计算下一级熵不纯度比上一级熵不纯度的减少量(信息增益),选择最大的信息增益对应的特征作为根节点,以此选取下面的子节点。

剪枝

在有限的样本中如果决策树的规模太大,容易捕捉到训练集中的噪声,影响模型的泛化能力。所以,有必要对模型进行剪枝。主要分为先剪枝和后剪枝:

  • 先减枝:在决策树生长的过程中,判断某节点是否需要继续分支(以分类错误率为标准)
  • 后减枝:从叶节点出发,如果消除相同父节点的叶节点后熵不纯度没有明显下降,则进行删除(以分类错误率为标准)

猜你喜欢:
⭐【算法】一个简单的随机森林(RF)原理
⭐【算法】一个简单的支持向量机(SVM)原理
⭐【算法】一个简单的ISODATA原理
在这里插入图片描述

你可能感兴趣的:(AI)