决策树是由一系列树状的节点构成,每一个节点代表一个特征并具有相应的决策规则。所有样本从根节点不断划分到子节点,直到叶子节点结束流程,实现分类。
决策树的构建过程就是确定特征的顺序和对应的决策规则。
交互式二分法(ID3),采用香农信息论中定义的熵作为度量,其反应该节点上的特征对样本分类的不纯度。假设采用特征A为根节点,计算下一级熵不纯度比上一级熵不纯度的减少量(信息增益),选择最大的信息增益对应的特征作为根节点,以此选取下面的子节点。
在有限的样本中如果决策树的规模太大,容易捕捉到训练集中的噪声,影响模型的泛化能力。所以,有必要对模型进行剪枝。主要分为先剪枝和后剪枝:
猜你喜欢:
⭐【算法】一个简单的随机森林(RF)原理
⭐【算法】一个简单的支持向量机(SVM)原理
⭐【算法】一个简单的ISODATA原理