[机器学习]决策树相关知识点

决策树算法是基于树结构进行决策学习的,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单而直观的“分而治之”的策略。
[机器学习]决策树相关知识点_第1张图片
导致递归返回的情形(即无划分行为):

  1. 无需划分:当前结点包含的样本全属于同一类别
  2. 无法划分:当前属性集为空,或是所有样本在所有属性上取值相同
    我们把当前结点标记为叶结点,井将其类别设定为该结点所含样本最多的类别
  3. 不能划分:当前结点包含的样本集合为空
    同样把当前结点标记为叶结点,但将其类别设定为其父结点所含样本最多的类别

最优划分属性
随着划分过程不断进行,希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。
信息熵就是度量样本集合纯度最常用的一种指标,假定当前样本集合 D D D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 , … , ∣ y ∣ ) p_k(k=1,2,…,|y|) pk(k=1,2,,y),则 D D D信息熵
E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k log ⁡ 2 p k Ent(D)=-\sum_{k=1}^{|y|} p_k\log_{2} p_k Ent(D)=k=

你可能感兴趣的:(机器学习,机器学习)