机器学习算法笔记-决策树

决策树(DT)

  • 树模型
  • 如何切分特征
    • 衡量标准
    • 如何选择特征
  • 衡量决策树不纯度的方法
  • 剪枝策略

树模型

  1. 决策树:从根节点开始一步步走到叶子节点(决策)
  2. 所有的数据最终都会落到叶子节点,既可以分类也可以回归。
  3. 决策树对于特征判断的顺序比较严格,如果判断顺序不同,最终的结果可能不同
  4. 树的组成:根节点、非叶子结点与分支、叶子节点

如何切分特征

衡量标准

  1. 熵:表示随机变量不确定性的度量,即混乱程度。不确定性越大,得到的熵值也就越大。
  2. 信息增益:表示特征X使得类Y的不确定性减少的程度(分类后的结果希望都是同类)。

如何选择特征

假设:根据条件决定是否去打球,加入有
机器学习算法笔记-决策树_第1张图片
机器学习算法笔记-决策树_第2张图片
转自:https://www.bilibili.com/video/BV1rq4y1p7nJ?p=90

衡量决策树不纯度的方法

  1. ID3:信息增益
    信息增益存在的问题,当特征很稀疏,里面种类比较多时,ID3不能很好地处理。
  2. C4.5:信息增益率
    考虑ID3问题,考虑自身熵
  3. CART:使用基尼系数来做衡量标准
    CART一定是二叉树,CART树模型既可以做回归树又可以做分类树。做回归树时,它的GINI计算为sqrt(yi - h)2 ,其中yi为预测值,h是真值;做分类树时,GINI计算公式是1 - sumpi2
  4. 基尼系数GINI

剪枝策略

为什么剪枝
决策树过拟合风险很大,理论上可以完全分开数据
剪枝策略

  1. 预剪枝:边建立决策树边进行剪枝
    限制深度,叶子节点个数,叶子节点样本数,信息增益等。
  2. 后剪枝:建立完决策树后进行剪枝
    通过一定的衡量标准
    如下图,有右面这样一棵树,计算倒数第二层x[3]<=1.55那个节点的C值,他在分裂和不分裂的时候,C值分别为(0.4446+1alpha)和(03+0.4443+2*alpha),其中Tleaf是从当前节点开始一共有几个节点,alpha是所赋予的一个权重参数
    机器学习算法笔记-决策树_第3张图片
    转自:https://www.bilibili.com/video/BV1rq4y1p7nJ?p=91
    当使用决策树解决回归问题时,衡量标准可以用方差。

你可能感兴趣的:(机器学习经典算法,算法,决策树,sklearn)