AI-理论-吃瓜教程-决策树-task3

AI-理论-吃瓜教程-决策树-task3

(Datawhale37期组队学习)

文章目录

  • AI-理论-吃瓜教程-决策树-task3
    • 1知识点
    • 2具体内容
      • 2.1流程
      • 2.2划分选择
        • 2.2.1信息熵
        • 2.2.2信息增益
        • 2.2.3增益率
        • 2.2.4基尼指数
    • 3待补充
    • 4Q&A
    • 5code
    • 6参考

1知识点

  • 流程
  • 划分选择
    • 信息熵
    • 信息增益
    • 增益率
    • 基尼系数

2具体内容

2.1流程

  • 决策树(decision tree),判定树
  • 叶节点-》决策结果
  • 根节点(包含样本全集)、内部节点(包含对应样本集合)-》属性测试
  • 根-叶:判定测试序列
  • 递归

2.2划分选择

纯度越来越高

2.2.1信息熵

在这里插入图片描述

  • Ent(D)值越小,D纯度越高
2.2.2信息增益

在这里插入图片描述

  • Gain(D,a)信息增益越大,使用属性a划分获得的纯度提升越大
  • ID3决策树使用信息增益为准则
  • 偏好取值数目较多的属性
2.2.3增益率

AI-理论-吃瓜教程-决策树-task3_第1张图片

  • 增益率偏好取值数据较少的属性
  • C4.5决策树使用启发式增益率为准则
  • 先从划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的
2.2.4基尼指数

AI-理论-吃瓜教程-决策树-task3_第2张图片

  • 反映从数据集D随机抽取两个样本,其类别标记不一致的概率。Gini(D)越小,数据集D的纯度越高
  • CART决策树使用基尼系数为准则
    在这里插入图片描述
  • 属性a的基尼指数,选择基尼指数最的属性

3待补充

4Q&A

5code

6参考

  • https://github.com/datawhalechina/pumpkin-book

你可能感兴趣的:(AI,算法梳理,决策树,机器学习,深度学习)