算法面试必备-----决策树

算法面试必备-----决策树

  • 算法面试必备-----决策树
    • 建立决策树基本流程
    • 划分选择的准则(不同的启发函数)
      • 准则一:最大信息增益(ID3算法)
        • 信息熵
        • 信息增益
        • ID3算法公式推导(使用信息增益)
          • 公式
          • 算法流程推导
          • ID3算法的不足
            • 为什么信息增益会偏向于取值多的特征
      • 准则二:最大信息增益率(C4.5算法)
        • 信息增益率
        • 特点及使用
        • C4.5 算法公式推导(使用信息增益率)
          • 公式
        • C4.5算法的不足
      • 准则三:最大基尼指数(CART算法)
        • 基尼指数
        • CART算法公式推导
        • 分类树:基尼指数最小原则
          • 样本集合D的Gini指数
        • 回归树:平方误差最小准则
    • 剪枝处理
      • 预剪枝
      • 后剪枝

算法面试必备-----决策树

建立决策树基本流程

算法面试必备-----决策树_第1张图片
算法面试必备-----决策树_第2张图片

划分选择的准则(不同的启发函数)

准则一:最大信息增益(ID3算法)

信息熵

算法面试必备-----决策树_第3张图片

信息增益

算法面试必备-----决策树_第4张图片

ID3算法公式推导(使用信息增益)

公式

算法面试必备-----决策树_第5张图片
算法面试必备-----决策树_第6张图片

算法流程推导

从根节点信息熵开始
分别计算每个特征的信息增益
算法面试必备-----决策树_第7张图片
算法面试必备-----决策树_第8张图片
算法面试必备-----决策树_第9张图片
算法面试必备-----决策树_第10张图片
算法面试必备-----决策树_第11张图片
算法面试必备-----决策树_第12张图片
选取最大的信息增益
算法面试必备-----决策树_第13张图片
进一步划分,选一个新的信息划分起点
算法面试必备-----决策树_第14张图片
算法面试必备-----决策树_第15张图片
算法面试必备-----决策树_第16张图片
算法面试必备-----决策树_第17张图片
算法面试必备-----决策树_第18张图片
算法面试必备-----决策树_第19张图片
再次选取最大信息增益
算法面试必备-----决策树_第20张图片进一步划分,选一个新的信息划分起点
算法面试必备-----决策树_第21张图片
算法面试必备-----决策树_第22张图片
算法面试必备-----决策树_第23张图片
算法面试必备-----决策树_第24张图片
算法面试必备-----决策树_第25张图片
算法面试必备-----决策树_第26张图片
再次选取最大信息增益
算法面试必备-----决策树_第27张图片
其他的特征也一样
算法面试必备-----决策树_第28张图片

ID3算法的不足

算法面试必备-----决策树_第29张图片

为什么信息增益会偏向于取值多的特征

算法面试必备-----决策树_第30张图片
算法面试必备-----决策树_第31张图片

准则二:最大信息增益率(C4.5算法)

应对 ID3算法利用信息增益划分,造成划分倾向于划分属性多的特征

信息增益率

算法面试必备-----决策树_第32张图片

特点及使用

对可取数目较少的属性有所偏好

使用方法:
在这里插入图片描述

C4.5 算法公式推导(使用信息增益率)

公式

算法面试必备-----决策树_第33张图片

C4.5算法的不足

算法面试必备-----决策树_第34张图片

准则三:最大基尼指数(CART算法)

基尼指数

算法面试必备-----决策树_第35张图片

CART算法公式推导

算法面试必备-----决策树_第36张图片
算法面试必备-----决策树_第37张图片

分类树:基尼指数最小原则

样本集合D的Gini指数

算法面试必备-----决策树_第38张图片
算法面试必备-----决策树_第39张图片
算法面试必备-----决策树_第40张图片
算法面试必备-----决策树_第41张图片

回归树:平方误差最小准则

剪枝处理

预剪枝

容易造成欠拟合

后剪枝

过程复杂,但是效果好!



此时共 5 个内部结点可供考虑,其中
算法面试必备-----决策树_第42张图片


你可能感兴趣的:(算法岗面试笔试准备)