机器学习 -- 《机器学习》(周志华)第四章笔记

机器学习 – 《机器学习》(周志华)第四章笔记

摘要

本章为决策树(decision tree)内容,决策树是一种较为常见的机器学习方法。决策树基于“树”型,是一种常见的自然判断,是一种“判定”的过程。

笔记

  1. 决策树 学习的目的是为了产生一个泛化能力强,也即是处理没有见过的示例的能力强的决策树

  2. 决策树基本流程遵循“分而治之”(divide-and-conquer) 策略

  3. 决策树过程:是一个递归过程,有三种情况会导致递归返回
    a. 当前节点包含的样本属于同一类别,不需要进行划分
    b. 当前属性集为空或者所以样本属性值相同
    c. 当前节点包含的样本集合为空,无法划分

  4. 信息熵(information entropy)是度量样本集合纯度的一种指标,纯度越高,说明决策树的分支结点包含的样本越多属于同一类别。计算方法
    信息熵

  5. 增益率
    信息增益会对取值数目较多的属性进行偏好选择,但此种选择并不利于进行决策,因此在更多时候选择使用“增益率” 来选择最优划分属性

  6. 基尼指数
    CART 决策树使用“基尼指数” 进行属性划分。

  7. 剪枝处理
    剪枝(pruning) 是用来处理过拟合的一种主要方法。因为决策树过程不断递归重复,就可能会出现枝条过多,从而出现过拟合的情况

  8. 剪枝测基本策略分为: “预剪枝” 和 “后剪枝”

  9. 预剪枝
    在生成过程中,划分前先进行估计,如果当前节点的划分不能带来决策树泛化性能提升,那么就停止划分

  10. 后剪枝
    当整个决策树已经生成,在叶子节点到根节点的方向对非叶子结点进行考察

  11. 连续值的处理
    在进行判定中,可以将连续值进行离散化

  12. 缺失值处理

    1. 可利用已知的属性值进行预判概率,从而进行划分处理

延伸

你可能感兴趣的:(机器学习,机器学习)