《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯

文章目录

  • 第四章 分类
    • 1.分类基本概念
    • 2.预测任务
    • 3.模型分类
      • 生成模型
      • 判别模型
    • 4.经典分类方法
      • 4.1 决策树
        • 引入:高尔夫问题
        • 引入小结
        • 决策树构建
        • 决策树构造具体流程
          • 属性选择度量
            • 信息增益
            • 信息增益率
          • Gini 指标
        • 过拟合问题
        • 过拟合与树剪枝
        • 由决策树提取分类规则
      • 4.2 KNN算法
        • 什么是KNN算法?
        • KNN基本思想
        • KNN算法过程
        • 算法计算步骤
        • 算法的优缺点
        • KNN的常见问题
      • 4.3 朴素贝叶斯
        • 什么是贝叶斯分类算法?
        • 样本空间的划分
        • 全概率公式
        • 贝叶斯公式
        • 贝叶斯定理
        • 朴素贝叶斯分类
        • 朴素贝叶斯分类器
        • 朴素贝叶斯算法原理
        • 朴素贝叶斯算法例子
        • 朴素贝叶斯算法的优点

第四章 分类

1.分类基本概念

分类是一种数据分析形势,它提取刻画重要数据类的模型,这种模型叫分类器。
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第1张图片

之后模型会进而预测分类的(离散的、无序的)类标号。
总而言之,分类属于 预测任务

2.预测任务

所以我们自然而然地引入了 什么是预测任务?
一般一个预测任务分成两个阶段

3.模型分类

生成模型

  • 希望从数据中心学习/还原出 原始的真实数据生成模型。
  • 常见的方法:学习数据的联合概率分布(一般会假设一下联合概率分布)
    eg:朴素贝叶斯方法、隐马尔可夫模型等

判别模型

  • 从数据中心学习到不同类概念的区别 从而进行分类
    就例如之前所说的例子——
    给一个数据集 有杂乱的蓝莓枣 香蕉 通过这个模型的学习和判别之后 将其分类。
    eg: KNN SVM ANN Decision Tree等

4.经典分类方法

4.1 决策树

p16

引入:高尔夫问题

小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都來玩高尔夫,以至于所有员工都忙的团团转还是应付不过来,而有些天不知道什么原因却一个人也不来,俱乐部为雇员数量浪费了不少资金。

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第2张图片

小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫,以适时调整雇员数量。因此首先他必须了解人们决定是否打球的原因。
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第3张图片

在2周时间内我们得到以下记录:

天气状况有晴,云和雨;气温用华氏温度表示;相对湿度用百分比;还有有无风。当然还有顾客是不是在这些日子光顾俱乐部。最终他得到了14列5行的数据表格。

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第4张图片
在这个问题中 决策树模型被建起来用于解决问题
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第5张图片
决策树是一个有向无环图。
根据数据集 根据决策树一个一个环节的判断 最终找出来规律——得知啥时候有人打高尔夫 啥时候没人打

这就通过分类树给出了一个解决方案。 小王在晴天,潮湿的天气或者刮风的雨天解雇了大部分员工,因为这种天气不会有人打高尔夫。而其他的天气会有很多人打高尔夫,因此可以雇用一些临时员工来工作。
所以得到——

引入小结

决策树可以帮助我们把负责的数据转换成相对简单、直观的结构

决策树构建

首先需要明确:决策归纳树算法(一个贪心算法)的性质

  • 自顶向下的分治方法构造决策树
  • 使用分类属性递归地通过选择相应的测试属性来划分样本
  • 测试属性是根据某种启发信息或者是统计信息来进行选择(如:信息增益

决策树构造具体流程

  1. 树以代表训练样本的单个节点开始
  2. 如果样本都在同一个类 则该结点成为树叶,并用该类标记
  3. 否则,算法选择最有分类能力的属性作为决策树的当前结点
  4. 根据当前决策结点属性取值的不同,将训练样本数据集分为若干子集;每个取值形成一个分枝(有几个取值形成几个分枝)
  5. 针对4.中形成的子集,重复进行先前步骤,递归形成每个划分样本上的决策树。一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它。
  6. 递归划分步骤仅当下列条件之一成立时停止:
    【1】给定结点的所有样本属于同一类
    【2】没有剩余属性可以用来进一步划分样本
    【3】如果某一分枝没有满足该分支中已有分类的样本,则以样本的多数类创建一个树叶。
属性选择度量

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第6张图片

信息增益

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第7张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第8张图片
举个例子~
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第9张图片

信息增益率

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第10张图片

Gini 指标

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第11张图片

过拟合问题

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第12张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第13张图片

过拟合与树剪枝

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第14张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第15张图片

由决策树提取分类规则

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第16张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第17张图片

4.2 KNN算法

p37
即为K近邻算法(K-Nearest Neighbour)

什么是KNN算法?

KNN基本思想

KNN算法过程

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第18张图片

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第19张图片

算法计算步骤

算法的优缺点

优点:

  • 简单,易于理解,易于实现,无需估计参数 无需训练
  • 准确度一般较高
  • 特别适合于多标签问题(multi-label 对象具有多个类别标签) 在多标签问题中 KNN比SVM表现要好

缺点:

KNN的常见问题

(1)K值设定

(2)类别的判定方式

(3)距离度量方式的选择

  • 变量越多(高维诅咒问题),欧式距离的区分能力越差

(4)性能问题

  • KNN是一种懒惰算法,构造模型很简单但是在对测试样本分类的系统开销打
  • 策略:采样训练样本量减少训练集的大小;或通过聚类,将聚类所产生的中心点作为新的训练样本。

4.3 朴素贝叶斯

p47
非常重要的分类方法 “拉开差距”

什么是贝叶斯分类算法?

是统计学的一种分类方法,是一种利用概率统计知识进行分类的算法。

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第20张图片
可以看到——最外层是数学基础 最内层是我们要学习的朴素贝叶斯——具体方法论

样本空间的划分

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第21张图片

全概率公式

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第22张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第23张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第24张图片

贝叶斯公式

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第25张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第26张图片

贝叶斯定理

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第27张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第28张图片

朴素贝叶斯分类

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第29张图片

朴素贝叶斯分类器

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第30张图片

朴素贝叶斯算法原理

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第31张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第32张图片

朴素贝叶斯算法例子

《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第33张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第34张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第35张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第36张图片
《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯_第37张图片

朴素贝叶斯算法的优点

  • 算法逻辑简单 易于实现
  • 分类过程中时空开销小
  • 算法稳定 对于不同的数据特点 其分类性能差别不大 健壮性比较好

你可能感兴趣的:(课堂笔记-数据挖掘与大数据分析,决策树,电子科技大学课堂笔记,svm,基础知识初识,朴素贝叶斯)