从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘

承接上个 学习笔记3 我们依旧在进行
数据预处理相关概念的学习
且 开启了第三章 关联数据挖掘 的学习

8.数据预处理相关知识点

8.1 信息增益

这块儿 知乎上大佬们说的是真心好
如果日后需要重点学习
点进来看就完事了
咋个理解信息增益

定义

熵:表示随机变量的不确定性

条件熵:表示在一个条件下 随机变量的不确定性

信息增益——熵-条件熵:表示在一个条件下 信息不确定性减少的程度。

举个例子

X(明天下雨)是一个随机变量,Y(明天阴天)也是随机变量。
从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第1张图片

X的熵可以算出来,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵
信息增益=X的熵 - Y条件下的X的熵
具体解释:原本明天下雨的信息熵(X也就是 下雨的熵)是2,条件熵是0.01(因为如果知道明天是阴天,那么下雨的概率很大,信息量少),这样相减后为1.99
条件熵为1.99!——在获得阴天这个信息后,下雨信息不确定性减少了很多,所以信息增益大。
从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第2张图片
明天是阴天 所以明天下雨信息的不确定性减少了贼多~
也就是说,阴天这个信息对明天下午这一推断来说非常重要。

得出结论

在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键,决策树就是这样来找特征的。

8.2 聚类

  • 将数据集划分为聚类 然后通过聚类来表示数据集
  • 如果数据可以组成各种不同的聚类——这个技术非常有效;

​ 反之如果数据界线模糊(不能组成不同的聚类)则该方法无效

  • 数据可以分层聚类 并且被存储在多层索引树中

关于 聚类算法——

参考 深入浅出聚类算法

什么是分类算法?

它的目标是确定一个物体所属的类别。例如,我们要判定一个水果是苹果、杏,还是桃——

解决这类问题的办法是先给一些各种类型的水果让算法学习,然后根据学习得到的经验对一个水果的类型做出判定。

这就像一个幼儿园的小朋友,老师先拿各种水果教他们,告诉每种水果是什么样子的,接下来这些孩子就会认这些类型的水果了。

这种做法称为有监督学习,它有训练和预测两个过程,在训练阶段,我们用大量的样本进行学习,得到一个判定水果类型的模型。

从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第3张图片

什么是聚类算法?

以下面的图为例,这里有一堆水果,但我们事先没有告诉你有哪些水果,也没有一个训练好的判定各种水果的模型,聚类算法要自动将这堆水果进行归类:

从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第4张图片

依旧拿幼儿园老师教孩子们分水果为例——

这一次,老师并没有事先告诉孩子们各种水果是什么样子的,孩子们需要自己将水果进行归类划分,而且这些水果可能是他们不认识的。

这里没有统一的、确定的划分标准,有些孩子将颜色相似的水果归在了一起,而另外一些孩子将形状相似的水果归在了一起,还有一些孩子将尺寸大小相似的水果归在了一起。

这种做法被称为无监督学习

聚类算法没有训练过程,这是和分类算法最本质的区别,算法要根据自己定义的规则,将相似的样本划分在一起,不相似的样本分成不同的类。

9.本章总结

完成 《认识数据与数据预处理》 章节的学习 我们主要学习了数据处理的知识 接下来 进行一波总结——

9.1 认识数据

我们学习了——

  • 属性类型
  • 数据集类型
  • 数据的统计描述(需要掌握)
  • 数据的相似性度量(重点——上机实验巩固)

9.2 数据预处理

我们学习了——

  • 缺失值处理(重点——上机实验巩固)
  • 特征筛选(重点——上机实验巩固)
  • 归一化(重点——上机实验巩固)

10.课后作业&上机实验 巩固练习

从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第5张图片
从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第6张图片
从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第7张图片
Ready for it~
从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第8张图片

这几道题目&上机实验完成之后 会另发文章进行一个总结~
记录《认识数据和数据预处理》这一章内容完整的学习过程
概念学习——课后作业练习巩固&上机实验巩固

三、关联数据挖掘

1.什么是关联规则挖掘?

经典例子——购物篮分析

从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第9张图片
目的:在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构

频繁模式:数据库中频繁出现的项集

其他应用举例

购物篮分析 交叉销售 医疗诊断 网页挖掘 科学数据分析 产品目录设计生物信息学

[考点]频繁项集 中支持度的计算

这是个考点诶~给个表格 计算置信度支持度 可见还是重要的

例子——

给定一个数据集

从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第10张图片

频繁项集

满足最小支持阈值的所有项集

也就是出现次数大于给定阈值的项集

项集

  • 包含0个或多个项的集合

——例如:{Milk,Bread,Diaper}

  • k-项集:包含k个项的项集

支持度计数 support count

在这里插入图片描述

  • 包含特定项集的事务个数

——例如:
从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第11张图片

{Milk,Bread,Diaper}中
在这里插入图片描述=2

支持度 support

  • 包含项集的事务数/总事务数

从零开始的《数据挖掘与大数据分析》课堂学习笔记-4 认识数据与数据预处理 完结 开始新章节——关联数据挖掘_第12张图片

support({Milk,Bread,Diaper})=2/5

[考点]关联规则的强度——置信度和支持度的计算

关联规则

形如X—>Y的蕴含表达式

其中X Y是不相交的项集

例如:{milk,diaper}——>{Bear}

衡量关联规则的强度——支持度 置信度

  • 支持度 support(X—>Y)

确定项集的频繁程度

在这里插入图片描述

  • 置信度 Confidence(X—>Y)

确定Y在包含X的事务中出现的频繁程度

在这里插入图片描述

在这里插入图片描述
表示事务包含集合A B中每个项的概率

你可能感兴趣的:(数据挖掘与大数据分析,聚类,人工智能,机器学习,数据挖掘)