数据挖掘导论 笔记 第一章

上网课真是听不进去

1.数据挖掘有许多不同的定义:

书里的定义是:在大型数据存储库中,自动的发现有用信息的过程。

Jiawei Han的定义:从大型数据集中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式。

从这些定义中,我自己对数据挖掘的理解是:从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的信息的过程。

2.知识发现(KDD)是将未加工的数据转换为有用信息的整个过程。

数据库中知识发现过程:

输入数据→数据预处理→数据挖掘→后处理→信息

从这可以看出数据挖掘是整个KDD过程的一个步骤,数据挖掘是知识发现过程的核心,但它通常仅占KDD的一部分。

3.数据挖掘任务分为下面两大类:

预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量或因变量,而用来做预测的属性称说明变量或自变量。

描述任务。其目标是导出概括数据中潜在的联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。

4.四种主要数据挖掘任务:

(1)预测建模 涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量。

(2)关联分析 用来发现描述数据中强关联特征的模式。所发现的模式通常是蕴含规则或特征子集的形式表示。

(3)聚类分析 旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

(4)异常检测 任务是识别出特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。也就是一个好的异常检测算法必须具有高检测率和低误报率。

 

你可能感兴趣的:(数据挖掘导论)