数据挖掘 概念与技术 笔记(Data Mining concepts and Techniques Third Edition Notebook)

第1章 引论

1.1 什么是数据挖掘?

数据挖掘是一个多学科领域,数据挖掘可以用多种方法定义。它也是数据中的知识发现(KDD)的同义词。而另一些人只是把数据挖掘视为只是发现过程的一个基本步骤。具体步骤:

  1. 数据清洗
  2. 数据集成
  3. 数据选择
  4. 数据变换
  5. 数据挖掘
  6. 模式评估
  7. 知识表示

1.2 什么类型数据可以挖掘?

数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的。在应用中,数据最基本形式就是**(1)数据库数据(2)数据仓库数据(3)事务数据**。本书提供的概念和技术集中考虑这类数据。当然数据挖掘也可以用于其他类型数据(例如:数据流、有序/序列数据、图和网络数据、空间数据、文本数据、多媒体数据和万维网)
1)数据库数据
数据库系统,也称之为数据库管理系统(DBMS),由一组内部相关的数据(称之为数据库)和一组管理和存取数据的软件程序组成。当数据挖掘用于关系数据库时,可以进一步搜索趋势和数据模式。关系数据库时数据挖掘最常见、最丰富的信息源,因此数据库数据是数据挖掘研究的一种主要数据形式。
2)数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
数据仓库也称之为数据立方体(data cube)的多位数据结构建模。多位数据挖掘(又称探索式多位数据挖掘)以OLAP风格在多位空间进行数据挖掘。
OLAP是联机分析处理,是一种分析技术。

3)事务数据
一般来说,事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班的订票,或者一个用户的网页点击。

1.3 什么类型的模式可以挖掘?

存在大量数据挖掘功能,包括1)特征化与区分、2)频繁模式、3)关联和相关性挖掘、4)分类与回归、5)聚类分析、6)离群点分析
数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性(descriptive)预测性(predictive)
描述性挖掘任务刻画目标数据中数据段一般性质。预测性挖掘任务再当前数据上进行归纳,以便做出预测。

1.4 使用什么技术

作为应用驱动的领域,数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。

你可能感兴趣的:(大数据挖掘)