数据挖掘系列之二:数据挖掘概述

1.why(为什么需要数据挖掘)

数据库系统经历了如下的技术演变:数据收集和数据库创建,数据管理(DBMS,包括数据存储和检索,联机事务处理OLTP),以及高级数据分析(涉及数据仓库和数据挖掘)。当前常见的数据集形式为多个异构数据源在单个站点以统一的模式组织的储存库,即数据仓库。数据仓库技术包括数据清理、数据集成和联机分析处理OLAP。
- OLTP:主要用于增删改查操作,着眼于事务处理的及时性、完整性和正确性。其不足在于:缺乏集成性;主题不明确;分析和处理的效率低下
- OLAP:数据仓库主要特点:面向主题、集成、随时间变化、非易失。OLAP是数据仓库的一部分。
- 数据挖掘:数据仓库是进行数据挖掘的基础。一种常见的观点认为,数据挖掘包含数据描述和数据建模。OLAP可以提供数据仓库中数据的一般描述,OLAP的功能基本上是用户指导的汇总和比较(通过钻取、旋转、切片、切块等操作)。这属于数据挖掘功能。根据这种观点,数据挖掘的涵盖面比OLAP更宽,DM不仅执行数据汇总和比较,还执行特征化、区分、关联、分类、预测、聚类、时间序列分析等数据分析任务。
参见: OLTP不等于OLAP 从数据库到数据仓库
简言之,数据丰富,但信息缺乏(即如何从大量数据中获取有用信息)的现状是推动数据挖掘迅猛发展的动力所在。

2.what(什么是数据挖掘)

数据挖掘是指从大量数据中提取或“挖掘”知识。通常,数据挖掘作为KDD(Knowledge Discovery in Database,数据库中的知识发现,一般地,在科研领域沿用KDD这个术语,而在商用领域则采用数据挖掘这个术语)的同义词或者KDD的一个基本步骤。90年达中期以后,基于数理统计人工智能机器学习神经网络等多种技术,关于数据挖掘的研究和应用称为热点。

KDD由以下步骤的迭代序列组成:

-数据清理(消除噪声和不一致数据)
-数据集成(多种数据源可以组合在一起)
-数据选择(从数据库中提取与分析任务相关的数据)
-数据变换(数据变换或统一成适合挖掘的形式)
-数据挖掘(基本步骤,使用智能方法提取数据模式)
-模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)
-知识表示(可视化)

前4步属于数据预处理的范畴。简单地说,KDD包括数据预处理、数据挖掘、评估和表示。在这种理解下,数据挖掘比KDD的范畴要小。

典型的数据挖掘系统结构包括数据库和/或数据仓库及相应的服务器,数据挖掘引擎和模式评估模块(二者与知识库交互),以及图形用户界面。数据挖掘系统应当提供与数据库和/或数据仓库系统的紧密耦合或半紧密耦合。(存在不耦合、松散耦合、半紧密耦合和紧密耦合4种情况)

3.数据挖掘的对象

数据挖掘可用于任何类型的信息储存库以及瞬态数据(如数据流)。包括关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。

4.数据挖掘功能--可以挖掘什么类型的模式

数据挖掘功能用于指定数据挖掘任务要找的模式类型。一般地,数据挖掘任务可以分为 两类:描述和预测。
- 预测任务:根据自变量预测因变量
- 描述任务:概况数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常),通常是探查性的,需要后处理技术验证和解释。
数据挖掘功能以及它们可以发现的模式类型如下:
-概念/类描述:特征化和区分
-挖掘频繁模式、关联和相关(关联分析中引入支持度support和置信度confidence)
-分类和预测(分类是离散的标号,常见方法有IF-THEN规则、决策树、数学公式、神经网络;预测则指连续的数值预测,常用回归分析法)
-聚类分析(不同于分类和预测,训练数据中不提供类标号)
-离群点分析outlier mining(用于发现异常)
-演变分析evolution analysis

数据挖掘的任务主要有4种(其中第一个属于两类数据挖掘任务中的预测类,其余三个属于描述):
- 预测建模(predictive modeling)其中,分类用于预测离散的目标变量(因变量);回归用于预测连续的目标变量。
- 关联分析(association analysis)例如,用户一起访问的网页,顾客一起购买的商品等。
- 聚类分析(cluster analysis)例如,根据某些特征可将一些网站分为军事类、经济类、体育类、娱乐类等。
- 异常检测(anomaly detection)例如,录入个人信息的欺诈行为。
其中, 分类和聚类有不少相同之处,而 序列(包括时间序列)与关联分析关系密切。序列和关联分析都是 发现组合规律的,但是 关联中所发现的规律不涉及先后次序,而 序列是有先后次序的
刨除算法不论,分类(机器学习领域中属于监督学习)与聚类(机器学习领域属于非监督学习)的 本质区别在于分类的训练集中自变量和因变量的取值都给出,据此得到一个预测模型用于处理 实际数据集聚类则给出相当于自变量的实际数据集,并无训练集

5.数据挖掘结果--模式兴趣度的客观度量

支持度(support):满足规则的事务数据库的事务所占的百分比,表征实用性。P(X并Y),X并Y表示同时包含X和Y的事务。
置信度(confidence):体现发现的规则的确定性程度。P(Y|X),即X发生的条件下Y发生的概率。
有时还需要考虑主观兴趣度度量。

6.数据挖掘系统的分类

7.数据挖掘任务原语

-任务相关数据
-挖掘的知识类型:特征化、区分、关联/相关、分类/预测、聚类
-背景知识
-模式相关度度量:确定性(如置信度)、实用性(如支持度)、简洁性、新颖性
-发现模式的可视化
可以设计数据挖掘查询语言集成这些原语,允许用户灵活地与数据挖掘系统交互。

8.数据挖掘面临的主要问题

-数据挖掘技术和用户交互问题(如处理噪声,模式评估即兴趣度问题)
-性能问题(如并行和分布式数据挖掘算法)
-数据库类型多样性问题

9.参考文献

[1]数据挖掘:概念与技术
[2]数据挖掘导论
[3]数据挖掘原理
[4]大话数据挖掘

你可能感兴趣的:(数据挖掘)