1.why(为什么需要数据挖掘)
数据库系统经历了如下的技术演变:数据收集和数据库创建,数据管理(DBMS,包括数据存储和检索,联机事务处理OLTP),以及高级数据分析(涉及数据仓库和数据挖掘)。当前常见的数据集形式为多个异构数据源在单个站点以统一的模式组织的储存库,即数据仓库。数据仓库技术包括数据清理、数据集成和联机分析处理OLAP。
-OLTP:主要用于增删改查操作,着眼于事务处理的及时性、完整性和正确性。其不足在于:缺乏集成性;主题不明确;分析和处理的效率低下
-OLAP:数据仓库主要特点:面向主题、集成、随时间变化、非易失。OLAP是数据仓库的一部分。
-数据挖掘:数据仓库是进行数据挖掘的基础。一种常见的观点认为,数据挖掘包含数据描述和数据建模。OLAP可以提供数据仓库中数据的一般描述,OLAP的功能基本上是用户指导的汇总和比较(通过钻取、旋转、切片、切块等操作)。这属于数据挖掘功能。根据这种观点,数据挖掘的涵盖面比OLAP更宽,DM不仅执行数据汇总和比较,还执行特征化、区分、关联、分类、预测、聚类、时间序列分析等数据分析任务。
简言之,数据丰富,但信息缺乏(即如何从大量数据中获取有用信息)的现状是推动数据挖掘迅猛发展的动力所在。
2.what(什么是数据挖掘)
数据挖掘是指从大量数据中提取或“挖掘”知识。通常,数据挖掘作为KDD的同义词或者KDD的一个基本步骤。KDD由以下步骤的迭代序列组成:
-数据清理(消除噪声和不一致数据)
-数据集成(多种数据源可以组合在一起)
-数据选择(从数据库中提取与分析任务相关的数据)
-数据变换(数据变换或统一成适合挖掘的形式)
-数据挖掘(基本步骤,使用智能方法提取数据模式)
-模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)
-知识表示(可视化)
前4步属于数据预处理的范畴。
典型的数据挖掘系统结构包括数据库和/或数据仓库及相应的服务器,数据挖掘引擎和模式评估模块(二者与知识库交互),以及图形用户界面。数据挖掘系统应当提供与数据库和/或数据仓库系统的紧密耦合或半紧密耦合。(存在不耦合、松散耦合、半紧密耦合和紧密耦合4种情况)
3.数据挖掘的对象
数据挖掘可用于任何类型的信息储存库以及瞬态数据(如数据流)。包括关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。
4.数据挖掘功能--可以挖掘什么类型的模式
数据挖掘功能用于指定数据挖掘任务要找的模式类型。一般地,数据挖掘任务可以分为两类:描述和预测。
数据挖掘功能以及它们可以发现的模式类型如下:
-概念/类描述:特征化和区分
-挖掘频繁模式、关联和相关(关联分析中引入支持度support和置信度confidence)
-分类和预测(分类是离散的标号,常见方法有IF-THEN规则、决策树、数学公式、神经网络;预测则指连续的数值预测,常用回归分析法)
-聚类分析(不同于分类和预测,训练数据中不提供类标号)
-离群点分析outlier mining(用于发现异常)
-演变分析evolution analysis
5.数据挖掘结果--模式兴趣度的客观度量
支持度(support):满足规则的事务数据库的事务所占的百分比,表征实用性。P(X并Y),X并Y表示同时包含X和Y的事务。
置信度(confidence):体现发现的规则的确定性程度。P(Y|X),即X发生的条件下Y发生的概率。
有时还需要考虑主观兴趣度度量。
6.数据挖掘系统的分类
7.数据挖掘任务原语
-任务相关数据
-挖掘的知识类型:特征化、区分、关联/相关、分类/预测、聚类
-背景知识
-模式相关度度量:确定性(如置信度)、实用性(如支持度)、简洁性、新颖性
-发现模式的可视化
可以设计数据挖掘查询语言集成这些原语,允许用户灵活地与数据挖掘系统交互。
8.数据挖掘面临的主要问题
-数据挖掘技术和用户交互问题(如处理噪声,模式评估即兴趣度问题)
-性能问题(如并行和分布式数据挖掘算法)
-数据库类型多样性问题