从数据分析的角度出发,数据挖掘可以分为两类,描述性数据挖掘和预测性数据挖掘,而接下来要介绍的就是第一种情形,描述性数据挖掘,即以简洁概述的方式表达数据中存在的一些有意义的性质,也称为概念描述,或概要性总结。
数据查询处理负责从数据库中取出数据并在必要时进行一些数据合计处理,而数据挖掘则是对数据进行深度分析并发现隐藏在数据中有意义的模式。最简单的描述性数据挖掘就是定性归纳,通常分为概念描述和对比描述。不同的人常常会基于不同的主观或客观标准需要不同角度或不同抽象水平的概念描述。这里的客观标准一般指描述的简洁性和其所覆盖的范围,主观标准则与用户背景知识以其所涉及的有关信念相关。
数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程,主要有数据立方方法(OLAP)和基于属性的归纳方法(AOI)。
数据立方方法被认为是基于数据仓库,预先计算的具体实施方法。该方法在进行OLAP或数据挖掘查询处理之前,就已经完成了离线合计计算。而AOI方法是一种在线数据分析技术方法。虽然离线数据处理与在线数据处理并没有根本的区别。数据立方的合计运算也可以在线计算但是离线预处理运算可以帮助加速基于属性归纳的过程,提高运算速度。OLAP与AOI操作在方法上还是有很大不同的,OLAP中每一步都是由用户指导并控制的,而在AOI中大部分工作都是由归纳进程自动完成并受制于泛化阈值控制,用户只能在自动归纳后进行一些小的调整。
数据仓库与OLAP工具中的多维数据分析的主要不足之处是无法处理复杂数据对象,第二个不足是不能主动进行泛化操作,而需要用户明确告诉系统定性概念描述中可能包含哪些属性,以及每个属性归纳应该进行到哪一个抽象层次,其中的每一步操作都必须由用户来指定。
属性相关分析的基本思想是针对给定的数据或概念,对相应属性进行计算已获得的若干属性相关参量。这些参量包括:信息增益、Gini值、不确定性和相关系数等。其中信息增益分析在决策树归纳学习中普遍采用。该方法消除信息含量较少的属性,保留信息含量较大的属性以帮助进行概念描述分析。此处以ID3决策树归纳学习方法为例进行介绍。
ID3根据一组给定数据行或训练数据对象(其类别属性已知),来构造一颗决策树,然后利用决策树对未知类别的数据对象进行分类。ID3利用了信息增益的参量来对属性重要性进行评估。具有最大信息增益被认为是当前数据集中具有最大分辨能力的属性。利用该属性构造决策树的一个结点,并在该结点对其所代表属性的所有取值进行测试,以获得决策树的该结点的各个分支,这些分支将原有数据集合划分为若干子数据集。若一个结点所包含的数据行均为同一类别,则该结点就是决策树的叶节点,无需继续进行分支,并被标为相应的类别。这一决策树构造的过程不断重复,直至所有结点均无需继续分支为止。
设S代表一组训练样本集,每个对象的类别已知,共有m个不同类别,即S包含 si s i 个类别为 Ci C i 的数据行, i∈[1,2,...m] i ∈ [ 1 , 2 , . . . m ] . 任何一个对象属于 Ci C i 的概率为 pi=si/s p i = s i / s . 这里s为集合S中所有样本总数。一个决策树可用于对数据对象进行分类,因此决策树可以看成是 Ci C i 的一个信息源,为产生相应信息需要的信息熵为
但定性概念描述不同于决策树的分类归纳习。前者选择出一组用于概念描述的属性集,而后者则构造出决策树形式的模型,用于识别未知数据。因此概念描述的分析过程,仅仅只是用到了决策树构造过程中的属性相关分析方法。事实上定性归纳只利用了信息增益来帮助选择概念描述分析所涉及的属性集。
属性相关分析过程如下:
通常概念对比的操作过程如下:
关系数据库通常提供五个内置的合计函数:count、sum、avg、max、min,这些函数可以在数据立方中进行高效的运算,因此对多维数据进行描述型数据挖掘时,可以使用这些函数。在许多数据挖掘任务中,用户需要了解更多有关中心趋势和数据分布等数据特点。中心趋势包括均值、中间数、众数和中间范围等,数据分布包括四分值、异常值、方差等统计信息。
一个识别可疑异常数据的方法是挑选出其值落在至少1.5*IQR之外(即在第三分位值之上或第一分位值之下)的数据。