数据挖掘导论学习总结——第三章

第三章:定性归纳

从数据分析的角度出发,数据挖掘可以分为两类,描述性数据挖掘和预测性数据挖掘,而接下来要介绍的就是第一种情形,描述性数据挖掘,即以简洁概述的方式表达数据中存在的一些有意义的性质,也称为概念描述,或概要性总结。

概念描述基本知识

数据查询处理负责从数据库中取出数据并在必要时进行一些数据合计处理,而数据挖掘则是对数据进行深度分析并发现隐藏在数据中有意义的模式。最简单的描述性数据挖掘就是定性归纳,通常分为概念描述和对比描述。不同的人常常会基于不同的主观或客观标准需要不同角度或不同抽象水平的概念描述。这里的客观标准一般指描述的简洁性和其所覆盖的范围,主观标准则与用户背景知识以其所涉及的有关信念相关。

数据泛化与概要描述

数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程,主要有数据立方方法(OLAP)和基于属性的归纳方法(AOI)。

数据立方方法被认为是基于数据仓库,预先计算的具体实施方法。该方法在进行OLAP或数据挖掘查询处理之前,就已经完成了离线合计计算。而AOI方法是一种在线数据分析技术方法。虽然离线数据处理与在线数据处理并没有根本的区别。数据立方的合计运算也可以在线计算但是离线预处理运算可以帮助加速基于属性归纳的过程,提高运算速度。OLAP与AOI操作在方法上还是有很大不同的,OLAP中每一步都是由用户指导并控制的,而在AOI中大部分工作都是由归纳进程自动完成并受制于泛化阈值控制,用户只能在自动归纳后进行一些小的调整。

属性相关分析

数据仓库与OLAP工具中的多维数据分析的主要不足之处是无法处理复杂数据对象,第二个不足是不能主动进行泛化操作,而需要用户明确告诉系统定性概念描述中可能包含哪些属性,以及每个属性归纳应该进行到哪一个抽象层次,其中的每一步操作都必须由用户来指定。

属性相关分析的基本思想是针对给定的数据或概念,对相应属性进行计算已获得的若干属性相关参量。这些参量包括:信息增益、Gini值、不确定性和相关系数等。其中信息增益分析在决策树归纳学习中普遍采用。该方法消除信息含量较少的属性,保留信息含量较大的属性以帮助进行概念描述分析。此处以ID3决策树归纳学习方法为例进行介绍。

ID3根据一组给定数据行或训练数据对象(其类别属性已知),来构造一颗决策树,然后利用决策树对未知类别的数据对象进行分类。ID3利用了信息增益的参量来对属性重要性进行评估。具有最大信息增益被认为是当前数据集中具有最大分辨能力的属性。利用该属性构造决策树的一个结点,并在该结点对其所代表属性的所有取值进行测试,以获得决策树的该结点的各个分支,这些分支将原有数据集合划分为若干子数据集。若一个结点所包含的数据行均为同一类别,则该结点就是决策树的叶节点,无需继续进行分支,并被标为相应的类别。这一决策树构造的过程不断重复,直至所有结点均无需继续分支为止。

设S代表一组训练样本集,每个对象的类别已知,共有m个不同类别,即S包含 si s i 个类别为 Ci C i 的数据行, i[1,2,...m] i ∈ [ 1 , 2 , . . . m ] . 任何一个对象属于 Ci C i 的概率为 pi=si/s p i = s i / s . 这里s为集合S中所有样本总数。一个决策树可用于对数据对象进行分类,因此决策树可以看成是 Ci C i 的一个信息源,为产生相应信息需要的信息熵为

I(s1,s2,...sm)=pilog2pi I ( s 1 , s 2 , . . . s m ) = − ∑ p i l o g 2 p i

若属性A可以取值为 {a1,a1,...av} { a 1 , a 1 , . . . a v } , 且该属性用作决策树的一个结点时,它将会把对应的数据集合分成v份,即 {S1,S1,...Sv} { S 1 , S 1 , . . . S v } ,其中 Sj S j 包含属性A取同一值 ai a i 的数据行。 Sj S j 包含 sij s i j 个类别属性为 Ci C i 的数据对象。根据属性A的取值对当前数据集进行划分所获得的信息就称为属性A的熵,计算公式如下:
E(A)=j=1vs1j+s2j+...+smjsI(s1j,s2j,...smj)=j=1vsjsI(s1j,s2j,...smj) E ( A ) = ∑ j = 1 v s 1 j + s 2 j + . . . + s m j s I ( s 1 j , s 2 j , . . . s m j ) = ∑ j = 1 v s j s I ( s 1 j , s 2 j , . . . s m j )

因此通过选择属性A并进行决策树分支而获得的信息增益可以由一下公式计算:
Gain(A)=I(s1,s2,...sm)E(A) G a i n ( A ) = I ( s 1 , s 2 , . . . s m ) − E ( A )

ID3方法根据S集合中数据对象来计算每个属性的Gain(A)值,并从中选择出值最大的属性作为决策树的根节点,并该属性的取值个数将初始数据集划分为v份,即通过不断对每个新产生的数据子集循环进行上述操作,直到产生所有叶结点。

但定性概念描述不同于决策树的分类归纳习。前者选择出一组用于概念描述的属性集,而后者则构造出决策树形式的模型,用于识别未知数据。因此概念描述的分析过程,仅仅只是用到了决策树构造过程中的属性相关分析方法。事实上定性归纳只利用了信息增益来帮助选择概念描述分析所涉及的属性集。

属性相关分析过程如下:

  1. 数据收集。利用数据库查询命令简历目标数据集,以及对比数据集,对比数据集与目标数据集互不相交。
  2. 利用保守AOI方法进行属性相关分析。利用所确定的相关分析方法,选择出一组属性,由于对于给定数据集的不同抽象层次属性相关程度变化较大,因此原则上讲,在进行相关分析时需要对每个属性特定概念抽象层次的相关性进行分析。这里可以首先利用AOI方法进行初步属性相关分析工作,消除数据集中取不同值个数过多的属性或对可泛化属性进行泛化,可以将属性泛化控制阈值都设置的较大。利用AOI方法所获得的数据集被称为数据挖掘任务的候选数据集。
  3. 利用所确定的评估标准评估每个初选后的属性。例如可以使用前面介绍的信息增益方法。
  4. 消除无关或弱相关的属性。可以用一个阈值来定义所谓的弱相关,从而获得一个初始目标数据工作集。
  5. 利用AOI方法生成概念描述。利用更严格的属性泛化控制阈值来进行基于属性的归纳操作。

挖掘概念对比描述

通常概念对比的操作过程如下:

  1. 数据收集
  2. 属性相关分析,保留相关程度最高的若干属性
  3. 同步泛化
  4. 卷上卷下操作,对目标数据集合对比数据集进行同步或异步操作
  5. 挖掘结果表示,主要关于t_weight(必要性)与d_weight(充分性)

挖掘大数据库的描述型统计信息

关系数据库通常提供五个内置的合计函数:count、sum、avg、max、min,这些函数可以在数据立方中进行高效的运算,因此对多维数据进行描述型数据挖掘时,可以使用这些函数。在许多数据挖掘任务中,用户需要了解更多有关中心趋势和数据分布等数据特点。中心趋势包括均值、中间数、众数和中间范围等,数据分布包括四分值、异常值、方差等统计信息。

一个识别可疑异常数据的方法是挑选出其值落在至少1.5*IQR之外(即在第三分位值之上或第一分位值之下)的数据。

你可能感兴趣的:(数据挖掘导论学习总结——第三章)