作者:杨永钰
摘要:数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。
关键词:数据挖掘;聚类;分类;关联
1.前言
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。
数据挖掘是数据库中知识发现的核心步骤(如下图所示),发现了隐藏的模式,所以从模式处理的角度,许多人认为两者是等同的。
2.数据挖掘的模式
2.1分类模式(Classification)
分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上.该过程由2步构成:模型创建和模型使用。模型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。
其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出的。
2.1.1分类步骤
第一步,是建立分类模型,描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常,这样的分类模型用分类规则集、决策树或者数学公式的形式给出。
第二步,是使用分类对新的数据集进行划分,主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规财集合应该是对新的数据集而言具有很高的准确性、尽可能少的矛盾划分以及较小的规则集。
2.1.2算法
决策树、关联规则、贝叶斯、神经网络、规则学习、k一临近法、遗传算法、粗糙集以及模糊逻辑技术等。其中决策树算法及基于关联规则的分类算法是本节论述的重点,对其他一些算法只作简单介绍。
决策树算法:决策树算法的类型主要有基于决策树归纳、强调在数据挖掘中可伸缩性的决策树算法、决策树归纳属性选择度量比较。
ID3算法是较早也是最著名的决策树归纳算法。
该算法优点是描述简单、分类速度快,特别适合大规模的数据处理。
存在的主要问题有:(1)互信息的计算依赖于属性取值的较多特征,而这一属性不一定最优;(2)ID3是非递增学习算法;(3)抗噪性差,训练例子中
正例和反例较难控制。
改进算法:QUEST和PUBLIC等
QUEST弱化了选择能提供更多的分裂变量的偏见。
PUBLIC是一种基于MDL剪枝的算法,对于可能被剪枝的节点在建树时不予以扩充,减少了工作量(如I/O)。
2.1.3小结
分类是数据挖掘的重要方法之一。到目前为止,基于各种思想和理论基础的分类算法已提出很多,算法的实际应用也已趋于成熟。但实践证明,没有一种分类算法对所有的数据类型和定义域都优于其他分类算法,每种相对较优的算法都有它具体的应用环境。
2.3聚类(clustering)
聚类就是将数据项分组成多个类或簇,“最小化类间的相似性,最大化类内的相似性”原则!与分类模式不同的是,聚类中要划分的类别是未知的,它是一种不依赖于预先定义的类和带类标号的训练数据集的非监督学习(unsupervisedlearning),无需背景知识,其中类的数量由系统按照某种性能指标自动确定。
2.4其他模式
2.4.1回归模式(regression)
回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。分类和回归都是预测问题。
2.4.2序列模式(sequential)
序列模式是描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。
2.4.3偏差模式(deviation)
偏差模式是对差异和极端特例的描述,如聚类外的离群值!大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能比正常的数据更有用。比如信用卡的欺骗检测,通过检测一个给定帐号与其历史上正常的付费相比,可以付款数额特别大这一异常数据为依据来发现信用卡被欺骗性使用。
2.4.4关联模式(association)
关联模式是数据项之间存在的关联规则,是在同一事件中出现的不同项之间相关性。所谓关联规则挖掘是从大量的、有噪声的、模糊的、随机的实际数据中,抽取隐含在其中的、人们事先不知道的、但又是潜在有用的关联信息和知识的过程。
最著名的关联规则挖掘算法是由Apriori等于1994年提出的Apriori算法。
关联规则挖掘算法的设计分解为两个子问题:
(1)找到所有支持度大于最小支持度的项集(Item set),这些项集称为频集(Frequent Item set)。
(2)使用第1步找到的频集产生期望的规则。
但Apriori方法一些固有的缺陷仍然无法克服。
(1)可能产生大量的候选集:当长度为1的频集有10000个的时候,长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候,要产生的中间元素也是巨大量的。
(2)无法对稀有信息进行分析:由于频集使用了参数min.sup,所以就无法对小于min sup的事件进行分析;而如果将min.sup设成一个很低的值,那么,算法的效率就成了一个很难处理的问题。
3.数据挖掘常用方法
模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。
模糊理论:美国控制论专家、数学家查德1965年发表的论文《模糊集合》,标志着模糊数学这门学科的诞生!模糊集合和模糊推理是模糊方法的数学基础,模糊集理论以不确定性的事物为研究对象,是经典集合理论的扩展。
隶属度函数是模糊集合的特征函数,是模糊概念的核心,它的取值范围从普通集合{0,1}的两个值扩充到[0,1]闭区间内连续值。
在模糊方法中,关系就是模糊集合,找关系便是找隶属度函数如何选择蕴涵关系和合成算法是模糊推理的关键,这里有许多经验的成分,模糊推理注重的是把握结论的趋势,是近似的而不是精确的结果。当然,模糊推理的结果也可能是错的,所以还要实践检验。
粗糙集理论:研究不完整、不确定知识和数据的表达、学习和归纳的理论方法。粗糙集理论的核心特点是无需提供问题所需处理的数据集合以外的任
何先验信息,这也可能是因为其无法获得客观事实的足够支持。
粗糙集理论可以用于分类,发现不准确数据或噪声数据内在的联系。
云理论:云理论是李德毅教授于1995年提出的用于处理不确定性的一种新理论。把定性概念的模糊性和随机性完全集成到一起,构成定性和定量相互间的映射,作为知识表示的基础。
证据理论:是经典概率论的扩充,处理不确定信息的证据理论!。该理论的一个重要贡献就是划清了不确定和不知的界限。
人工神经网络:人工神经网络由多个神经元按照某种方式相互连接形成,靠网络状态对外部输入信息的动态响应来处理信息,网络的信息分布式存储于连接权系数
中,使网络具有很强的容错性和鲁棒性。
在数据挖掘中,神经网络主要用于获取分类模式。
但是由于神经网络分类方法获取的模式隐含在网络结构中,而不是显示地表达为规则,不容易被人们理解和解释;另外要多次扫描训练数据,网络的训练时间较长。因此与其他数据挖掘方法不同,神经网络用于数据挖掘,要解决好两个关键问题:一是降低
训练时间,二是挖掘结果的可理解性。
遗传算法:模拟生物的进化和遗传,借助选择、交叉和变异操作,使要解决的问题从初始解逐步逼近最优解,解决了许多全局优化问题。遗传算法易于并行,已广泛用于分类和优化问题。
归纳学习:归纳学习是从大量的经验数据中归纳抽取出一般的规则和模式,是一种重要的数据挖掘方法。归纳学习的算法大部分来自于机器学习领域。
面向属性的归纳:考察与任务相关的数据中每个属性的不同值的个数,通过概念
树提升对数据进行概化,归纳出高层次的模式。
4. 小结
数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。而信息的安全和滥用是个需要妥善解决和解决的大问题,这是数据挖掘中需要注意的。
参考文献
【1】王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004,32(2):246-252.(被引量:461)
【2】姜园,张朝阳,仇佩亮,等.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662.
【3】谈恒贵,王文杰,李游华.数据挖掘分类算法综述[J].微型机与应用,2005,24(2):4-6.
【4】何小东,刘卫国.数据挖掘中关联规则挖掘算法比较研究[J].计算机工程与设计,2005,26(5):1265-1268.
[5]Kaur P,Attwal KS.Data Mining:Review[J].International Journal of Computer Science & Information Technolo,2014.