数据挖掘技术研究现状
张明奇
摘 要:数据挖掘作为当前国际学术界的一个研究热点,本文对它的研究意义、定义、分类等概念做了深入的阐述,详细介绍了数据挖掘的全过程,数据挖掘方法结合了数据库技术、机器学、统计学等领域的知识,从深层次挖掘有效的模式。数据挖掘技术具有广阔的应用前景。为深入研究数据挖掘的应用奠定了基础。
关键字:数据挖掘 知识发现 挖掘算法 挖掘过程
一、数挖掘的概念
数据挖掘(Data Mining简称DM),可以说是数据库中的知识发现,它是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的,有用的信息和知识的过程。它综合利用了统计学方法,模糊识别技术,人工智能方法,人工神经网络技术等相关技术,并对各行各业的生产数据,管理数据和经营数据进行处理、组织、分析、综合和解释,以期从这些数据中挖掘并揭示出客观规律,反映内在联系和预测发展趋势的知识,例如医学研究人员希望从已有的成千上万份病历中找出患有某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。
从数据库中发现知识(KDD)一词首先出现在1989年举行的第一届国际联合人工智能学术会议上,到目前为止,美国人工智能协会主办的KDD国际研讨会已经召开了多次,规模由原来的专题讨论发展到国际学术大会,研究重点也逐渐从发现方法转向应用系统,注意多种发现策略和技术的集成,以及多种学科之间的相互渗透,数据挖掘与知识发现已成为当前国际是上的一个研究热点。
二、数据挖掘的兴起
在过去的几十年中,计算机硬件得到了稳步、快速的发展,随着功能强大的计算机、数据收集设备和存储介质的大量供应,推动了数据库和信息产业的发展,使得人类拥有的数据量急剧增加,并且正以几何级数或指数级数增长。如今,如何分析这些海量的数据成为了各个领域的巨大挑战。
数据库系统只是对数据库中已有的数据进行存取、删除等简单操作,人们通过这些操作获得的信息只是整个数据库中包含的信息量中一个很小的部分,没有强有力的工具,理解它们已经远远超出了人们的能力,发现隐藏在这些数据之后的关于这些数据的整体特征的描述或某些模式的发现,对决策制定过程具有重要的参考价值。这一现象激发了数据挖掘的产生,可以说,数据挖掘是信息技术自然演化的结果。
数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含着其中的、人们事先不知道的,但又是潜在的有用信息和知识的过程,它是知识发现的关键步骤,数据挖掘不但能够学习已有的知识,而且能够发现未知的知识,从中得到的知识是“显式”的能为人所理解,又便于存储和应用。数据挖掘系统的结构图如下
图1-1
三、数据挖掘解惑
目前,企业在日益加剧市场竞争中获取竞争优势着实不易,它必须能够准确把握客户需求的新动向,及时推出适销对路的产品和高质量的服务,不断巩固与新老顾客之间的关系。然而在企业规模不断扩大、市场日益全球化的今天,传统经验对这些需求已是力不从心。为了更有效地预测客户的期望并及时做出反映,一些前瞻性企业纷纷加大力度构建先进的商业
智能系统,实现市场需求的科学预测,与丰富的传统经验相结合,在激烈的竞争中站稳脚跟。
那么,数据挖掘在商业智能系统中占据怎样的地位?扮演怎样的角色?Betty K.Thanan女士介绍的说法,IBM的智能挖掘工具(Intelligent Miner)是这样一种工具,它运用数理统计学中的统计分析方法,从大量的企业数据资产中找寻数据与数据之间的某些关系,这些关系一般能够显示数组之间的相似或相反行为或变化,敏感的分析者往往能够从这些发掘出来的关系中得到意想不到的启示,这样的启示很可能就是其他竞争者所没有的先机。其中的Intelligent Miner for Data Version2.1可以寻找包含于传统文件、数据库、数据仓库中的隐含信息,IBM Intelligent Miner for Text能够帮助用户直接从文本信息中获取有价值的客户信息,而文本数据可以是Web界面、传真、电子邮件、Lotus Notes数据库等。
爱尔兰最大的银行AIB银行目前已选用Intelligent Miner工具来进行业务决策的支持。在IBM智能挖掘的帮助下,AIB能够将大量的来自不同平台的数据归类到同一类别的数据组中,及时发现不同变量之间的联系,建立预言性的模型。同时,IBM智能挖掘工具所提供的神经聚类技术也非常有效。与普通统计技术不同,神经技术能够为我们提供更详尽的,更有用的聚类方法,帮助我们实施客观的客户群分段,进一步揭示出新的关联。AIB银行利用IBM智能挖掘工具所进行的第一个研究项目是分析在该行自动提款机(ATM)上所做的交易,成功的获得诸如AIB银行客户进行交易的频度、客户在一天当中的什么时间最有可能使用自动提款机、交易被拒绝的原因等重要商业信息。在自动提款机数据挖掘实践成功的基础上,银行又将这一技术应用于其他领域,通过这一技术,AIB银行能够具有比较高准确性的预测诸如客户欺诈贷款的可能性,不同客户段,接受一个特殊产品的倾向等信息。
从爱尔兰AIB银行的实际应用可以看出,智能挖掘工具在企业经营决策中所起到的关键作用已相当重要。智能挖掘工具以及相关技术必将在未来的企业竞争中扮演重要的角色,在中国,它的应用市场也将无限广阔。
四、数据挖掘的意义
数据挖掘与传统的数据分析(如查询报表,联机应用分析)的本质区别是在没有明确假设的前提下去挖掘信息,发现知识,数据挖掘所得到的信息应具有先未知,有效和应用三个特征。
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息知识,甚至是违背直觉的信息或知识,数据挖掘通过预测未来趋势及行为,做出前摄的,基于知识的决策。
五、数据挖掘分析方法
数据挖掘技术以人工智能、数据库技术、概率与数理统计为三大支柱,在挖掘的过程中,通常不会只采用一种技术,而是采用几种工具或技术,这样使得数据结果的精度较高。数据挖掘中常用的6种。
(1)关联分析。关联分析的目的是发现隐藏在数据间的相互关系。常用的关联分析技术是关联规则和序列模式。关联规则是寻找同一事物中不同项之间的相关性,例如,Confidence(面包=)牛奶)=90%,这个规则的含义是在购买面包的顾客中,有90%的人也买了牛奶,它反映了顾客的购买习惯。序列模式是通过时间序列搜索出重复发生概率较高的模式,它强调时间。例如,在购买计算机的客户中,有70%的人会在一个月后购买音箱。
(2)分类、聚类分析。分类是找出一个类别的概念描述,它代表了这类数据的整体特点。如银行贷款员需要分析数据,弄清哪些贷款申请者是“安全的”,银行的风险是什么?聚类(Clustering)是将物理或抽象对象的集合分组成为有类似的对象组成的多个类的过程。在同一类别中,个体之间的距离较小,而不同类别的个体之间距离则偏大。聚类分析和分类分析的区别是:聚类分析前数据库中的数据不包含任何类别标记,将具有共同趋势和模式的数据元组聚集为一个类,使类中各元组相似度最高,类之间差异最大。
(3)神经网络。神经网络是仿照生理神经网络结构建立的非线性预测模型,通过学习进行模式识别。神经网络常用于分类和回归,是建立在可以自学数据模型的基础之上的。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析.模拟人脑神经元方法,以MP模型和HEBB学习规则为基础,建立了3大类多种神经网络模型,即前馈式网络、反馈式网络、自组织网络。它是一种通过训练来学习的非线性预测模型,可以完成分类、聚类等多种数据挖掘任务。
神经网络(neural network)是由大量的简单神经元,通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储。联想记忆、大规模并行处理、自组织、自学习、自实行、自适应等功能。网络能够模拟人类大脑的结构和功能,采用某种学习算法从训练样本中学习,并将获取的知识存储于网络单元之间的连接权中,神经网络和基于符号传统AI技术相比,具有直观性、并行性和抗噪声性。目前,已出现了许多网络模型和学习算法,主要用于分类、优化、模式识别、预测和控制等领域。在数据挖掘领域,主要采用前向神经网络提起分类规则。
神经网络模拟人的形象直觉思维 ,其中,最大的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。因此,有必要建立“白化”机制,用规则解释网络的权值矩阵,为决策支持和数据挖掘提供说明,使从网络中提取知识成为自动获取的手段。通常有两种解决方案:①建立一个基于规则的系统辅助。神经网络运行的同时,将其输入和输出模式给基于规则的系统。然后用反向关联规则完成网络的推理过程。这种方法把网络的运行过程和解释过程用两套系统实现,开销大,不够灵活;②直接从训练好的网站中提取(分类)规则。这是当前数据挖掘使用得比较多的方法。
(4)决策树。决策树是一种树型结构的预测模型,其中树的非终端结点表示属性,叶子结点表示所属的不同类别。根据训练数据、集中数据的不同取值建立树的分支,形成决策树,对其进行反复修剪后转化为规则。决策树是通过一系列规则对数据进行分类的过程。决策树起源于概念系统CLS,其思路是找出最可分辨能力的属性,把数据库划分为多个子集(对应数的一个分支),构成一个分支过程,然后对每一个子集递归调用分支过程,直到所有子集包含同一类型的数据,最后得到的决策树能对新的例子进行分类。
(5)遗传算法。是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。在遗传算法实施中,首先要对求解的问题进行编码(染色体),产生初始群体;然后计算个体的适应度,再进行染色体的复制、变换、突变等操作,便产生新的个体。重复以上操作,直到求得最佳或较佳个体,它由3个基本算子组成。①繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程。②交叉(重组)选择两个不同个体(染色体)的部分(基因)进行交换,形成新的个体。③变异(突变)对某些个体的某些基因进行变异(1变0或0变1)。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。在数据挖掘中,它还可以用于评估其它算法的适合度,在处理组合优化问题方面有一定的优势,可用于聚类分析等。遗传算法的最大特点在于演算简单,但其用于数据挖掘也存在一些问题:算法较复杂,还有收敛于局部极小的过早收敛等难题未得到解决。
(6)粗集方法。粗集(rough set)理论的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布,模糊集理论中的隶属度或隶属函数等,而是直接从给定问题出发,通过不可分辨关系和不可分辨类确定问题的近似域,从而找出该问题中的内在规律。
在数据挖掘中,从实际系统采集到的数据可能包含各种噪声,存在许多不确定的因素和不完全信息有待处理。传统的不确定信息处理方法,如模糊集理论、证据理论和概率统计理论等,因需要数据的附加信息或先验知识(难以得到),有时在处理大量数据的数据库方面无能为力。粗集作为一种软计算方法,可以克服传统不确定处理方法的不足,并且和它们有机结合,可望进一步增强对不确定、不完全信息的处理能力。
粗集从决策表挖掘规则,辅助决策,其关键步骤是求值约简或数据浓缩,包括属性约简。Wong SK和Ziarko W已经证明求最小简约是一个NP hard问题。最小简约的求解需要属性约简和值约简两个过程,决策表约简涉及到核和差别矩阵两个概念。一般来讲,决策表的相对约简有许多,最小约简(含有最小属性)是人们期望的。另一方面,决策表的核是唯一的,它定义为所有约简的交集,所以,核可以求出决策表的核以及约简规则。借助启发式搜索解决,苗夺谦丛信息论的角度对属性的重要性作了定义,并在此基础上提出了一种新的知识约简算法MIBARK,但其对最小约简都是不完备的。此外,在上述方法还只局限于完全策表。Marzena k 应该差别矩阵,推广了等价关系(相似关系)、集合近似等概念,研究了不完全决策表(属性的取值含有空值的情况)的规则的发展问题,从而为粗集的实用化迈出了可喜的一步。Marzena k还比较了几种不完全系统的分析方法,得出如下结论:①一个规则是确定的,如果此规则在原不完全系统的每个完全拓展中时间是确定的;②删除从不完全决策表包含空值的对象后。采掘的知识可能成为伪规则。
六、数据挖掘的过程
数据挖掘来源于知识发现(KDD),是数据库发展和人工智能技术相结合的产物,因而数据挖掘包括KDD的全过程,类似于通常的一个开采过程,整个过程分为三个阶段来完成:数据准备阶段、数据挖掘阶段和结果显示阶段。
数据挖掘环境可示意如图
图1-2
按工作流程包括以下几个步骤:
(1)问题定义:对应用领域知识进行充分的理解和分析,明确挖掘对象和目标。
(2)数据准备:
①搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
②数据净化和预处理包括去噪声,填补丢失的域,删除无效数据等
③判断数据挖掘的功能类型,数据挖掘的功能类型分为验证型和发现型。验证型是指由用户首先提出假设;发现型是指用数据挖掘工具从数据中发现用户未知的事实、趋势、分类等。
④选择适宜的数据挖掘的算法。根据数据功能的类型和数据的特点选择相应的算法。常用的算法有人工神经元网络、决策树算法、集合论算法和遗传学算法等。
⑤进行数据转换。根据数据挖掘的目标、功能及数据挖掘算法,按指定方法组织数据,根据已了解的知识限定变量,转换数据类型并且映射数据到易于找到解的特征空间。
(3)数据挖掘。在净化和转换过的数据集上进行数据挖掘。
(4)结果的分析和同化。输出挖掘结果对数据挖掘出的结果进行解释和评价,转换成为能够最终被用户理解的知识。综合分析把已得到的知识和已有的知识进行综合,检查和处理它们之间的冲突,通过简明直观的方法把最终结果报告给用户,并且评价整个处理流程的性能。
七、数据挖掘的应用
如今,数据挖掘的应用已涉及到银行、电信、医院、学校等领域,并促进了相关领域的发展。
(1)市场营销数据挖掘。数据挖掘在市场营销中的应用相当普遍,通过对大量的消费进行加工处理,分析客户的购买行为,调整营销战略,进行个性化的商品推存或促销活动,为营销人员提供决策支持,减少营销成本,增加企业利润。
(2)电信业数据挖掘。通过对海量的数据进行分析,确定电信模式,进行异常模式识别,从而更好地预测盗用行为,提高服务质量。
(3)生物医学数据挖掘。DNA和蛋白质序列是基本的生物学数据,而且数量很大,通过数据挖掘,可以有效比较和比对生物序列并发现生物序列模式,找出病人与正常人的基因不同之处,对治疗和预防疾病有重大意义。
数据挖掘的发展趋势。当前,数据挖掘技术的研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法;使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,数据挖掘将首先满足信息的时代用户的急需,大量基于数据挖掘的决策支持软件工具产品将会问世。
八、数据挖掘的走向——Internet
面向Internet 的数据挖掘可以说是一个比较前瞻性的问题,有人称之为Internet Mining或者是Web Mining,也取得了一些令人感兴趣的结果,例如最近有不少产品用来筛选Internet上的新闻,保护用户不受无聊电子邮件的干扰和商业推销,受到极大的欢迎。但目前在学术界仍然对这一问题没有什么特定的结论。面向的数据挖掘比面向单个数据仓库的数据挖掘要复杂的多。因为传统数据库中的数据是结构化的,而Internet上的数据其最大的特点是半结构化的,这就决定了面向Internet的数据挖掘将是一个颇具挑战的课题。所谓半结构化是相对非结构化而言的。例如传统数据库中的结构化的数据,而同时还存在一些诸如一本书、一张图片等完全无结构的数据。但是Internet上存在的数据既不是完全结构化的也不是完全非结构化的、因为它的页面也具有一定的描述层次的,存在一定的结构,所以我们将它称为半结构化的数据。
从数据库研究的角度出发,Web上的网站可以看作一个数据库,一个更大的、复杂性更高的数据库。Web上的每一个站点就是一个数据源,每一个数据源都是异构的,因为每一个站点跟每一个站点的信息和组织形式都不一样,这就构成了一个巨大的、异构的数据库环境。如果想要利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的问题。因为只要将这些站上的数据都集成起来,提供给用户一个统一的视图后视角,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Internet上的数据查询问题。如果所需的速度都不能很有效的得到,对这些数据进行分析、处理就更是无从谈起。这些基础性的问题都亟待解决。众所周知,传统的数据库都有一定的数据模型,可以根据这个模型来具体地描述特定的数据,同时可以很好地定义和解释相关的查询语言。而Internet上的数据特点很复杂,没有这样特定的模型来描述。每一个站点上的数据都是由站点开发人员自行设计放置的,而且数据本身具有自描述性和动态可变性等一系列复杂特征,其结构也不可琢磨。在这种情况下如何来解决异构数据的集成和数据查询问题呢?这就迫切需要有一个模型来清晰地描述Internet上数据。针对Internet上的数据半结构化的特点,寻找一个半结构化的数据模型则成为了解决上述问题的关键所在。此外,除了要定义这样一个半结构化数据模型外,还需要一项技术能够自动地从现有数据中将这个模型抽取出来,这就是所谓的模型抽取技术,因为半结构化数据模型和半结构化数据模型抽取技术是面向Internet的数据挖掘技术实施的前提,因此堪称当今数据库研究领域的最大热点。
参考文献
[1] 张云涛、珑玲.《数据挖掘原理与技术》.北京:电子工业出版社.2004
[2] 李国强,曹巧莲,辛正宇,杨青,赵春民.数据挖掘原理与算法[M].北京:清华大学出版社. 2010年6月 第197期
[3]魏焕新.计算机与网络 .商务杂志.2010年
[4]中国计算机用户报. 1998年6月15日
[5]潘春花.数据挖掘理论及挖掘过程浅析[M].计算机与网络杂志. 2010年第101期
[6]孟小峰.技术专题 .2010年