数据挖掘应用现状与产品分析
高 敏
(新龙科技实业有限公司商业智能部 广州 510180)
摘要:数据挖掘技术的研究,极大地推动了相关行业的发展。目前,有关的学术讨论异常热烈。而在产业界,也已经有部分比较成熟的产品问世。本文结合自己从事数据仓库的实际经验,分析了数据挖掘的应用现状,对其产品的主要特性进行了研究和评价,以期望为从事数据挖掘研究、开发、系统集成的有关人员提供有益的参考。
关键词:数据挖掘 知识发现 商业智能 客户关系管理
1 前言
数据库中的知识发现(KDD:Knowledge Discoveryin Database)一词首次出现在1989年8月举行的第U届国际联合人工智能学术会议上。从1989年至今,KDD的定义随着人们研究的不断深入也在不断地完善,目前比较公认的定义是Fayyad等给出的:KDD是从数据集中识别出有效的、新颖的、潜在的、有用的以及最终可理解模式的高级处理过程LI J。KDD的过程一般包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。23。其中,数据挖掘(DM:Data Mining)是KDD中的一个很重要的步骤,但在通常的应用中,并不区分二者的概念。
数据挖掘的任务是从数据集中发现模式,模式可以有很多种,按功能可分为两大类:预测型(Predictive)模式和描述型(Descriptive)模式。在实际应用中,往往根据模式的实际作用细分为以下几种:分类,聚类,回归,序列,时间序列等。数据控掘的所处理的数据类型也很丰富,包括文本数据,关系数据库,Web页面等。数据挖掘的应用领域非常广泛,比如金融(风险预测)、零售(顾客行为分析)、体育、电信、气象、电子商务等等。
数据挖掘的研究几乎和它的应用同步进行。早在20世纪80年代初期,就有一些简单的工具问世。数据挖掘工具可以分为两类:通用挖掘工具和特定领域的挖掘工具。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。而专用挖掘工具则是针对某个特定领域的问题提供解决方案。在设计算法的时候,往往会充分考虑到数据、需求的特殊性,并作了优化[3]。
2 通用挖掘产品
2.1 IBM DB2 InteIligent Miner
Intelligent Miner采用了多种统计方法和挖掘算法,主要有单变量曲线,双变量统计,线性回归,因子分析,主要量分析,分类,分群,关联,相似序列,序列模式,预测等。
它能处理的数据类型有结构化数据(如:数据库表,数据库视图,平面文件)和半结构化或非结构化数据(如:顾客信件,在线服务,传真,电子邮件,网页等)。
Intelligent Miner通过其独有的世界领先技术,例如自动生成典型数据集、发现关联、发现序列规律、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。根据ID(:的统计,Intelligent Miner目前是数据挖掘领域最先进的产品。它采取客户/服务器架构,并且它的AH提供了C++类和方法[4]。
Intelligent Miner可用于行销、财务、产品管理和客户联系管理领域的数据分析人员和业务技术人员。C心bank是美国名列第二的银行,是首先采用IBM业务智能系统的大型企业之一。
The Bank of Montreal也是成功运用IBM DB2Intelligent Miner的案例之一。 IBM DB2Intelligent Minerfor Data Version 6提供了一套分析数据库的挖掘过程、统计函数和查看、解释挖掘结果的可视化工具。它可以从企业数据集中验证并析取高价值的商业知识,包括大量交易数据的销售点,ATM(Automatic Teller Machine),信用卡,呼叫中心,或电子商务应用。分析家和商业技术专家能够发现那些隐藏的、用其他类型的分析工具无法洞察的模式。Intelligent Miner提供了基本的技术和工具来支持挖掘过程,同时还提供了应用服务支持定制应用的发展。
2.2 DBMiner
DBMiner是一个通用的联机分析挖掘(OLAM:()nLine Analysis Mining)系统,用于在大型关系数据库和数据仓库中交互地挖掘多层次的知识。其独特之处在于紧密集成了联机分析处理(OLAP:OnLine Analysis Processing)和多种数据挖掘功能,包括特征化、关联、分类、预测和聚类等r22。DBMiner目前最新版本是3.o,其优点为①对关系数据,多维数据的强大的在线分析挖掘功能。②通过OLEDB和RDBMS可以连接到多种数据源。②关联和时序算法对挖掘大数据集上频繁的、连续的模式,相关性、依赖分析性能卓越。④对数据源、挖掘任务、挖掘应用的多重集成。⑤革新的倾斜的多维利润分析技术。⑧支持Microsoft SQL Server,Analysis入rver and Excel,如OLAP,数据聚集,透视表的充分集成。⑦用户自定义参数和可视化分类,能帮助用户更好的发现知识。⑧分析关系数据和多维数据,分散的地图式的观察界面。⑨发现驱动的oLAP探测器,更容易的导航。
2.3 SAS系列产品
SAS/STAT(Statistics)提供统计分析功能。
SAS/ETS(Econometric乙Time Series)为SAS提供具有丰富的计量经济学和时间序列分析方法的产品,包含方便的各种模型设定手段,多样的参数估计方法,是研究复杂系统和进行预测的有利工具。
SAS/INSIGHT是一个功能强大的可视化的数据探索与分析的工具。
SAS/EM(Enterprise Miner)是一个图形化界面,菜单驱动的、拖拉式操作的、对用户非常友好且功能强大的数据挖掘集成环境。其中集成了:数据获取工具,数据抽样工具,数据筛选工具,数据变量转换工具,数据挖掘数据库,数据挖掘过程,多种形式的回归工具,为建立决策树的数据剖分工具,决策树浏览工具,人工神经元网络,数据挖掘的评价工具等。
American Healthways领导了健康护理的一场革命。SAS/EM为判断高危病人提供了一个健壮的数据挖掘和建模解决方案,使得他们可以为病人提供周到的护理和服务。
AxA Financial使用SAS/EM来帮助他们建立利润较高的顾客关系策略。
2.4 SPSS系列产品
C1ementine是SPSS的核心挖掘产品,它提供厂一个可视比的快速建立模型的环境,被誉为第一数据挖掘工具。使用它,企业可以将数据分析和建模技术与待定的商业问题结合起来,找出其他传统数据挖掘工具可能找不出的答案。组成部分包括数据获取、探查、整理、建模和报告一——都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个“数据流”,可视化的界面使得数据挖掘更加直观和具有交互性,从而j2T以将用户的商业知识在每一步中更好的利用。 C1ementine所使用的分析技术包括神经元网络、关联规则和规则归纳技术。Clementine支持顾客剖析、时序分析、市场售货篮分析和欺诈行为侦测。
SPSS的另一种重要的控掘产品AnswerTree可以帮助用户确认细分市场及其模式,建立顾客档案资料,挖掘隐藏市场趋势。应答树运用的分析运贸:法则:两类CHAID、分类和回归树、QUES丁。
DecisionTime 2.0及WhotIF? 2.0帮助用户建立准确的预测,并利用此预测制定计划。
2.5 COGNOS的Scenario,4Thought
挖掘算法:多层感知机(MLP:Multi-Layer Processing)神经元网络技术(4 Thought)和基于CHAID的决策树算法(Scenario)。
Scenario和4Thought都护展了Cognos的决策支持能力并提供了一些数据挖掘功能,办公布的用户基准中,Scenario表现出良好的结果和对用户友好的界面,而4Thought在性能和准确率方面具有较好的表现[4]。
2.6 BO的Business Miner
1996年12月,美国Business()bjects公司推出了数据挖掘解决方案一——Busincs s Mincr。Business Miner采用了基于直觉决定的树型技术,提供了简单易懂的数据组织形式,使用图形化方式描述数据关系,通过百分比和流程表等简单易用的用户界面告诉用户有关的数据信息。
Business Miner能对从数据仓库中传来的数据自动地进行挖掘分析〕:作,剖析任意层面数据的内在联系,最终确定商业发展趋势和规律。
3 专用挖掘产品
由于实际的应用环境干变万化,目前还没有一种通用产品能适应各种商业需求,而大量存在的是各种各样的专用数据挖掘产品。在专用领域中,种类最多的要数各种Web挖掘产品。
3.1 ACCRUE INsight5
ACCRUE Insight 5是AccNe公司的主要产品,它是一个综合性的Web分析工具。它能够对网站的运行状况有个深入、细致和准确的分析。它的设计是以顾客为中心的,通过分析顾客的行为模式,帮助网站采取措施来提高顾客的忠诚度,从而建立长期的顾客关系。ACCRUE Insight 5利用了多种Web数据收集方法,包括高级网络收集器,服务器收集器和服务器日志,而不是像很多网站那样仅仅分析日志文件。高级网络收集器以其能收集到最大量的数据而著称,它能够收集到服务器日志里所得不到的信息,例如按下“停止”键,下载的时间等一些对于网站分析有用的信息。但是对于加密的部分或者与它不适用部分则用到另外两种方法。根据原始数据,Accrue Insight 5运用了一种叫做“服务器收集器”的分析方法,它支持镜像服务器和负载平衡、路由器和一些其他网络结构设备,能够将一些加密的地址转化为可分析的形式。
3.2 E.PIPHANY Enterprise Insight
E.PIPHANY Enterprise lnsight提供了一个独特的、完全集成的系统,为管理人员、分析人员还有其他商业人员传递商业信息。Enterprise lnsight应用套件使用了一个通用的元数据层,定义了所有的数据源,分析性能,信息传送应用。基于Web的结构使得系统易于配置,易于使用,易于维护。它即可以作为一个独立的应用软件使用,也可以作为E.PIPHANY’s E.5系统在市场、销售、服务领域的解决方案套件。和所有的E.ANY产品一样,Enterprise lnsight呈现了一个广泛的、一致的消费者的视图、一个强有力的观察,可以使企业的组织从市场、销售、服务等工作中得到最大的利润。企业上下的用户都可以得到深入的商业信息,并且可以立即付诸行动。有了Enterpriselnsight,企业可以和顾客、合作伙伴建立更稳固的关系 。
E.PIPHANY能提供在电子商务中极具竞争价值的顾客信息。Enterprise lnsight for ECommerce提供了分析顾客数据的能力,包括来至网络的数据和传统的数据源。它可以让企业针对所有的顾客数据源,跟踪他们的网络行为和引导他们的Web活动。
Enterprise lnsight for E—Commerce包括“厂一系列预包装的、易用的报表模板,对Web活动进行复杂的分析。根据领域专家的意见,E.冈PHANY已经验证了相当多的一系列的关键的电子商务的属性和指标,并且已经建立了大范围的一个报告套装。它通过提供关键领域的深入分析,比如站点活动,顾客喜好,在线销售,错误报告,标语广告活动等,回答关键的电子商务的问题。
3.3 BIJUE MARTINI
BLUE MARTINI的数据挖掘模块提供了强大的分析能力,帮助理解顾客,并且发现隐藏在巨量数据后面的宝石。挖掘能揭示微妙的行为模式,而这些模式能产生知识,驱动所有客户接触点的个性化过程。一个在分析和销售中的封闭循环保证了知识能产生生产性的、产生利润的和具有竞争优势的机制。
3.4 其他挖掘
例如AdVanced ScoutTM是和IBM合作完成的数据挖掘的商业应用。它的目的是帮助NBA教练运用商业智能的技术和数据挖掘来验证隐藏在大量全异的数据里的模式,进而影响一场专业比赛的胜负。通过使用来源于现场数据收集系统的事件数据(EVENT DATA)以及类似于NBA比赛录像的无结构数据,先进的侦测系统帮助教练进行预赛和赛后分析,甚至实时现场分析,这样就能更好了解队员组合是否有效、投篮特性等。
4 国内的数据挖掘应用
目前国内真正应用数据挖掘的公司还不多明天科技有限公司。
4.1 菲亲特一融通公司
比较成功的有菲奈特一融通公司和广州华工 菲奈特一融通在IBM数据挖掘软件的基础上开发了商业智能套件B1.O航ce,在B1.O航ce的基础上又开发了系列的B1.Bank、B1.Taxation、B1.ELec出c Power、B1.Retail、B1.Insurance、B1.Telecom和B1.Ciq。借助IBM巨人的力量,现在是国内最有实力的数据挖掘公司。B1.O比ce能简单、迅速地为企业构建其专有的决策支持系统,赋予企业管理层一个强有力的武器得以在授权范围内全面、详细、及时地了解公司运营状况,作出合理的决策。B1.Bank是针对银行业适时推出的一套完整的商业智能解决方案,为银行提供决策支持并实现信息共享、加强客户关系管理。B1.Bank包括银行决策支持系统、客户关系管理、银行信息中心等针对不同使用对象的子系统。B1.Bank利用数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)以及Web等核心技术,并采用了数据库服务器(DB SERVER)、应用服务器(APP SERVER)、用户端(C/B)三层架构。B1.Taxation税务决策分析与辅助决策系统是菲奈特—融通公司针对税务部门开发的分析与辅助决策系统。
4.2 广州华工明天科技有限公司
广州华工明天科技有限公司开发了多功能数据挖掘器(AFDMl.0)。该产品的特点如下:多平台、企业级的数据挖掘;数据分类和处理功能;多种挖掘算法;串行、并行计算环境;可视化的结果分析工具。它提供了三方面的功能:挖掘、处理、统计。
4.3 应用经验探讨
本人主要参与的是数据仓库的开发工作,在国家开发银行的基础数据库系统里,一期工程主要是集中抽取了需要的数据,呈现了全局一致的视图,采用了丰富灵活的OLAP分析方法,生成报表,给不同层次的使用人员提供了决策的依据。预计在二期工程中加入一定的数据挖掘功能,在系统中嵌入一些挖掘算法和模块,比如分类和预测等。必须强调的一点是,人们通常把数据挖掘看得过于神秘,认为只要有了一个数据挖掘工具,就能自动挖掘出所需要的信息,这是认识上的一个误区。经验证明,要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供管理者决策参考,最后把挖掘出的知识付诸应用。或者,使用专家托管式服务,选择一个专门从事数据挖掘的公司,深入理解公司业务需求,与、lL冬人同配合完成柠损仟务。而在国内的企业中,决策人员很容易走向两个极端,一是认为数据挖掘没有用处,二是开始认为数据挖掘是万能的。这两种观点都是有害的。
5 结论
数据挖掘从诞生到现在不过十多年的时间,在这短短的十几年里,它吸引了各个行业的研究人员、工业界人士的兴趣。目前,它已成为最近几年对人类生活影响最大的几项IT技术之一。在产业界,涌现出许多新兴的数据挖掘相关产品供应商,数据挖掘的应用已取得初步的成功。随着人们对信息的重视程度不断加深,数据挖掘的前途必将是光明的。
但是,数据挖掘作为一门新兴的科学和技术,它的发展还处于幼年期,要想使之得到广泛充分地应用,必须面对的挑战为①建立基础的数据挖掘理论体系;②提高数据挖掘算法的效率和处理能力;②改善数据挖掘系统的人机界面;④分布式挖掘和实时挖掘;⑤挖掘各种数据类型,包括半结构和无结构数据。
参 考 文 献
1 郑纬民,黄 刚、数据挖掘纵览[EB/OL],北京:清华大学出版社,1999.
2 Jiawei Han,Micheline Kamber●数据挖掘概念与技术[M].北京:机械工业出版社
3 郑纬民,黄 刚.数据挖掘工具及其选择[EB/OL].北京:清华大学出版社,1999
4 AlexBerson,Stephen Smith,Kurt Thearling、构建面向CRM的数据挖掘应用[M].北京:人民邮电出版社,2001.8