作为一个多学科交叉研究领域,数据挖掘(Data Mining)融合了数据库(Database)技术、人工智能(Artificial Intelligence)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(Knowledge Engineering)、面向对象方法(Object-Oriented Method)、信息检索(Information Retrieval)、高性能计算(High-Performance Computing)和数据可视化(Data Visualization)等最新技术的研究成果。
数据挖掘和知识发现使数据处理技术进入了一个更高级的阶段。它不仅能对过去的数据进行查询,并且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地做出理想的决策、预测未来的发展趋势。
通过数据挖掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,从而使大型数据库作为一个丰富、可靠的资源为知识提供服务。
数据库技术迅速发展,但数据库的应用以实时查询处理技术为基础,无法进行人们期望的分析预测和决策。
数据采集数据的更新,使数据量急剧增长,人们希望提供更高层次的数据分析功能,自动和智能地将待处理的数据转化为有用的信息和知识。
数据挖掘的基础是数据分析方法,探讨自动化的数据分析技术,为企业提供能带来商业利润的决策。
数据范围和容量的膨胀,人们联机决策和数据分析等高级信息处理的技术需求越来越迫切,存在“数据丰富而信息贫乏”的现象。20世纪80年代后期,产生了数据仓库和数据挖掘等信息处理思想。
数据库、数据仓库和Internet等信息技术的发展。
计算机性能的提高和先进的体系结构的发展。
统计学和人工智能等方法在数据分析中的研究和应用。
20世纪80年代提出的大数据(Big Data)概念,将以数据挖掘技术作为核心和骨干技术之一。
大数据作为一门前沿技术,它的研究和发展大致分为三个阶段:
2000年及以前,称为“大数据概念萌芽阶段”,有了大数据的相关概念,但没有收到学术界和商界的重视。
2001至2010年,称为“大数据概念探索阶段”,这一时期大数据概念得到广泛讨论和普遍认可。
2011年及以后,大数据概念进一步深化,成为学术研究的焦点,成为许多应用的支撑概念。
一方面,数据挖掘的概念已经被广泛接受,一批具有挑战性和前瞻性的问题被提出;
另一方面,数据挖掘的大面积广泛应用还有待时日,需要深入的研究积累和丰富的工程实践。
所以,我们认为,数据挖掘的研究仍然处于广泛研究和探索阶段。
根据目前的研究和应用现状,数据挖掘在以下几个方面需要重点展开工作:
(1)数据挖掘技术与特定商业逻辑的平滑集成问题。
(2)数据挖掘技术与特定数据存储类型的适应问题。
(3)大型数据的选择与规格化问题。
(4)数据挖掘系统的框架与交互式挖掘技术。
(5)数据挖掘语言与系统的可视化问题。
(6)数据挖掘理论与算法研究。
数据挖掘从本质上说是一种新的商业信息处理技术,放在特定的商业领域才有应用价值。
它通过对原始数据进行统计、分析、综合和推理,得出数据间的关联性、未来趋势以及一般性的概括知识等,用来指导高级商务活动,支持商业决策活动。
数据库中的“知识发现”(Knowledge Discovery in Database,KDD)是数据挖掘的一个特例,数据挖掘是KDD过程的一个步骤。
从广义上讲,数据挖掘是从大型数据集中挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的完整过程。
从狭义上讲,数据挖掘是从特定形式的数据集中提炼知识的过程。
(1)模式发现架构下,数据挖掘技术被认为是从源数据集中发现知识模式的过程。
(2)规则发现架构下,数据挖掘技术被看作分类、关联、序列相统一的规则发现问题。
(3)基于概率和统计理论,数据挖掘技术被看成是从大量源数据集中发现随机变量的概率分布情况的过程。
(4)在微观经济学观点理论框架下,数据挖掘技术被看作是一个问题的优化过程。
(5)在基于数据压缩理论框架下,数据挖掘技术被看作是对数据的压缩的过程。
(6)在基于归纳数据库理论框架下,数据挖掘技术被看作是对数据库的归纳的问题。
(7)可视化数据挖掘处理为中心来实现数据挖掘的交互式过程,更好的展现挖掘结果。
数据挖掘设计的学科领域和方法很多,可以从挖掘任务、挖掘对象、挖掘方法、能发现的知识等方向划分出多种类别。
广义知识是指描述类别特征的概括性知识。
数据挖掘的目的之一就是根据这些数据的微观特性发现有普遍性的、更高层次概念的中观和宏观的知识。
(1)概念描述方法本质上就是对某类对象的内涵特征进行概括,分为描述某类对象的共同特征的特征性描述和描述不同类对象之间的区别的区别性描述。概念描述是广义知识挖掘的重要方法,已经得到广泛研究。来源于机器学习的概念归纳是其中最有代表性的方法。
(2)多维数据分析可以看作是一种广义知识挖掘的有效方法,把汇总的操作结果预先计算并存储起来,以便于高级数据分析使用的多维数据库技术,提供不同抽象层次上的数据视图,其操作完备性成为广义知识发现的基础。
(3)概念分层技术为解决多层次概念描述问题产生,所谓概念分层实际上就是将底层概念集映射到高层概念集的方法,可细分为模式分层,集合分组分层,操作导出分层,基于规则分层等方法。
关联知识反应一个事件和其他事件之间的依赖或关联。数据间的关联是复杂的,大部分是蕴藏的。关系知识挖掘的目的就是找出数据库中隐藏的关联信息。
关联可分为简单关联、时许关联、因果关联、数量关联等。
类知识刻画了一类事物,这类事物具有某种意义上的共同特征,并明显和不同类事物相区别。
分类:分类的目的是学会一个分类模型,该模型能把数据库中的数据映射到给定类别中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。从这个意义上说,数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类,进而也可以预测未来数据的归类。
(1)决策树:决策树是通过一系列规则对数据进行分类的过程。采用决策树,可以将数据规则可视化,不需要长时间的构造过程,输出结果容易理解,精度较高,在知识发现系统中应用较广。但决策树很难基于多个变量组合发现规则,不同决策树分支之间的分裂也不平滑。ID3算法是最典型的决策树分类算法。
(2)贝叶斯分类:贝叶斯分类来源于概率统计学,朴素贝叶斯分类理论上具有较小的出错率。贝叶斯信念网络是基于贝叶斯分类技术的学习框架。
(3)神经网络:神经网络基于自学习数学模型,通过数据的编码及神经元的迭代求解,完成复杂的模式抽取及趋势分析功能。神经网络系统由一系列类似于人脑神经元一样的处理单元结点组成,结点间彼此互连,分为输入层、中间层、输出层。神经网络通过网络的学习功能得到一个恰当的连接加权值,较典型的学习方法是BP。通过将实际输出结果同期望值进行比较、调整加权值,重新计算输出值,使得误差梯度下降。其具有高度的抗干扰能力和可以对未训练数据进行分类的优点,但需要较长的训练时间和解释性差,为其应用造成困难。
(4)遗传算法与进化理论:遗传算法是基于进化理论的机器学习方法,它采用遗传结合、遗传交叉变异以及自然选择等操作实现规则的生成。
(5)类比学习:最典型的类比学习方法是k-最临近方法,它属于懒散学习法。
聚类:聚类是把一组个题按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能得小,而不同类别上的个体间的差别尽可能的大。
根据五大基准,可以划分为五类聚类方法:
(1)基于划分的聚类方法:k-平均算法,在簇平均值被预先定义好的情况下才能使用。
(2)基于层次的聚类方法:对源数据库中的数据进行层次分解,达到目标簇的逐步生成。按从小到大的合并和从大到小的分解,有凝聚和分裂两种基本方法。
(3)基于密度的聚类方法:通过度量区域所包含的对象数目来形成最终目标。
(4)基于网格的聚类方法:把对象空间离散化成有限的网格单元,聚类工作在网格结构上进行。
(5)基于模型的聚类方法:为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。
预测型知识是指由历史的和当前的数据产生的并能推测未来数据趋势的知识。主要模型有:
(1)趋势预测模式
(2)周期分析模式
(3)序列模式
(4)神经网络
特异性知识是源数据中所蕴含的极端特例或明显区别于其他数据的知识描述,它揭示了事物偏离常规的异常规律。主要模型有:
(1)孤立点分析
(2)序列异常分析
(3)特异规则发现
一个事务数据库是对事务型数据的收集。通过特定的技术对事务数据库进行挖掘,可以获得动态行为所蕴藏的关联规则、分类、聚类以及预测等知识模式。
关系数据库是由一系列数据表组成的。从一个关系数据库中,可以根据挖掘目标获得想要的知识类型或模式。
数据仓库中的数据是按着主题来组织的,存储的数据可以从历史的观点提供信息。随着数据仓库技术的出现,出现了联机分析处理应用。
面向对象数据库、对象-关系数据库以及演绎等新型数据库也成为数据挖掘的新的研究对象。
一些面向新型应用的数据库,如空间数据库、时态数据库、工程数据库和多媒体数据库等,已经得到充分发展。这些新型应用需要处理和分析空间数据、时态数据、工程设计数据、多媒体数据等。
像文本和网页形式的数据,称作非结构型数据或半结构型数据。挖掘这类信息有很多复杂的问题,例如异构数据源环境、半结构化的数据结构、动态变化的应用环境等。
粗糙集的知识形成思想可以概括为:一种类别对应于一个概念,知识由概念组成;如果某知识中含有不精确概念,则该概念不精确。粗糙集对不精确概念的描述方法是通过下近似(属于)和上近似(可能属于)概念来表示。
粗糙集把客观世界抽象为一个信息系统。一个信息系统S是一个四元组,S=:
U是对象的有限集合,A是属性的有限集合,V是属性的值域集,f是信息函数。
粗糙集刻画的近似空间。近似空间有一个二元组给出:B是A 的一个属性集,R(B)是U上的二元等价关系。
约简:约简即极小属性集,也就是去掉约简中的任何一个属性,都将使得该属性集对应的规则覆盖反例,约简对应的规则为极小规则。相反,极大属性集对应极大规则。
粗糙集在KDD中由广泛用途,例如规则学习和决策表推导,知识约简,属性相关分析,进行数据预处理等。
CRM(客户关系管理)是指对企业和客户之间的交互活动或行为进行管理的过程。数据挖掘能够帮助企业确定客户的特点,使企业提供有针对性的服务,突出表现在获得新客户、留住老客户、交叉销售等方面。
数据挖掘作为智能化的数据分析手段,和社会网络分析有很大的应用空间重合度。
一方面,可以利用已有的数据挖掘方法和算法分析社会性数据,发现有价值的社会现象规律。另一方面,社会网格的应用也对数据挖掘提出新的研究课题和内容。
体育竞技:Advanced Scout帮助NBA布阵。
商业银行:突出表现在金融投资和欺诈甄别。
电信:制定合理标准,精准投放信息。
科学探索:生物学和天文学的应用。
信息安全:提取感兴趣信息,入侵检测。