数据流挖掘(一)

 

近年来,随着计算机技术、信息处理技术在工业生产、经济信息处理等领域的广泛应用,数据已不仅仅拘泥于文件、数据库等传统的静态形式,一种连续、无界、不定速度的流式数据(即数据流)已经出现在越来越多的应用领域当中,如:

互联网应用:互联网用户数量的增加直接导致网络通信量的急剧上升,互联网站点访问、即时消息通讯、电子邮件和在线视频等各类应用都产生大量的数据。

金融应用:股票和基金等金融交易报价数据瞬息万变且规模庞大,银行信用卡日交易数据量也十分巨大。

传感器网络应用:目前大量工业和军事等应用中已经广泛使用了传感器,主要用于恶劣环境下的监控与目标跟踪等,这些众多分散的传感器向基站不断传送大量的数据,而基站服务器通常需近实时地对这些数据进行相应地分析和处理。

在以上这些应用中,不仅原始据是以流的形式到达,对这些数据流进行各种处理(主要是查询操作)之后得到的结果也同样是以流的形式输出的。

Henzinger等于1998年在Computing on Data Stream中首次将数据流作为一种数据处理模型提出来,他将数据流定义为只能以事先规定好的顺序读取一次的数据序列。20世纪末,数据流问题引起了广大科研学者的关注,成为数据挖掘与数据库领域的一个热点研究方向。

随着数据流应用的产生和发展,有学者对Henzinger提出的数据流定义进行了修改。目前,数据流一般定义为:

数据流是大量连续到达的、潜在无限的数据的有序序列,这些数据或其摘要信息只能按照顺序存取并被读取一次或有限次。

与传统的静态数据相比,数据流具有以下特 :

1.无限快速性。数据流通常是源源不断地快速产生,理论上其长度是无限的,在实际应用中远超过系统所能存储的范围,而传统数据库中的数据主要用于持久存储,其存储量和数据更新次数都相对有限。

2.不确定性。数据流产生的速度和间隔时间等统计特性事先难以确定,其产生顺序不受外界控制,很有可能数据流的产生速度超出系统所能接受并处理的限度,而传统数据库中的数据规模和处理能力等性能指标通常是已知的。

3.时变性。数据流随时间而变化,这将引起数据的统计特征也随时间而改变,如数据的方差、分位数、概率分布等,而传统数据库中的数据通常是静态的,一旦存储则很少随时间发生改变。

4.单遍扫描性。由于数据规模大、增长迅速,对数据流仅限于单遍扫描(One-Scan),即除非特意或显式存储外,每个数据只被处理一次。而传统数据库对数据进行持久存储,便于多遍扫描,并建立相应的索引机制有利于高效的查询。

5.结果近似性。大量的数据流分析处理中并非一定需要精确的查询结果,而满足精度误差要求的近似结果即可。而传统数据库建立在严格的数学基础之上,其查询语义明确、查询结果一般是精确的。

其中,无限快速性和单遍扫描性是两个最为重要的特点,是数据流区别于传统数据库中数据的关键。

你可能感兴趣的:(数据挖掘(DM))