数据流挖掘简述

数据流挖掘简述

数据流:所谓数据流就是大量连续到达的、潜在无限的数据的有序序列。在网络监控、入侵检测、情报分析、金融服务、股票交易、电子商务、电信、卫星遥感(气象、环境资源监控等)Web页面访问和科学研究等众多领域中,数据都以流的形式出现。

数据流被定义为实时的、连续的、有序的(到达时间)记录的序列。

近似和可适应性是数据流上的查询的两个非常重要的特点。

数据流和传统数据库的区别

1)新的数据频繁的产生,数据量可能无限,因此无法完全存储这些数据;2)对数据流的查询要求随着数据的流入,动态的返回查询结果,而在数据库上,典型情况是数据是相对稳定的,记录的插入、更新、删除的频繁大大低于对这些数据的查询的频率。

 

概念漂移:数据的分布很多情况下都会发生变化。

数据流上的数据挖掘:有限存储空间进行快速处理以获取有用信息。分类、频繁模式挖掘、关联规则

网络资料:

数据流的特点:

   数据到达---快速

   数据范围---广域

   数据到达时间--持续 

导致数据处理特点: 快速响应、一次存取、持续处理、有限存储、近似响应。

数据流模型:滑动窗口模型



你可能感兴趣的:(数据挖掘)