数据挖掘简单介绍

  • 数据挖掘是一种将传统的数据分析方法与处理大量数据的复杂算法相结合的技术。

一、数据挖掘产生的背景
1.四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣:
(1)超大规模数据库的出现,如商业数据仓库和计算机自动收集数据记录手段的普及
(2)先进的计算机技术,如更快和更大的计算能力和并行体系结构
(3)对海量数据的快速访问,例如分布式数据存储系统的应用
(4)统计方法在数据处理领域应用的不断深入

2.大量信息给人们带来方便的同时也带来一大堆问题:
(1)信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。
(2)“数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生。

3.数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上。
4.数据挖掘思想来自于机器学习、数据库系统、模式识别和统计。

二、数据挖掘任务及过程
1.数据挖掘定义
数据挖掘可以从技术和商业两个层面上定义。

  • 从技术层面上看,数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。
  • 从商业层面看,数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

2.数据挖掘与传统数据分析方法(如查询)的本质区别:

  • 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
  • 数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。其主要目标就是提高决策能力,能在过去的经验基础上预言未来趋势等。

3.数据挖掘对象
(1)关系数据库
  关系数据库是建立在关系数据库模型基础上的数据库,借助于集合代数概念和方法来处理数据库中的数据。关系数据库广泛应用于各行各业,是数据挖掘最常见、最丰富的数据源。
(2)数据仓库
  数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下。数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support),数据仓库适合于联机分析处理OLAP(On-Line Analysis Processing)。在银行、电信等行业中数据集中后通常需要保存在数据仓库中。
(3)事务数据库
  在事务数据库中,每个记录代表一个事务。通常,一个事务包含唯一的事务标识号和组成该事务的项的列表(如,在超市中购买的商品)。超市的销售数据是典型的事务型数据。事务数据库可能有一些与之关联的附加表,如包含关于销售的其它信息:事务的日期、顾客的ID号、销售者的ID号、连锁分店的ID号等。
(4)空间数据库
  空间数据库是指在关系型数据库内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型包括:地理信息系统,遥感图像数据,医学图像数据。空间数据库具有一些共同的特点:数据量庞大,空间数据模型复杂,属性数据和空间数据联合管理,应用范围广泛。
(5)时态数据库和时间序列数据库
  时态数据库和时间序列数据库都存放与时间有关的数据。时态数据库通常存放与时间相关的属性值,如与时间相关的职务、工资等个人信息数据及个人简历信息数据等均属于时态数据库数据。时间序列数据库存放随时间变化的值序列,如零售行业的产品销售数据、股票数据、气象观测数据等均为时间序列数据。时态数据库和时间序列数据库的数据挖掘,通过研究事物发生、发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。
(6)流数据
  与传统数据库中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的输入数据,主要应用场合包括:网络监控、网页点击流、股票市场、流媒体等。与传统数据库相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。
  流数据具有以下特点:数据实时到达;数据到达次序独立,不受应用系统所控制;数据规模宏大且不能预知其最大值;数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。
(7)多媒体数据库
  主要包括图形(graphics)、图象(image)、音频(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。
目前的主要方法包括:
构造多媒体数据立方体、多媒体数据库的多特征提取 、基于相似性的模式匹配
(8)文本数据库
文本数据库是一种常用的数据库之一,也是最简单的数据库。文本数据库存储的是对对象的文字性描述。
文本数据类型包括:
无结构类型(大部分的文本资料和网页)、半结构类型(XML数据)、结构类型(图书馆数据)
(9)万维网数据
  万维网(WWW) 可以被看成最大的文本数据库。面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多,这是由于互联网上异构数据源环境、数据结构的复杂性、动态变化的应用环境等特性所决定的。Web数据挖掘包括Web结构挖掘、Web使用挖掘、Web内容挖掘

4.数据挖掘任务
通常,数据挖掘任务分为预测型任务和描述型任务。

  • 预测型任务:根据其它属性的值预测特定属性的值,如分类、回归、离群点检测。
  • 描述型任务:寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘 。

(1)分类分析
(2)聚类分析
(3)回归分析
(4)关联分析
(5)离群点检测
(6)演化分析
(7)序列模式挖掘

练习:讨论下列每项活动是否是数据挖掘任务。
(1)根据性别划分公司的顾客。
不是,这属于简单的数据库查询。
(2)根据可盈利性划分公司的顾客。
不是,这是简单的计算。若是新顾客的利润预测则是数据挖掘任务。
(3)计算公司的总销售额。
不是,这是简单的计算。
(4)按学生的标识号对学生数据库排序。
不是,这是简单的数据库查询。
(5)预测掷一对骰子的结果。
不是,因为每一面的概率相同,属于概率计算。根据历史数据预测结果则更类似于数据挖掘任务。
(6)使用历史记录预测某公司未来的股票价格。
是,需要建立模型来预测股票价格,属数据挖掘领域中的预测模型中的预测模型。
(7)监测病人心率的异常变化。
是,需要建立正常的心率行为模型,并预警非正常心率行为。属于数据挖掘领域的异常检测。
(8)监测地震活动的地震波。
是,需要建立与地震相关不同波形的模型。属数据挖掘领域中的分类。
(9)提取声波的频率。
不是,它属于信号处理。

你可能感兴趣的:(数据挖掘)