Data Mining | 数据挖掘概要和方法论

目录
  • 1 数据挖掘概要
    • 1.1 起源
    • 1.2 定义
    • 1.3 目标
    • 1.4 发展历程
  • 2 数据挖掘方法论
    • 2.1 KDD
    • 2.2 数据挖掘技术的产业标准
      • 2.2.1 CRISP-DM 方法论
      • 2.2.2 SEMMA 方法论

 

1 数据挖掘概要

1.1 起源

功能强大的数据收集与存储工具的快速发展,使得可以分析使用的数据呈爆炸式增长,而如何从这些数据中发现有价值的信息,促使了数据挖掘技术的诞生。

 

1.2 定义

数据挖掘(Data Mining)就是从大量的数据中,提取隐含的,以前未知的,可能有用的信息的过程。

 

1.3 目标

数据挖掘的目标是从历史数据中找寻「模式」,以实现对数据的描述(解释性)和预测。

 

1.4 发展历程

  • 第一阶段:1960年后,各种新兴的数据搜集模式开始出现,如磁带、软盘、硬盘等,人们开始掌握了搜集数据的基本方法;
  • 第二阶段:1980年后,随着搜集的数据量的增多,人们开始有数据库的需求,逐渐建立起了数据库,但是还不能进行查询数据;
  • 第三阶段:1990年后,数据统计的概念出现,人们可以进入数据仓库完成简单的数据统计,但并不能做太精细的决策;
  • 第四阶段:2000年后,随着数据库和计算机网络的广泛应用,加上使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增大。针对大规模数据的分析处理方法——数据挖掘出现了。

 

2 数据挖掘方法论

2.1 KDD

数据挖掘,通常也被称为KDD(Knowledge Discovery from Database)—— 数据库中的知识发现,它是数据挖掘一种更广义说法。区别在于,尽管数据挖掘是整个KDD过程的中心,但它通常只占KDD过程15%~25%的工作量。KDD具体过程如下:

  1. 数据清理:以消除噪音和不一致的数据
  2. 数据集成:组合多个数据源
  3. 数据选择:从数据库中提取与分析任务相关的数据
  4. 数据转换:通过汇总或聚集操作,将数据变换和统一成适合挖掘的形式
  5. 数据挖掘:应用智能方法提取数据模式
  6. 模式评估:根据某种兴趣度,识别代表知识的真正有趣模式
  7. 知识呈现:使用可视化和知识表示技术,向用户提供挖掘的知识

 

2.2 数据挖掘技术的产业标准

2.2.1 CRISP-DM 方法论

1996年由 SPSS 和 NCR 等提出了一个数据挖掘跨行业标准过程,即CRISP-DM 方法论(cross-industry process for data mining)。它将数据挖掘项目生命周期分为6个阶段,详见下图,它是一个不依赖于具体算法的过程框架。
 
Data Mining | 数据挖掘概要和方法论_第1张图片
 
(1) 业务理解
该初始阶段集中在从商业角度理解项目的目标和要求,通过理论分析转化为数据挖掘可操作的问题,制定实现目标的初步计划。
(2) 数据理解
数据理解阶段开始于原始数据的收集,然后是熟悉数据、标明数据质量问题、探索对数据的初步理解、发觉有趣的子集以形成对探索关系的假设。
(3) 数据准备
数据准备阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,需要对数据进行转换和清洗。
(4) 建模
在此阶段,主要是选择和应用各种建模技术。同时对它们的参数进行校准,以达到最优值。通常对同一个数据挖掘问题类型,会有多种建模技术。一些技术对数据格式有特殊的要求。因此,常常需要返回到数据准备阶段。
(5) 模型评估
在模型最后发布前,根据商业目标评估模型和检查建立模型的各个步骤。此阶段关键目的是判断是否存在一些重要的商业问题仍未得到充分考虑。
(6) 模型发布
模型完成后,由模型使用者(客户) 根据当时背景和目标完成情况,决定如何在现场使用模型。比如,在网页的实时个人化中或营销数据的重复评分中。

 

2.2.2 SEMMA 方法论

SEMMA 方法论,是SAS公司推出的数据挖掘技术方法论,其中不同字母分别代表不同阶段。

(1) Sample 抽样

从大量数据中取出一个与要探索问题相关的样本数据子集,即把数据分成训练集、验证集(可能没有)、测试集。

(2) EXplore 探索

单变量探索为Modify提供指导;双变量探索发现关系。

(3) Modify 修订

Modify 实质是对数据进行清洗以提升数据质量,可以从两个角度出发进行清洗:一是数据本身,需要对数据中的缺失值、错误值、异常值等进行处理;二是算法角度,需要把数据变换成后续算法喜欢的格式。

(4) Model 建模

这一步其实就是数据挖掘,具体采用哪种算法,取决于你的数据集的特征和你要实现的目标。最快捷的方式,是多尝试几种算法,从实践中选出最适合的。

(5) Assess 评估

通过验证集(有时直接用测试集)进行模型评估。
 
Data Mining | 数据挖掘概要和方法论_第2张图片
 

你可能感兴趣的:(Data Mining | 数据挖掘概要和方法论)