浅谈数据库中的知识发现

浅谈数据库中的知识发现

前言:数据挖掘只是数据库知识发现中的一小部分内容,数据库中的知识发现是一个从数据集中发现知识的过程。针对不同领域的应用,存在多种KDD过程模型。各种过程模型描述了KDD整个处理过程的步骤和各个阶段中的目标和方法。

         一 KDD过程模型

 

模型名称

模型实现步骤

应用

经典KDD处理模型

1数据准备

2数据选择

3数据预处理

4数据缩减

5确定KDD的目标

6确定知识发现算法

7数据挖掘

8模式解释

9知识评价

KDD是一个交互的、迭代的、多步骤处理过程。进行目标优化,适用于很多领域

CRISP-DM过程模型

1商业理解

2数据理解

3数据准备

4建模

5评估

6部署

与具体的产品无关的数据挖掘模型,应用在保险领域。

联机KDD模型OLAM(多维数据挖掘)

将数据挖掘技术和联机分析处理技术结合在一起。

克服传统的数据挖掘过程存在的问题。

上面是三种不同的只是发现过程模型,解决不同领域和不同的问题点。后边的笔记中会给出具体的模型解决的问题。

         KDD知识发现的过程中有哪些参与者呢,它们又分别有什么作用呢?

         首先明确KDD是一个系统性项目,在整个KDD过程中,有三类人员。

                  业务分析人员:解释业务对象,根据业务对象,确定用于数据定义和数据挖掘算法的业务需求。

                  数据分析人员:将业务需求转化为知识发现,应用数据分析,数据挖掘的各种算法、方法和工具等。

                  数据管理人员:按照KDD目标提取数据。能够使用数据库技术构造KDD的目标数据集

二、KDD过程模型的应用

         这个部分的举例是CRISP-DM过程模型。

步骤

任务

功能

商业理解

1确定商业目标

了解用户需求,用户目标得以实现的制约因素和影响因素。

2评估形势

查找资源,制约条件,假设以及确定KDD目标和项目方案时要考虑的各种其他因素

3确定KDD目标

KDD目标是从技术角度描述要实现的目标

4制定项目计划

描述实现KDD目标

数据理解

1收集和描述数据

获得项目中使用的数据,包括数据的格式,属性个数,实例个数,属性特征

2探查数据

进一步对数据进行分析,找出重要属性并且分析属性之间的关系,进行数据缺失和错误的检查

数据准备

1抽取数据

1)         数据源

数据源的主要来源:传统数据库、数据仓库、平面文件,进行数据规范化的处理和一致性处理

2)         属性和实例选择

数据挖掘算法能够处理的数据集实例个数和属性个数是有限的,并且属性之间存在相关的联系。

(1)淘汰属性

使用一些技术选择有特点重要的属性进行数据挖掘。

(2)构造属性

预测价值过低的属性可以和其他属性结合,生成新的高价值属性

(3)属性选择

选择的实例一定要代表了学习的概念类。

2清洗数据

1)噪声数据清理

噪声代表属性值中的随机错误,利用数据平滑技术消除噪声常用方法包括:分箱方法、均值平滑、函数平滑、线性拟合

2)缺失数据处理

利用最有可能的值进行补填,可以利用回归分析、贝叶斯分析等方法进行值的选取

3变换数据

包括确定平滑数据、数据标准化、数据类型的变换

建模

1选择建模技术

考虑两个因素:数据的特点和用户或实际系统的要求。

2检验设计

检验模型的质量和有效性

3建模和评估

具体步骤:(1)从准备好的数据集实例中选择训练和检验数据。(2)选择一组输入属性(3)如果学习是有指导的,选择一个或者多个输出属性(4)选择学习参数的值(5)调用数据挖掘工具建立模型(6)数据挖掘完成,对模型进行评估

评估

1评估结果

对整个KDD项目的评估,从商业角度评估模型的价值

2回顾和确定下一步方案

项目是结束还是应该进入下一步骤

部署和采取行动

1制订部署方案

制定部署策略,实施办法

2制订监督和维护方案

准备监督策略

3采取行动

撰写行动报告,评估模性,应用于商务,金融风险评估等过程。

         以上是数据库知识发现最根本的一些概念和模型。

2016/9/3

 

 

 

你可能感兴趣的:(浅谈数据挖掘)