数据挖掘流程

       下面是数据挖掘流程(CRISP-DM跨行业数据挖掘标准流程),这是目前业界主流的数据挖掘流程,其实本人觉得这也是统计学

方式的语言模式,大家都是这么做的,只是用个专门的流程会方便一些

1、  业务理解

理解项目的目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划

(1) 确定业务目标

从业务角度全面理解挖掘的真正意图和需求。除此之外还应包括一个对数据挖掘项目结果进行评价的标准以及整个项目预算和理性的解释。输出的结果包括:背景、业务目标、项目成功标准。

(2) 评估环境

对所有的资源、约束、假设和其他应考虑的因素进行详细的分析和评估,以便下一步确定数据分析目标和项目计划。输出结果:资源清单、需求,假设和约束、风险和所有费用、术语表、成本、收益。

(3) 确定数据挖掘的目标

与业务目标不同,数据挖掘目标是从技术的角度描述项目的目的。输出结果:数据挖掘目标、数据挖掘成功标准。

(4) 产生项目计划

计划应列出将要执行的阶段,以及每个阶段的详细计划(包括每个阶段的时间、所需资源、输入、输出和依赖)。输出结果:项目计划、工具和技术的初步评价。

2、  数据理解

3、  数据准备

(1)  数据选择

(2)  数据清洗

(3)  数据构建(通过已有的数据生成新的有用的数据)

(4)  数据集成(合并)

(5)  数据格式化

4、  建立模型

(1)  选择建模技术

(2)  产生测试设计(训练集、测试集)

(3)  建立模型

(4)  评估模型

5、  评价

(1)  评价挖掘结果

(2)  回顾过程

(3)  确定下一步

6、  实施

(1)  实施计划

(2)  监测、维护

(3)  产生最终报告

(4)  回顾项目

你可能感兴趣的:(数据挖掘流程)