数据分析与数据挖掘框架(一) —— 数据分析与挖掘总框架

所谓框架,或者说方法论,就是指整个设计数据科学(数据分析与挖掘,机器学习)的项目过程。不管项目领域是金融、电信、医学或者交通,其实只要项目中涵盖数据分析或数据挖掘的应用,项目的步骤大多会有些共通的地方。将这些共性的步骤总结并且归纳为一般性的方法,就变成了数据分析与挖掘的框架。

在真正开始数据采集、抽样、清洗,甚至建模之前,一个清晰的框架等同于写作前的草稿。它是一个项目的骨架,能够为数据分析与挖掘人员进行细节的实施工作提供引导,并且能及时明确自己的工作在整个项目流程中的位置。现在流行的各种深度学习的算法,或者前沿的分析工具,都是框架中的某个组成部分。

在数据分析领域中,较为成熟的方法论有CRISP-DM,以及在此之上进行了拓展与丰富的SEMMA。通过总结这两个方法论,再加入一些实际项目工作经验后,我将一个数据分析与挖掘类项目的步骤定义为七个步骤,并用思维导图将上面的7个步骤展示出来。

 

在实际生活与工作中,不一定每个步骤都一定会被用到。但是一般而言,数据分析与挖掘的项目会经历下面的几个过程:

规划部分:

  1. 需求调研 —— 理解项目目标,明确业务需求点,把握项目的who,when,where,what,how。
  2. 架构设计 —— 架构的设计分为业务架构、行业架构以及技术架构三部分。它定义项目的脉络。

实施部分:

  1. 数据准备 —— 了解数据采集与存储的方法。现在,企业中传统数据库正在逐步与大数据平台结合共同存储数据。
  2. 数据建模 —— 包括数据的预处理、数据探索、机器学习模型建立、模型评测、目标回归与封装。
  3. 上线部署 —— 数据模型或者前端部署结果。
  4. 测试评审 —— 项目的SIT以及UAT测试。
  5. 监控测评 —— 模型的日常运作监控,异常报警等。

 

上面的步骤用思维导图的形式表现出来则如下图所示。

 

上图对框架中几个较为关键的步骤进行了细化与拆解。实际应用中,框架中每个步骤都容纳许多细节与知识点,我会在以后的文章中慢慢更新,也希望大家能够提出建议。

你可能感兴趣的:(数据分析与挖掘框架)