所谓框架,或者说方法论,就是指整个设计数据科学(数据分析与挖掘,机器学习)的项目过程。不管项目领域是金融、电信、医学或者交通,其实只要项目中涵盖数据分析或数据挖掘的应用,项目的步骤大多会有些共通的地方。将这些共性的步骤总结并且归纳为一般性的方法,就变成了数据分析与挖掘的框架。
在真正开始数据采集、抽样、清洗,甚至建模之前,一个清晰的框架等同于写作前的草稿。它是一个项目的骨架,能够为数据分析与挖掘人员进行细节的实施工作提供引导,并且能及时明确自己的工作在整个项目流程中的位置。现在流行的各种深度学习的算法,或者前沿的分析工具,都是框架中的某个组成部分。
在数据分析领域中,较为成熟的方法论有CRISP-DM,以及在此之上进行了拓展与丰富的SEMMA。通过总结这两个方法论,再加入一些实际项目工作经验后,我将一个数据分析与挖掘类项目的步骤定义为七个步骤,并用思维导图将上面的7个步骤展示出来。
在实际生活与工作中,不一定每个步骤都一定会被用到。但是一般而言,数据分析与挖掘的项目会经历下面的几个过程:
规划部分:
实施部分:
上面的步骤用思维导图的形式表现出来则如下图所示。
上图对框架中几个较为关键的步骤进行了细化与拆解。实际应用中,框架中每个步骤都容纳许多细节与知识点,我会在以后的文章中慢慢更新,也希望大家能够提出建议。