3

CRoss Industy Standard Process for Data Mining[CRISP-DM]

1、业务理解:

需要作出什么决策?

需要获得哪些信息来作出这些决策?

什么类型的分析能够获取决策所需的信息?

2、数据理解:(对数据的不准确理解会造成不正确的分析)

需要什么数据?

有什么数据可用?

数据的重要特征是什么?

3、数据准备

收集:收集数据时,可能需要从组织内部的多个来源收集数据。

清理:使用的数据集肯能有一些问题需要在分析之前解决。这可能包括数据不正确或丢失。

格式化:可能需要通过更改日期字段的显示方式,重命名字段,甚至旋转数据来格式化数据,类似于使用数据透视表。

混合:你可能希望将数据与其他数据集进行混合或者组合,以增加其他变量,类似于在excel中使用vlookup函数。

数据抽样:最后,你可能需要对数据集进行取样,并使用更易于管理的记录数。

4、分析与建模:(预测第二天的温度,然后通过模型预测第二天的用电量)

确定用什么方法来解决问题

确定有助于解决问题的重要因素或变量

构建解决问题的模型

运行模型并移至模型评估阶段

5、模型评估:(确定是否存在一些尚未充分考虑的重要业务问题)

观察模型上的关键结果

确保结果在业务问题的情境中有意义

确定是否继续下面的步骤还是返回上一阶段

必要时重复多次

6、模型发布和可视化:

根据分析,确定呈现见解的最佳方式。

根据观众,确定呈现见解的最佳方式。

确保共享的信息不要过量。

使用结果向观众讲故事。

对于更复杂的分析,你可能需要向观众演示分析问题解决过程。

始终注明使用的数据源出处。

确保你的分析支持需要做出的决策。

你可能感兴趣的:(3)