数据挖掘步骤(流程)

流程说明:

暂且总结为五步:1、确立挖掘目的,2、数据准备,3、数学建模,4、模型评估,5、模型应用。

第一步:确立挖掘目的,

确立业务目标 -->  对目标做简单评估,确立所需要的数据类型,人力资源及风险等, ----> 确立数据挖掘的目标  ---->制定实施计划

第二步:数据准备

1)、数据选择:白猫黑猫能抓老鼠就是好猫,只要第一步确立了目标, 奔着这个目标选择各种与目标相关的数据,公司内部数据,外部行业数据,互联网数据等。可以爬去公开网站数据等。

2)、数据筛选:判断数据是否有缺失,如果缺失确定填充缺失字段或者删除缺失字段,数据类型一致性如日期时间,编码格式。等

3)、数据转换:对于结构化数据进行汇总导出排序异常值处理等,非结构化数据进行分词,情感分析,词频统计,去噪音等。

4)、数据优化:深入分析数据,主要清洗噪音数据。修改或删除异类数据

第三步:数学建模

1)、技术选择:根据自己技能选择适合的模型

2)、构建模型:根据数据,构建模型,

3)、模型评估:根据测试如交叉验证等测试结果,进行参数调优,并且评估各个模型,最终选择最合适的模型。

第四步:结果评估

根据模型跑出的结果,结合第一步中数据挖掘的目的。根据实际应用的情况,验证模型是否适合解决实际问题。如果能够解决,选择最优的一套模型或者多套模型混合部署在业务应用系统。从而为实际问题服务,如果都没能解决实际问题。返回重新调整模型或者重建。实践是检验真理的唯一标准。

第五步:模型应用

上一步以说。如果有合适的模型。与业务系统对接。确立最终方案。Do it !!!

你可能感兴趣的:(数据挖掘)