CRISP-DM分析方法和思路

目录

CRISP-DM原理及原理图

1.理解业务需求

2.数据理解 【理解业务,探索业务需求中的指标概念和影响因素】

3.数据准备【业务数据与分析数据格式不同,需要做转换】

4 模块化 【选择分析技术对数据分析计划进行模块化】

5 评估【从业务角度评估结果】

6 部署【实现数据分析应用到业务中】


日常项目中的数据为来自于业务功能产生的基础数据不适合直接用于数据分析。

这些基础数据的显著特点是获取成本低,但是在分析应用前可能存在错误、所以需要做清理和变换

  • CRISP-DM原理及原理图

crisp-dm是一种在尝试和试错中探索的过程】

用数据和可视化频繁的查看数据和业务中的模式和知识,然后使用更正式的统计方法和数据来描述你获取的知识模式。

CRISP-DM分析原理图:

CRISP-DM分析方法和思路_第1张图片

1.理解业务需求

【业务需求决定了分析的方向】明确业务需求和分析目标

明确what are you doing,why you are doing

1.1确定业务目标
1.2评估情况【清理数据源来历】【需求、约束及风险】

2.数据理解 【理解业务,探索业务需求中的指标概念和影响因素】

明确需要哪些数据,并明确地定义数据【格式和场景】

【这一步的作用:帮助自己了解哪些数据可用,使业务需求和实际的数据保持一致性,验证业务需求是否可行,并细化实现指标和内容】

2.1收集原始数据   通过【数据在项目资源中的列表】,明确【数据的位置和获取数据的方法】
2.2描述数据       明确【数据表面特性、数据格式和质量】充分利用数据字典
2.3探索数据    重点把握【数据整体趋势及特殊子集】
2.4验证数据质量   验证内容【数据全,正确与否、是否有噪声数据或异常值】等

方法:【通过数据字典、业务需求的数据定位、额外数据集、构建数据(原因、方法和规则)、用可视化方式对数据进行探索、评估数据质量】

【基于选择的数据和业务需求选择分析方法、格式化数据、进行分析】

3.数据准备【业务数据与分析数据格式不同,需要做转换】

3.1选择数据【考虑与业务需求的相关性、数据质量和技术约束等因素】
3.2清洗数据  【通过选择、替换等方法提高数据质量】
3.3构造数据  【构造衍生属性】
3.4集成数据  【同源数据合并和不同源数据合并】
3.5格式化数据  【根据业务需求对数据进行格式化】

4 模块化 【选择分析技术对数据分析计划进行模块化】

4.1选择建模技术 【业务理解阶段,用到一些算法模型】
4.2生成测试设计 【分离测试数据和训练数据,定义模型结果验证参数】
4.3建立模型 【列出参数和选择值,评估模型】

5 评估【从业务角度评估结果】

5.1从业务角度评估结果
5.2审核过程 【是否有重要的因素被忽略】
5.3确定下一步 【验证可行然后部署实施】

6 部署【实现数据分析应用到业务中】

6.1计划实施 【确定如何使用分析及挖掘结果来达到业务需求的目标】
6.2计划的监控和维护 【数据分析实施的计划应用到业务系统中,数据和结果反馈】
6.3最终的报告
6.4项目回顾总结

过程中出具的工作结果:

【出具的内容】【分析问题的思维导图、明确项目依据和目标(业务理解和指标细化)、根据数据字典进行数据分析、总结性的数据探索报告、分析计划(维度和度量等指标确定和实现)、最终验证报告、业务实现】

你可能感兴趣的:(数据分析)