【学习】数据分析-SEMMA步骤解析

S:Sample(搜集数据)

基于需求,有针对性的搜集可以解决问题的数据。常用的搜集手段有:
• 问卷调查
• 数据库查询
• 实验室试验
• 仪器设备的记录
例如:影响收入的因素有哪些?如何预测他的收入范围呢?

E:Explore(数据探索)

通过数据探索,以求对数据的进一步了解。常用的探索方向有:
• 离散变量的分布比例
• 连续变量的分布形态
• 数据的异常和缺失
• 特征选择
例如:各变量的缺失状态?统计描述?数据分布形态?

M:Modify(数据修正)

数据修正,便于下一步的分析和建模。常用的修正方法有:
• 数据类型的转换
• 数据的一致性处理
• 异常值和缺失值的处理
• 数据形态的转换
例如:各变量中的缺失数据该如何处理?离散变量如何数值化?

M:Model(数据建模)

数据建模,侧重于未知事件的预测。常用的模型有:
• 有监督的预测性模型(如回归、决策树、KNN等)
• 有监督的判别性模型(如Logistic、贝叶斯、集成算法等)
• 无监督模型(如Kmeans聚类、层次聚类、密度聚类等)
• 半监督模型(如关联规则等)
例如:如何基于调查数据,预测用户的收入水平?

A:Assess(模性评估)

模型评估,检验模型的稳定性以及实用性。常用的检验方法有:
• RMSE
• 混淆矩阵
• ROC曲线
• KS曲线
例如:检验KNN模型对数据的拟合效果?

有没有更好的模型可以度量和预测现有的收入数据呢?常用策略:

• 增加样本
• 扩展维度
• 修正模型参数
• 更换其他模型

该过程往往是周而复始的过程,为达到更好的拟合效果,会不断地重复数据分析的每一个流程!

数据分析与挖掘的区别

数据分析与挖掘的区别
  分析 挖掘
定义 描述和探索性分析,评估现状和修正不足 技术性的“采矿”过程,发现未知的模式和规律
侧重点 实际的业务知识 挖掘技术的落地,完成“采矿”过程
技能 统计学、数据库、Excel、可视化等  过硬的数学功底和编程技术
结果 需结合业务知识解读统计结果 模型或规则

技能储备

数据搜集 -- SQL
数据清洗与探索 -- Excel | Python
数据建模 -- Python
结果呈现 -- PPT

你可能感兴趣的:(笔记,数据分析)