学习笔记(02):零基础搞定Python数据分析与挖掘-数据分析的流程

立即学习:https://edu.csdn.net/course/play/6861/326736?utm_source=blogtoedu

1、理解数据分析的各个流程:semma

S:sample(搜集数据)

收集数据手段:

问卷调查

数据库查询

实验室试验

机器设备的记录

E:explore(数据探索)

探索方向:

离散变量的分布比例

连续变量的分布形态

数据的异常和缺失

特征选择

M:modify(数据修正)

修正方法:

数据类型的转换

数据的一致性处理

异常值和缺失值的处理

数据形态的转换

M:model(数据建模)

侧重于未知事件的预测,常用模型:

有监督的预测性模型(如回归、决策树、KNN等)

有监督的判别性模型(如logistic、贝叶斯、集成算法等)

无监督模型(如Kmeans聚类、层次聚类、密度聚类等)

半监督模型(如关联规则等)

A:assess(模型评估)

模型评估、检验模型的稳定性及实用性。常用检验方法有:RMSE、混淆矩阵、roc曲线、ks曲线

模型更好的策略:增加样本、扩展维度、修正模型参数、更换其他模型

2、数据分析与数据挖掘的区别

3、数据分析需要掌握的技能

你可能感兴趣的:(研发管理)