【数据向】(三)数据建模、数据挖掘、数据分析异同

最近在看数据分析相关文章的时候,看到了很多相似的关键词,如数据建模、数据挖掘、数据分析等等。它们指的是什么,彼此之间又有怎样的关联或者区别呢。

 数据建模

在看数据建模相关概念时,有两种截然不同的说法,我尝试将它们总结如下:

- 在大数据领域,指的是将业务抽象为数据表以及表与表之间关系的过程;

- 在数据分析领域,更多的含义指的是“数学建模”,即找到输入和输出之间的规律的过程;

数据挖掘与数据分析

数据分析其实是更大的概念,但是如果单拎出来和数据挖掘进行对比时,他们的区别应该是:

侧重点不同:

- 数据分析侧重依靠人的智慧对数据进行观察,从而分析和推测

- 数据挖掘侧重依靠机器从训练集中发现规律

实现方式不同

- 数据分析的常用方法为对比分析、分组分析、回归分析(找A和B的规律);

    - 一般流程为先明确目标(ctr不高如何提升),然后对原因做假设,并且通过现实数据对假设进行验证,从而得到结论;

- 数据挖掘的常用方法为专家系统、统计、机器学习(分类算法、回归算法)等

    - 一般流程为先明确目标,然后收集和清洗数据,对数据进行建模,最后输出模型或者规则;

数据分析完整流程

这里参考的是:https://blog.csdn.net/achuo/article/details/51160456

这位大佬将流程分为了两张图来解释,我这里为了方便看,把两张图合二为一,同样也根据不同的步骤分层打上了不同的颜色。

同时在相关步骤的右上角也有对应的编号,关于对应编号的详细阐述可以在图的下方找到:

数据分析完整流程

1、数据清洗:洗掉数据中的无效或干扰信息

2、数据整理:将原始数据整合成可以分析的样子

- 数据聚合:将多张表的数据聚合,比如用户购买流水、出售流水等,聚合为以用户为度的统计:购买次数,出售次数等;

- 数据打标:比如我们的源数据很散,假设是一张帖子,那么我们只需要提取其中部分信息,然后将这个帖子打上标记,比如求购贴/出售贴,涉及机型:任天堂/PS4/XBOX等

3、选择变量:从业务逻辑和数据逻辑两方面来考虑,业务逻辑重要程度更高

- 业务逻辑:哪些变量是可能影响结果的

- 数据逻辑:考虑变量的集中度(如果99%都是同一值,则不适合)、完整性(是否大部分数据都有该变量)

4、重构变量:调整变量或者将变量进行一定程度的转换,如聚合(活跃天数聚合为高中低活)、组合(A+B或者A*B等)

5、选择算法:要根据具体业务场景选择合适的模型(对应机器学习模型分类可以参考【数据向】(一)人工智能与机器学习、深度学习的关系中),比如:

- 购物习惯分析:相关、聚类

- 购物金额预测:回归

- 满意度调查:聚类、分类、回归

6、调整参数:给出一些必要的参数,比如K-means算法中的聚类数量K和迭代次数上限等参数,并且根据训练集的测试结果进行不断调整;

7、迭代优化:当调参解决不了问题时,考虑更换算法,比如K-means不好就试试系统聚类;回归模型不好就改成时间序列;

8、描述分析和洞察结论:通过观察事实数据,进行分组、对比等,得出一些结论,如某某地区玩家更多,某某游戏机更流行等;

你可能感兴趣的:(【数据向】(三)数据建模、数据挖掘、数据分析异同)