CPDA_数据的获取_2019-07-15

数据分析的主要流程涵盖:数据的获取、数据预处理、数据模型分析、数据可视化等,其中数据预处理很重要,数据模型分析较为复杂,可视化则是对有效数据进行美化、包装,让老板或客户更容易理解。

首先讲讲数据预处理:

1、在处理数据之前首先需要对数据有个总体的理解,比如数据的集中趋势、离散程度、分布情况。

2、处理数据的异常值,可以通过箱线图/excel中的求四分位数来识别异常值。但此处异常值处理需要结合业务。例如:游戏行业的高付费用户正好是会被识别为异常值,但该用户群不可被忽略。

3、同时通过箱线图可以识别数据的量纲是否一致,比如箱线图特别扁的时候就需要检查数据的量纲是否一致了。量纲不一致可以通过标准化进行处理,具体标准化方法包含最大最小标准化、零均值标准化、小数定标标准化。标准化处理一般使用Python或者网上的付费数据分析网站。

4、通过相关系数矩阵来检验数据的共线性,变量之间的相关系数越趋向于1,则说明他们之间越具有强相关性,需要降低二者相关性。

降低相关性的方法有三大类:

一类是降维法,包含主成分、因子分析。主成分、因子分析就是通过坐标轴旋转进行降维,降低其共线性。变量之间的相关性大于0.8时,可以使用降维法,同时这种情况下标准化需要在共线性检验之前。

第二类是构造新变量,其中分为比值法和增量法,构造出来的新变量需要还原至原变量,此处需要先做共线性检验,再做标准化。

第三类降低相关性的方法是增大样本容量。

5、此外,还有哑变量,即将变量转变为(0,1)方便模型处理分析。

6、离散化:将连续变量离散化处理以方便后期分类。

你可能感兴趣的:(CPDA_数据的获取_2019-07-15)