数据分析第三步:数据预处理

数据预处理的目的是为了保证数据的质量,以便能够更好的为后续的分析、建模工作服务。在拿到数据以后,我们首先要判断此数据是否可为我们所用,也就是我们根据需求目标所拿到的数据的质量是否过关。

一般情况下,数据预处理主要有数据清洗(如对异常值、缺失值、数据格式的处理)、构造新变量(均值、因子分子中的因子)、数据标准化、数据类型的变换等。

对于异常值、缺失值要给出其产生的原因,对于构造新变量、数据标准化、数据类型变换同样也要给出采用此种方法的原因。

比如,有时候我们根据需求目标所拿到的数据会缺少某些字段,此时的数据质量不咋地、不足以支撑我们在后续开展分析/建模的工作。这种情况可能是由于对业务的理解、对库里的数据结构掌握欠缺所导致的(有时从需求目标到拿到合适的数据需多次取数);也有可能是由于对数据理解的偏差(如对变量及变量特征的掌握不够)。对业务的深度理解和对数据的深度理解能够更好的保证数据预处理的顺利进行。

2018年1月18日下午

你可能感兴趣的:(数据分析第三步:数据预处理)