数据治理:说一个90%的人没搞清的事

今天给大家介绍一组容易混淆的概念:数据清理VS数据整理。

​数据清理、数据整理也统称数据处理或数据准备,它是数据工作最基础的部分,不论数据仓库、数据治理、数据分析、数据挖掘,都离不开数据清理和整理,这也是每个数据项目耗费工作量最大的任务,平均占据了数据项目的60%以上的工作量。

数据清理和整理是数据分析、挖掘的前提,也是数据治理工作的重点内容。由于这两项任务大多数情况下是放在一起做的,因此很多人不知道或没有根本在意过这两个名词到底是不是一回事?即使你在一些专业的数据管理书籍中也难以找到他们的区别。

那,数据清理 = 数据整理 吗?

可能有人会说,“把事干好不就得了,纠结概念干吗?”

但是,概念都搞不清楚,有可能把事情做好吗?

数据治理的名词术语,我要和你死磕到底!

数据清理和数据整理到底是不是一回事?
清理,整理一字之差,两个“动词”,代表了两个截然不同的操作。

如果你不清楚数据清理和数据整理的区别,我先给你举个例子:清理房间VS整理房间。

一般我们说,“XX,你去把房间清理一下”,意思是让你去把房间做个大扫除,垃圾清理掉。清理是要扔东西,清理后,东西没了。

而如果说,“XX,你去把房间整理一下“,意思中不仅含有打扫的意思,更多的是还要让你把房间中杂乱无章的东西进行归类并摆放整齐。整理不扔东西,整理后,东西还在。

在数据管理领域,数据清理和数据整理企业也有同样的差异,如果明细分工的话,可以说这是数据处理工作中的两个”工段“,尽管现实中我们都将他们放在一起做了。

数据清理,有时也叫数据清洗,是指发现并纠正数据中可识别的错误的一道程序,包括检查数据一致性,处理无效值、缺失值处理、重复数据清理等。

数据整理,有时也叫数据转换,是指针对特定业务场景将清理后的数据转换为可用数据的一种做法,协调并确保数据质量满足业务所需。

看出来了吧,数据清理就是把数据中的“垃圾数据”处理干净,数据整理是在干净的数据基础上转换为业务所需要的数据,因此,往往我们亲切的合称它们为“数据清洗与转换”。

所以,以后领导让你搞一下“数据清洗与转换”,你要反问他:“你是让我搞数据清理呢,还是数据整理呢?”(只要你不怕被打,哈哈!)

在做数据清理或整理之前需要搞清楚的事情?
“垃圾进,垃圾出”,要想获得有效的数据分析结果,必须提供高质量的数据。数据清理和数据整理就是为数据分析、数据挖掘进行的一项数据质量准备工作。

凡事都要讲方法,在开始数据清洗和转换之前,你需要搞清楚以下三件事情,而不是一头扎进数据中,一顿乱撸。

1、定义业务案例

明确业务目标是正确处理数据的第一步,一个完整的业务案例场景一般包括:公司战略、业务目标、存在的问题、管理的现状,以及做该项工作预计投入的成本和投资回报率等等。
2、调查数据源

对项目所涉及的数据源进行全面调查,调查的的事项包括:
理清楚当前业务案例所需要哪些数据,这些数据的来源是什么,包含在哪些系统、哪些流程中。

明确这些数据源存放位置、当前是谁负责管理。

明确数据的实时性要求,定义数据源传输数据的机制和频率。

3、数据概要分析

此步骤是在清洗和整理数据之前真正了解数据,包括数据的结构、数据质量基本情况、数据体量的大小等等。对数据进行彻底分析和检测可以帮助确定数据源是否值得纳入数据清洗和整理工作中,明确可能的数据质量问题,以及为数据分析使用而清洗和整理数据所需的程度,这对后续数据清理和整理有个大致的预估。

定义业务案例,分析和评估数据源,识别出业务所需的数据以及使用该数据所需要处理的工作。好了,现在可以进入数据清洗阶段了。

数据清理的方法和技术
只有在评估并分析了数据源之后,才能进行数据清理。数据清理取决于彻底和连续的数据分析,以识别必须解决的数据质量问题。
常见的数据清理方法包括(但不限于):

1、定义数据质量计划
质量计划源自业务目标,这可能需要与业务人员进行一些调研,以找出对以下问题的答案:“我们的取数标准是什么?”,“我们哪些自动化取数的工具和方法”,“哪些数据是下游产品和业务流程的关键”,“数据质量谁负责”和“他们如何确定数据的准确性”等。

2、删除重复数据
没有完美的源数据集,有时候及时来自同一个数据源也可能存在大量的重复数据。需要对每一条记录进行唯一标识,为每个数据记录设置“主键”(一般会使用记录中的一个字段或多个字段的组合进行设置唯一主键)。如果数据集包含具有相同“主键”的记录,则可以删除其中一行以外的所有行。

3、验证准确性
不准确的数据对数据分析结果影响很大,需要在数据收集阶段验证数据的准确性。例如,你要分析某网站上某产品的平均价格,这时候你采集的数据如果只是促销期间的价格,就会对数据的准确性造成影响。

4、空值处理
空值是指字段中数据缺失,一般表现为“ NA”,“ Null”,“-1”等形式。对于空值处理方法有很多,例如,删除空值的记录、常数填充、均值填充、最大数填充、最小数填充,使用前一个或后一个数填充等,在不同的分析场景下使用不同的空值处理方式。

5、阈值检查
这是一种更加细致的数据清理方法。它包括将当前数据集与历史值和记录计数进行比较。例如,在医疗保险行业,假设每月理赔数据源平均允许的总金额为200万,唯一理赔计数为10万。如果随后的数据加载到达时允许的总金额为1000万元,并且有50万个唯一声明,那么这些金额将超出正常的预期差异阈值,并应触发进一步的审查。
前期数据清理可为下游流程和数据分析提供准确、一致的数据,这增强用户对数据的信心。

数据整理的方法和技术
数据整理有时也叫数据转换是针对特定业务场景将清理后的数据转换为业务所需的一种做法。大数据的挑战之一是处理大数据集,特别是在数据转换的早期,分析人员需要通过许多不同的探索性技术快速迭代。例如为了帮助驯服5亿行数据,需要对数据集进行随机采样以探索数据并列出准备步骤。这种方法将极大地加速数据探索,并迅速为进一步的转换奠定基础。

1、了解列和数据类型
如果数据源有数据字典的话可以快速帮助你完成此步骤。但如果没有数据字典的话这就是一个比较痛苦的事情,你需要猜测每一个列的业务含义以及实际存储在列中的数据与列的业务含义的匹配性。这个时候你可以寻求相关业务人员帮助你理清楚数据的业务定义。

2、可视化源数据
基于数据分析工具对数据清洗的结果数据进行可视化展示,让当前数据状态“栩栩如生”。例如:直方图显示分布,散点图帮助发现异常值,饼图显示整体百分比,折线图可以显示关键字段随时间的趋势。在数据工作的实践中以可视形式显示数据资产(清洗后的数据),也是解释探索性发现和向业务人员进行必要转换的一种好方法。

3、仅选择所需数据项
很多情况下,我们从数据源采过来的数据的列数要远远多于实际需要的列数,多余的列对实际业务分析没有任何帮助反而可能造成影响,以及时间和成本的投入等。因此,需要将多余的列进行删除或逻辑删除,仅保留业务需要的列即可。

4、转换为可操作数据
此步骤是将源数据转换为目标格式所需的数据的操作,包括转换,计算,重新格式化等。例如,如果源数据的日期字段为MM-DD-YYYY格式,而目标日期字段为YYYY/MM/DD格式,就需要更新源日期字段以匹配目标格式。

5、必要的数据测试
理想情况下,可以使用可靠的期望值来测试数据整理工作的结果。一般来讲,一个好的业务案例就包括用于验证业务目标的期望值。了解业务问题并迭代测试数据整理的结果有助于数据工作人员在过程中尽早发现数据问题以进行解决。

在当前数字化时代下,空间的数据量,多样的数据格式,数据的即时性等给企业带来了巨大的转型升级,快速增长的机会,但是要用好这些数据也存在的很大的挑战,而数据清理和整理将帮助企业充分释放数据的潜力,实现数据的价值。

写在最后的话
今天我们又死磕了一组相识的概念,但说实话,“数据清理”和“数据整理”的分界线并不十分明显,我自己也是经常混着用。同时呢,这篇文章也重点介绍了数据清理和数据整理的相关技术和方法,希望对你有帮助。
如果觉得不错,记得帮忙转发哦!另外,在数据领域,你认为还有哪些概念容易混淆,或者搞不明白的,可以给我留言,咱们一起“盘”它!

你可能感兴趣的:(数据分析数据挖掘数据可视化)