清洗脏数据

虽然一直强调规范表格、规范数据的重要性,但是始终无法避免脏数据的产生。因此本文简单介绍一下哪些数据需要清洗,转换成规范数据和表格。

每一列的数据类型和数据格式。上一篇已经提到,同一列的数据是同一种数据类型,避免在同一列混用多种类型。

空格和不可见字符。常见于从系统导出的表格,用眼睛无法观察到,双击单元格进入编辑模式,或者使用单元格可以识别出来。

部分中文字符转换为英文字符。数字中的中文逗号、时间中的中文冒号等。

重复数据。删除会影响计算结果的重复数据。

空白行空白列。通常由不良的操作系统产生的,比如在数据行列中插入的空白行空白列;操作单元格时习惯性选择整行整列,进行设置格式或者填充颜色,导致没有数据的空单元格也变成已使用的单元格。

处理合并单元格。除了结果报表,避免的表格中使用合并单元格。

填充空单元格。比如取消合并单元格后,会出现大量空单元格,需要填充对应的值。

数字。用于计算的数字,将文本型数字转换为数值型;类似产品型号、编码等不用于计算的数字,转换为文本值。

日期。短横线“-”分隔,如“2022-11-04”“2022-11”;斜杠“/”分隔,如“2022/11/04”“2022/11”;)使用中文年月日,如“2022年11月04日”“2022年11月”。

时间。时间的小时、分隔和秒数用英文冒号“:”分隔如“22:04:10”“22:04”。

你可能感兴趣的:(清洗脏数据)