5.4.2 数据规范化处理

        由于数据源系统分散在各个业务线上,不同业务线对数据的要求,理解和规范都不同,这样就会导致对同一数据对象的描述规格完全不同,因此,在数据清洗的过程中需要将统一数据规范的数据抽取出来进行规范处理。

下面用kettle工具对数据进行检验操作:

一,创建转换

5.4.2 数据规范化处理_第1张图片

二,配置自定义常量数据

1,元数据选项卡

        添加字段常量ProductionDate,ProductionName,ProductionNumber以及CommoditySales并指定其数据类型,具体效果如图。

5.4.2 数据规范化处理_第2张图片

 2,数据选项卡

        单击“数据”选项卡,添加自定义的数据,具体效果如图。

5.4.2 数据规范化处理_第3张图片

三,配置计算器控件

        添加一个新字段单价(UnitPrice),用销售总额(CommoditySales)除以销售数量(ProductionNumber),具体效果如下图。

5.4.2 数据规范化处理_第4张图片

四,数据检验控件的配置

        共三个数据检验:

        一个是对日期的检验,,检验类型,要求日期必须在2019-01-01之后,如下图。

5.4.2 数据规范化处理_第5张图片

         二是对名称的检验,,检验其类型,名称必须为小写。如下图。

5.4.2 数据规范化处理_第6张图片

三是对单价的检验,对数据类型的检验,且单价可能会出现数,最小值为10。如下图。

5.4.2 数据规范化处理_第7张图片

 五,查看结果

符合规范的数据

5.4.2 数据规范化处理_第8张图片

 不符合规范的数据

5.4.2 数据规范化处理_第9张图片

你可能感兴趣的:(数据清洗,etl)