数仓(五)-规范化

一、数据质量

正确的:数据的值和描述真实的反映了它需要表达的对象。例如,某一位作者当前居住的城市叫 New Hope,那么,关于家庭地址的数据应该包含正确的城市名称 New Hope。

明确的:数据的值和描述应该是只有一个含义。例如,在美国至少有十个城市叫 New Hope,而在宾夕法尼亚州只有一个城市叫 New Hope。那么,在“精确的”数据中,描述这个城市中的地址是应该包含城市名 New Hope 以及州名称宾夕法尼亚,这样的数据才是“明确的”。
一致的:数据的值和描述用一种不变的标识约定来表达其含义。例如,美国的宾夕法尼亚洲可能在数据中表达为 PA, Penn 或 Pennsylvania。为了满足一致性的要求,关于当前家庭住址的的“精确”数据应该只使用一种约定方式来表达州名称(比如使用全名 Pennsylvania),并且坚持这一种用法。
完整的:
一 要确保数据中为每个实例定义了(不能为空)特定的值和描述,例如,要确保所有应该有当前住址信息的记录实际上确实有值。
二 要确保记录的总数量是完整的,或者确保在整个信息流中没有在任何地方丢失记录。

二、数据评估

结构定义
业务对象

数据源
表定义
别名
数据规则
数据值规则
需要处理的问题
三、审计维、错误事实表

你可能感兴趣的:(数仓(五)-规范化)