数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而
上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个
平台。
此层数据无任何更改,直接沿用外围系统数据结构和数据,
不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据
处理做准备。
也称为细节层,DW 层的数据应该是一致的、准确的、干
净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。
前端应用直接读取的数据源;根据报表、专题分析
需求而计算生成的数据。
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认
为是 ETL(抽取 Extra, 转化 Transfer, 装载 Load)的过程,ETL 是数据仓库的
流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,
而数据仓库日常的管理和维护工作的大部分精力就是保持 ETL 的正常和稳定。
用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因
此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发
生变化将会影响整个数据清洗过程,工作量巨大。
通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了
多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的
黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较
容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调
整某个步骤即可
数据仓库元数据管理
元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关
系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库
(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓
库的设计、部署、操作和管理能达成协同和一致。
元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库
中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使
用和维护。
l 构建数据仓库的主要步骤之一是 ETL。这时元数据将发挥重要的作用,它定
义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、
数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和
转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
l 用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制
报表。
l 数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部
数据源,改变数据清洗方法,控制出错的查询以及安排备份等。