数据仓库ETL 概念及实现<1>

  ETL是数据仓库的第一步,指的是数据的EXTRACT、TRANSFER、LOAD三个步骤,解释分别是从操作系统中抽取,数据转化,入库。
  数据抽取:
  1. 抽取的数据文件格式要接近源系统的数据结构(这一点为了稳定、易于理解)。
  2. 抽取过程中需要过滤掉数据仓库不需要的数据记录以及字段,这样会减少文件抽取、后续入库、转换的压力。对于记录数可以使用增量、全量的抽取方式,字段可以预先定义(这样做会有一些弊端,比如数据仓库中用户的分析需求是变化的,可能后续会需要增加某些字段或者记录的导出)。
  3. 一般来讲,数据抽取需要减少对源系统的影响,和其他团队的依赖,并减少网络依赖;为了减少对源系统的影响,如果对数据的时效性要求不高的话,可以一定时间段比如每小时、每天抽取一次数据文件;抽取文件的时间选择系统不被使用、或者低频的时间;对于某些 系统,由于抽取文件时间较长、不同系统之间有着不同的监管需求,可以采用建立备库,使得对数据抽取工作集中在备库上进行,减少对核心系统的访问与修改,规避源系统风险。
  数据转换:
  数据转换一般来讲,包含数据清洗、与转换,是将源系统抽取出来的文件进行过滤,格式转换生成可以直接加载到数据仓库的文本文件,进行入库(数据结构与数据仓库中的表定义一致)。
  数据清洗: 过滤掉不符合条件或者错误的数据(这种 情况一般发生在 源系统尚不稳定、数据仓库建立初期),不过对于比较成熟的数据仓库 ,会建立一定的监测机制进行一些特殊校验,例如数据是否符合业务规则,比如两张报表的数据金额无法对的上,

你可能感兴趣的:(ETL)