ETL基础理论 学习笔记

1、ETL的位置:介于数据与数据仓库之间

2、ETL的概念:数据抽取、转换、装载的过程,它是构建数据仓库的重要环节。

3、ETL的作用:负责将分布的、异构数据源中的数据如关系数据、平面数据文件等取到临时中间层(ods层)后进行清洗、转换、集成,最后加载到数据仓库(dw层)或者数据集市(dw层)中,成为联机分析处理、数据挖掘的基础。

4、数据的抽取

(1)与存放dw的数据库系统相同的数据源处理方法

        一般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能,在dw数据库服务器和原业务系统之间建立直接的关系,就可以写Select语句进行直接访问。

(2)与dw数据库系统不同的数据源的处理方法

        一般情况下,通过ODBC的方式建立数据库链接,如SQLServer和Oracle之间。如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将数据导出成.txt或.xls文件,然后再将这些源系统文件导入到ODS中。另一种方法是通过程序接口来完成。

(3)文件类型数据源

        可将数据导入到指定数据库后再抽取或者借助工具实现,如SQLServer的SSIS服务的平面数据源和平面目标等组件,导入ODS中。

(4)增量更新问题

        一般情况下,业务系统会记录业务发生等时间,可以用来做增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。

5、数据的清洗转换

        一般情况下,数据仓库分为ods、dw两部分。通常是从业务系统到ods做清洗,将脏数据和不完整的数据过滤掉,在ods到dw的转换过程中进行业务规则的计算和聚合。

(1)数据清洗

        数据清洗是过滤掉不符合要求的数据,将过滤结果交给业务主管部门,确认是否过滤掉还是由业务单位修正后再进行抽取。不符合要求的数据主要是不完整的数据、错误的数据、重复的数据三大类。

(2)数据转换

        主要是进行不一致的数据转换、数据粒度的转换以及一些商务规则的计算。

6、ETL的实现,常用的三种方法

(1)ETL工具(如SQLServer的SSIS服务、Informatica、DataStage等)实现。

(2)SQL方式实现(编码实现)。

(3)ETL工具与SQL相结合。

    前两种方法各有优缺点,借助工具可以快速建立ETL工程,屏蔽来复杂等编码任务,但是缺少灵活性。SQL方法等优点是灵活,提高ETL运行效率对技术要求高。第三组是综合前两种等优点,极大提高开发速度和效率。

 

你可能感兴趣的:(数据分析,ETL)