什么是ETL,ODS,DW,DM

ETL,extract-transform-load

对应中文为抽取-清洗转换-加载。
目的为将分布的异构的数据源的数据进行处理,最后加载到数据仓库或数据集市中,成为后续分析的基础。
ETL工具有OWB,DTS,informatic等。

数据抽取

数据拙取部分是将数据从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中,在抽取的过程中需要挑选不同的抽取方法,尽可能地提高数据预处理的远行效率。
如果已经并清楚了数据是从几个业务系统中来,各个业务系统的数据库服务器远行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等相关的信息,就可以根据这些信息开始进行数据抽取部分的设计。

数据转换

数据转换部分实际就是利用有关技术,如数理统计、数据挖掘或预定义的数据转换规则将源数据转化成满足数据质量要求的数据。
数据预处理中,花费时间最长的就是数据的转换部分,一般情况下这部分的上作量要占整个数据预处理的2/3。
在大多数情况下,数据转换是将数据汇总,以位它更布意义。在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。

数据加载

数据加载部分是将转换后的数据加载到数据仓库DW中。
数据加载策略包括加载周期和数据追加策略,数据加载周期要综合考虑经营分析需求和系统训载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持间一时间业务数据的完整件和一致性。

ODS操作数据存储,operational data store

存储的是当前的数据情况,给使用者提供当前的状态,提供即时性的、操作性的、集成的全体信息的需求。

DW数据仓库,data warehousing

数据仓库是一个过程而不是一个项目,数据仓库是一个环境,而不是一件产品。
数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。
数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称。
所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。

DM数据集市,data mart

DM是DW的一部门,只是DM面向部门,DW面向整体。
数据集市是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。
为了解决灵活性和性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。
数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

你可能感兴趣的:(什么是ETL,ODS,DW,DM)