主流数据仓库架构简析(11年文章新浪博客迁移)

   目前来说,数据仓库架构比较成熟并已经形成理论的主要有两个,一个是Corporate Information Factory,简称CIF,中文一般翻译为企业信息工厂,代表人物是Bill Inmon;另一个是Mutildimensional Architecture,简称MD,中文一般翻译为多维体系结构,代表人物是Ralph Kimball。

   企业信息工厂主要包括集成转换层(Integrated and Transformation Layer)、操作数据存储(Operational Data Store)、数据仓库(Enterprise Data Warehouse)、数据集市(Data Mart)、探索仓库(Exploration Warehouse)等部件。

   多维体系结构分为后台(Back Room)和前台(Front Room)两部分。后台主要负责数据准备工作,称为数据准备区(Staging Area),前台主要负责数据展示工作,称为数据集市(Data Mart)。而数据仓库是一个虚拟的部件,它指的是全部数据集市的集合。

   两个数据仓库架构各有优缺点,一种比较流行的做法是合用两种架构,即建立CIF的数据仓库和MD的数据集市。

浅析企业信息工厂 

   数据仓库领域里,有一种构建数据仓库的架构,叫Corporate Information Factory,中文一般翻译为”企业信息工厂”。企业信息工厂的创始人是数据仓库之父Inmon。

    企业信息工厂主要包括集成转换层(I&T)、操作数据存储(ODS)、数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。这些部件有机的结合在一起,为企业提供信息服务。

    集成转换层(I&T)的目的是将来自操作型源系统的数据集成转换到数据仓库中,它通常由一组程序组成,而其它部件如数据仓库和数据集市等则主要由数据组成。 当业务数据来源多,业务复杂时,集成转换层会建立一些临时表,为数据处理提供方便。这时,集成转换层包括程序和数据,也称数据准备区(Data Staging Area)。通常中等规模及以上的数据仓库系统都会建立数据准备区。

   操作数据存储(ODS)是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要。例如,出尽可能实时的集成的操作报表等需求。一般,也称操作数据存储是用来满足企业战术决策的需要。操作数据存储是个可选的部件。

    数据仓库(EDW)是企业信息工厂的核心部件,用来保存整个企业的数据。一般,也称数据仓库是用来满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作数据存储。

    数据集市(DM)是为了满足企业特定部门的分析需求而专门建立的数据的集合。数据集市的数据来源是数据仓库。企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。

    探索仓库(EW)或数据挖掘仓库的建立主要是为了解决大型查询,提高数据仓库的效率。当有探索或挖掘需求时,会从数据仓库导出一部分数据提供给他们操作。

   企业信息工厂中的数据流向一般是从源系统到数据准备区到操作数据存储到数据仓库到数据集市。当分析人员在数据仓库或数据集市中得出分析结论后,会有信息的回流。这种信息回流有可能是物理数据的回流,也可能是直接改变业务部门的策略,总之,要将分析的结果应用起来。通过这种信息的回流,企业信息工厂的不同部件可以不断的相互调整,最终找到一种平衡。这也是称为企业信息工厂的原因。

浅析多维体系结构

   数据仓库领域里,有一种构建数据仓库的架构,叫Multidimensional Architecture(MD),中文一般翻译为”多维体系结构”,也称为”总线架构”(Bus Architecture)。多维体系结构的创始人是数据仓库领域中最有实践经验的Kimball博士。

   多维体系结构主要包括后台(Back Room)和前台(Front Room)两部分。后台也称为数据准备区(Staging Area),是MD架构的最为核心的部件。在后台,是一致性维度的产生、保存和分发的场所。同时,代理键也在后台产生。

    前台是MD架构对外的接口,包括两种主要的数据集市,一种是原子数据集市,另一种是聚集数据集市。原子数据集市保存着最低粒度的细节数据,数据以星型结构来进行数据存储。聚集数据集市的粒度通常比原子数据集市要高,和原子数据集市一样,聚集数据集市也是以星型结构来进行数据存储。前台还包括像查询管理、活动监控等为了提供数据仓库的性能和质量的服务。

   在多维体系结构中,所有的这些基于星型机构来建立的数据集市可以在物理上存在于一个数据库实例中,也可以分散在不同的机器上,而所有这些数据集市的集合组成的分布式的数据仓库。

你可能感兴趣的:(数仓理论相关,DataWarehouse,数据仓库,企业信息工厂)