谈谈数据仓库架构的发展和分类

整理于2008年02月13日,2009年10月22日迁移至此。


在此不做评述,仅供参考!
#A4Y*]9O~4Em7D4HgM@K6517 以下内容均引自于ttnn网站,详细链接如下:
X v,I2s#O Tf cY6517 http://groups.google.com/group/ttnn?lnk=li

"Q8E5E;~+f2P6517 1ITPUB个人空间%`3c[io+_n:e1S
发件人: Jerome - 查看个人资料ITPUB个人空间s7L2qw5u
日期: 2006年12月10日(星期日) 下午4时36分
&AK/G/_�s6517 电子邮件: "Jerome" <[email protected]>
any/PK(n4L6517 尚未评分
vhb7k7_"xu6517 评级:
Z Dm#znfz5uK3A6517 显示选项
:Z1@{|;m7B:u_6517 回复 | 答复作者 | 转发 | 打印 | 显示个别帖子 | 显示原始邮件 | 报告滥用行为 | 查找此作者的帖子ITPUB个人空间2Am Sdce m%Zb,k

+j#Xj3FRa1? X6517 最近大家对数据仓库架构的讨论又多了起来,我在这里对一些架构进行一下简单的整理。目的是给大家树立一个靶子,大家可以在这篇文章后尽情的批判和补充。ITPUB个人空间j:Z*{ Cue5nE
我把我听说过的架构都归整在一起,分了六类,其中和很多说明是我个人的理解,不见得正确,大家多多指导。ITPUB个人空间m Y6kw N*P}:TL y
1.独立的数据集市架构(Independent data mart architecture)
:xz"r3[`.y4j&V6517 独立的数据集市架构有时也称为独立的数据仓库架构,应该是出现最早的架构方式,也是很常见的方式。特别是对于中小企业、中小开发公司,出于成本和见效快的考虑都会采用这种架构方式。大家对这种架构方式一定也很熟。
j k5u/A!dF!y{y Ym)^6517 这种架构方式的缺点也很明显,不是企业内一致的数据,产生信息孤岛。当然我企业就是很小,就一个系统,不用整合,一个数据集市足以的情况下采用这种方式也没什么。先期小投资,让企业看看效果,以后发展大了再考虑重新建立数据仓库。ITPUB个人空间 lx;@,y KK&U4y9k6f
2.联邦式数据仓库架构(Federated data warehouseITPUB个人空间 |6Ga0{W fS]
architecture)ITPUB个人空间6m$M*W0K3y U,Z1a
这 种架构方式我之前写过一点简单介绍,当然,我对这种方式也不熟,介绍的也是乱七八糟。我想它的出现应该是由于,企业发展的初期建立了几个独立的数据集市架 构,后来发现这样不行,数据没整合,要解决信息孤岛得想办法。推倒重建当然好,不过投入太大,以前的数据集市还想用,怎么办。于是,想出另一种办法,在各 个独立的数据集市间建立一些对照表,在不推倒它们的基础 上能进行一下数据交换。后来,慢慢发现,早想好整合策略,直接这样建数据仓库也可以,于是,地域联邦、功能联邦的概念 也就都提出来了。
PAcm8e?~h6517 联邦架构的缺点也很明显,除非建立之初就采用类似总线架构的方法实现数据一致,否则很容易出现数据不一致,导致整合的不彻底。如果之初就考虑好的话,和总线架构的差别就不大了。当然,对于临时解决企业原有独立数据集市的数据交换问题,联邦架构还是有一定作用的。ITPUB个人空间 @ODpikGtb
3.集中式架构(Centralized architecture)
.M n|8aj6517 集 中式架构方式的出现,标识着数据仓库架构已经进入比较成熟的时期。他的架构方式是建立物理的EDW,即中心数据仓库,数据都集中的EDW中,应用和分析程 序都在EDW中进行访问,数据是全企业内一致的。随着ROLAP的发展,在这种集中式架构中建立ROLAP开始比较流行,常见的 MicroStrategy公司的解决方案就是在EDW中建立ROLAP。ROLAP单独建表保存元数据,只保存维度模型的关系,不保存维度模型的数据, 由MicroStrategy的应用去解析,加上应用服务器作为缓存,速度还可以。ITPUB个人空间4zJ!` v:`
这种方式也有一些缺点,如扩展能力差,对EDW所在的RDBMS要求太高,随着数据量和分析的逐步增长,就不得不再把数据进行分离。如果在EDW的基础上进行数据分离,为不同的应用单独建立数据集市或者挖掘仓库,集中式结构也就演变成Hub
g?E;W`7N;S)~S6517 and Spoke架构方式。ITPUB个人空间X�dh�j"IGl1|"jD
4.集线器和车轮辐条架构(Hub and spoke architecture)ITPUB个人空间4H-Ti(tjM/J O!q
其实我更想直接称之为企业信息工厂架构(Corporate
/;X|_'sjEQ:s+q6517 information factory ITPUB个人空间5v;M+`'{:pvQ7G!Z
architecture), 集线器和车轮辐条架构听起来比较别扭,叫起来也不响亮。而企业信息工厂应该是这种架构方式的最出色的代表。从名称我们也能大概猜个差不多,中心数据仓库 EDW从各个源系统收集数据,将数据提供给各个数据集市和挖掘仓库,功能和集线器很相似,所以称为Hub。如果大家把图画出来,可能会更形象一些,EDW 和各个源数据库 及数据集市、挖掘仓库之间都连一条线,看起来就向一个车轮,这些连线就像车轮辐条,所以称为Spoke。而这种采用中心数据仓库EDW集成数据,再分散到各个数据集市使用数据的方式就形象的称为HubITPUB个人空间DA3y+D%_V
and spoke architecture。ITPUB个人空间/{,j^/x)R
这种架构方式当然也有缺点,虽然是在集成的中心数据仓库EDW上建立数据集市,但是这些数据集市之间还是不能进行数据交换的,大家建立的方法和ETL程序都会不同,各个数据集市之间的数据不见得的是一致的。而且这种架构方式开始变得复杂。
p(Y"n2t:o;Ej]7s [g6517 5.总线架构(Bus architecture)ITPUB个人空间6jK�Q%v;C m:kK9q3B~
总线架构和Hub and spoke
n[6x&r4j'Cf[6517 architecture 的最大区别,应该是维度建模的原子层和一致性维度的建立。正因为预先建立的总线架构和一致性维度,所以这种架构可以保证在逐步建立数据集市的过程中还能保 证企业数据的一致性。总线架构是数据仓库架构方式从复杂走向简单的一步,将维度建模的数据仓库原子层和数据集市合而为一,一层就把数据仓库建立好的,还能 支持各种数据集市分析应用。
e8y:}/b:v-AI6517 当然总线架构也有缺点,中心数据仓库以维度模型保存,对于特殊的非维度型分析应用会有局限性,支持的不好。ITPUB个人空间!O(IN�@5}|l9w!/ n5O
6.复合式架构(Composite architecture)
&J

你可能感兴趣的:(c,应用服务器,数据库,数据仓库,扩展)